- 形态
- Agent Skill
- 是否开源
- 是
- GitHub Stars
- ★ 1.4k
- 收录来源
- skill-github
能力说明
SkillsBench 是一个用于评估AI代理如何有效利用技能的基准工具。它通过类似gym的基准测试方法,测量代理在执行特定工作流时对技能的利用效果。该工具旨在构建最广泛、最高质量的代理技能基准,并设计需要组合多个技能的任务。适用于主要模型如GPT-5.5、Claude Opus 4.8等。用户可以通过安装BenchFlow CLI并运行相关命令来开始使用。
能力点
- ▪技能有效性评估
- ▪代理行为评估
- ▪多技能组合任务设计
- ▪支持多种主流模型
适用场景
评估AI代理性能优化技能组合研究技能使用策略
接入方式
依赖:API KeyNode 环境
git clone https://github.com/benchflow-ai/skillsbench.git; cd skillsbench; uv tool install benchflow; uv sync --locked
以上信息由 AI 基于公开资料整理,可能存在偏差,以来源为准。
常见问题
如何开始使用SkillsBench?
克隆仓库,安装BenchFlow CLI,同步工具,然后运行任务检查。
需要哪些API密钥?
需要Anthropic和OpenAI等API密钥。
相关 Skill
gemini-cli
Gemini CLI 是一个开源的 AI 代理,将 Gemini 的强大功能直接带入终端。
MCP
clawgod
ClawGod 是一个运行时补丁,为 Claude Code 添加额外功能和解锁限制。
Agent Skill
planning-with-files
基于文件的持久化规划技能,适用于AI编码代理和长时间运行的任务。
Agent Skill
scientific-agent-skills
将任何AI代理转变为科学助手,提供147种即用型科研技能。
Agent Skill
susi_alexa_skill
通过 Alexa 与 Susi AI 进行问答交互的技能。
Agent Skill
claude-context
为 Claude Code 提供代码搜索能力,使整个代码库成为上下文。
MCP