skillsbench

skillsbench

评估AI代理使用技能的效果和效率。

Agent Skill编程与开发开源
形态
Agent Skill
是否开源
GitHub Stars
★ 1.4k
收录来源
skill-github

能力说明

SkillsBench 是一个用于评估AI代理如何有效利用技能的基准工具。它通过类似gym的基准测试方法,测量代理在执行特定工作流时对技能的利用效果。该工具旨在构建最广泛、最高质量的代理技能基准,并设计需要组合多个技能的任务。适用于主要模型如GPT-5.5、Claude Opus 4.8等。用户可以通过安装BenchFlow CLI并运行相关命令来开始使用。

能力点

  • 技能有效性评估
  • 代理行为评估
  • 多技能组合任务设计
  • 支持多种主流模型

适用场景

评估AI代理性能优化技能组合研究技能使用策略

接入方式

依赖:API KeyNode 环境
git clone https://github.com/benchflow-ai/skillsbench.git; cd skillsbench; uv tool install benchflow; uv sync --locked

以上信息由 AI 基于公开资料整理,可能存在偏差,以来源为准。

常见问题

如何开始使用SkillsBench?

克隆仓库,安装BenchFlow CLI,同步工具,然后运行任务检查。

需要哪些API密钥?

需要Anthropic和OpenAI等API密钥。

相关 Skill