skillsbench

评估AI代理使用技能的效果和效率。

Agent Skill编程与开发开源

形态: Agent Skill
是否开源: 是
GitHub Stars: ★ 1.4k
收录来源: skill-github
仓库: github.com/benchflow-ai/skillsbench

能力说明

SkillsBench 是一个用于评估AI代理如何有效利用技能的基准工具。它通过类似gym的基准测试方法，测量代理在执行特定工作流时对技能的利用效果。该工具旨在构建最广泛、最高质量的代理技能基准，并设计需要组合多个技能的任务。适用于主要模型如GPT-5.5、Claude Opus 4.8等。用户可以通过安装BenchFlow CLI并运行相关命令来开始使用。

能力点

▪技能有效性评估
▪代理行为评估
▪多技能组合任务设计
▪支持多种主流模型

适用场景

评估AI代理性能优化技能组合研究技能使用策略

接入方式

依赖：API KeyNode 环境

git clone https://github.com/benchflow-ai/skillsbench.git; cd skillsbench; uv tool install benchflow; uv sync --locked

以上信息由 AI 基于公开资料整理，可能存在偏差，以来源为准。

常见问题

如何开始使用SkillsBench？

克隆仓库，安装BenchFlow CLI，同步工具，然后运行任务检查。

需要哪些API密钥？

需要Anthropic和OpenAI等API密钥。

相关 Skill

gemini-cli

Gemini CLI 是一个开源的 AI 代理，将 Gemini 的强大功能直接带入终端。

MCP

clawgod

ClawGod 是一个运行时补丁，为 Claude Code 添加额外功能和解锁限制。

Agent Skill

planning-with-files

基于文件的持久化规划技能，适用于AI编码代理和长时间运行的任务。

Agent Skill

scientific-agent-skills

将任何AI代理转变为科学助手，提供147种即用型科研技能。

Agent Skill

susi_alexa_skill

通过 Alexa 与 Susi AI 进行问答交互的技能。

Agent Skill

claude-context

为 Claude Code 提供代码搜索能力，使整个代码库成为上下文。

MCP