- 形态
- Agent Skill
- 是否开源
- 是
- GitHub Stars
- ★ 1.2k
- 收录来源
- skill-github
能力说明
PinchBench 是一个基准测试系统,用于评估 LLM 模型作为 OpenClaw 编码代理的表现。它通过实际任务(如安排会议、编写代码、处理电子邮件等)来测试模型的能力。PinchBench 可以帮助开发者了解模型在工具使用、多步骤推理、处理模糊指令和实际结果生成等方面的表现。要接入 PinchBench,需要克隆仓库并运行脚本。适合希望评估和改进 LLM 模型性能的开发者。
能力点
- ▪工具使用能力
- ▪多步骤推理能力
- ▪处理模糊指令
- ▪实际结果生成
- ▪自动评分
适用场景
评估 LLM 模型的编码能力比较不同 LLM 模型的性能改进 LLM 模型的实际应用表现
接入方式
依赖:Python 3.10+uv 包管理器OpenClaw 实例
git clone https://github.com/pinchbench/skill.git && cd skill && ./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4
以上信息由 AI 基于公开资料整理,可能存在偏差,以来源为准。
常见问题
如何注册 API 令牌?
运行 ./scripts/run.sh --register 命令。
如何提交官方结果?
使用 --official-key 标志或设置 PINCHBENCH_OFFICIAL_KEY 环境变量。
相关 Skill
gemini-cli
Gemini CLI 是一个开源的 AI 代理,将 Gemini 的强大功能直接带入终端。
MCP
clawgod
ClawGod 是一个运行时补丁,为 Claude Code 添加额外功能和解锁限制。
Agent Skill
planning-with-files
基于文件的持久化规划技能,适用于AI编码代理和长时间运行的任务。
Agent Skill
scientific-agent-skills
将任何AI代理转变为科学助手,提供147种即用型科研技能。
Agent Skill
susi_alexa_skill
通过 Alexa 与 Susi AI 进行问答交互的技能。
Agent Skill
claude-context
为 Claude Code 提供代码搜索能力,使整个代码库成为上下文。
MCP