skill

skill

PinchBench 是一个用于评估 LLM 模型作为 OpenClaw 编码代理的基准测试系统。

Agent Skill编程与开发开源
形态
Agent Skill
是否开源
GitHub Stars
★ 1.2k
收录来源
skill-github

能力说明

PinchBench 是一个基准测试系统,用于评估 LLM 模型作为 OpenClaw 编码代理的表现。它通过实际任务(如安排会议、编写代码、处理电子邮件等)来测试模型的能力。PinchBench 可以帮助开发者了解模型在工具使用、多步骤推理、处理模糊指令和实际结果生成等方面的表现。要接入 PinchBench,需要克隆仓库并运行脚本。适合希望评估和改进 LLM 模型性能的开发者。

能力点

  • 工具使用能力
  • 多步骤推理能力
  • 处理模糊指令
  • 实际结果生成
  • 自动评分

适用场景

评估 LLM 模型的编码能力比较不同 LLM 模型的性能改进 LLM 模型的实际应用表现

接入方式

依赖:Python 3.10+uv 包管理器OpenClaw 实例
git clone https://github.com/pinchbench/skill.git && cd skill && ./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4

以上信息由 AI 基于公开资料整理,可能存在偏差,以来源为准。

常见问题

如何注册 API 令牌?

运行 ./scripts/run.sh --register 命令。

如何提交官方结果?

使用 --official-key 标志或设置 PINCHBENCH_OFFICIAL_KEY 环境变量。

相关 Skill