skill

PinchBench 是一个用于评估 LLM 模型作为 OpenClaw 编码代理的基准测试系统。

Agent Skill编程与开发开源

形态: Agent Skill
是否开源: 是
GitHub Stars: ★ 1.2k
收录来源: skill-github
仓库: github.com/pinchbench/skill

能力说明

PinchBench 是一个基准测试系统，用于评估 LLM 模型作为 OpenClaw 编码代理的表现。它通过实际任务（如安排会议、编写代码、处理电子邮件等）来测试模型的能力。PinchBench 可以帮助开发者了解模型在工具使用、多步骤推理、处理模糊指令和实际结果生成等方面的表现。要接入 PinchBench，需要克隆仓库并运行脚本。适合希望评估和改进 LLM 模型性能的开发者。

能力点

▪工具使用能力
▪多步骤推理能力
▪处理模糊指令
▪实际结果生成
▪自动评分

适用场景

评估 LLM 模型的编码能力比较不同 LLM 模型的性能改进 LLM 模型的实际应用表现

接入方式

依赖：Python 3.10+uv 包管理器OpenClaw 实例

git clone https://github.com/pinchbench/skill.git && cd skill && ./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4

以上信息由 AI 基于公开资料整理，可能存在偏差，以来源为准。

常见问题

如何注册 API 令牌？

运行 ./scripts/run.sh --register 命令。

如何提交官方结果？

使用 --official-key 标志或设置 PINCHBENCH_OFFICIAL_KEY 环境变量。

相关 Skill

gemini-cli

Gemini CLI 是一个开源的 AI 代理，将 Gemini 的强大功能直接带入终端。

MCP

clawgod

ClawGod 是一个运行时补丁，为 Claude Code 添加额外功能和解锁限制。

Agent Skill

planning-with-files

基于文件的持久化规划技能，适用于AI编码代理和长时间运行的任务。

Agent Skill

scientific-agent-skills

将任何AI代理转变为科学助手，提供147种即用型科研技能。

Agent Skill

susi_alexa_skill

通过 Alexa 与 Susi AI 进行问答交互的技能。

Agent Skill

claude-context

为 Claude Code 提供代码搜索能力，使整个代码库成为上下文。

MCP