- 形态
- Agent Skill
- 是否开源
- 是
- GitHub Stars
- ★ 1.4k
- 收录来源
- skill-github
能力说明
这些技能旨在指导AI编码代理,帮助用户构建LLM评估。它们可以帮助避免常见的错误,并推荐其他技能来解决问题。适用于工程师和产品经理,特别是那些刚开始接触评估的人。通过Claude Code或Skills CLI安装插件后,可以使用`/evals-skills:<skill-name>`命令调用各种技能。
能力点
- ▪审计评估管道并发现优先级问题
- ▪引导用户阅读跟踪并分类失败
- ▪生成多样化的合成测试输入
- ▪设计LLM作为评判者的评估器
- ▪校准LLM评判者与人类标签
- ▪评估RAG管道中的检索和生成质量
适用场景
审计和改进LLM评估管道生成合成数据以测试模型设计主观质量标准的评估器校准模型与人类标签的一致性
接入方式
依赖:API KeyNode 环境
在Claude Code中运行以下命令:"/plugin marketplace add hamelsmu/evals-skills" 和 "/plugin install evals-skills@hamelsmu-evals-skills";或者使用npx命令:"npx skills add https://github.com/hamelsmu/evals-skills"
以上信息由 AI 基于公开资料整理,可能存在偏差,以来源为准。
常见问题
如何开始使用这些技能?
从`eval-audit`技能开始,按照README中的步骤安装和运行。
这些技能适合谁?
适合工程师和产品经理,特别是刚开始接触评估的人。
相关 Skill
gemini-cli
Gemini CLI 是一个开源的 AI 代理,将 Gemini 的强大功能直接带入终端。
MCP
clawgod
ClawGod 是一个运行时补丁,为 Claude Code 添加额外功能和解锁限制。
Agent Skill
planning-with-files
基于文件的持久化规划技能,适用于AI编码代理和长时间运行的任务。
Agent Skill
scientific-agent-skills
将任何AI代理转变为科学助手,提供147种即用型科研技能。
Agent Skill
susi_alexa_skill
通过 Alexa 与 Susi AI 进行问答交互的技能。
Agent Skill
claude-context
为 Claude Code 提供代码搜索能力,使整个代码库成为上下文。
MCP