evals-skills

evals-skills

为AI编码代理提供评估技能,帮助构建LLM评估。

Agent Skill编程与开发开源
形态
Agent Skill
是否开源
GitHub Stars
★ 1.4k
收录来源
skill-github

能力说明

这些技能旨在指导AI编码代理,帮助用户构建LLM评估。它们可以帮助避免常见的错误,并推荐其他技能来解决问题。适用于工程师和产品经理,特别是那些刚开始接触评估的人。通过Claude Code或Skills CLI安装插件后,可以使用`/evals-skills:<skill-name>`命令调用各种技能。

能力点

  • 审计评估管道并发现优先级问题
  • 引导用户阅读跟踪并分类失败
  • 生成多样化的合成测试输入
  • 设计LLM作为评判者的评估器
  • 校准LLM评判者与人类标签
  • 评估RAG管道中的检索和生成质量

适用场景

审计和改进LLM评估管道生成合成数据以测试模型设计主观质量标准的评估器校准模型与人类标签的一致性

接入方式

依赖:API KeyNode 环境
在Claude Code中运行以下命令:"/plugin marketplace add hamelsmu/evals-skills" 和 "/plugin install evals-skills@hamelsmu-evals-skills";或者使用npx命令:"npx skills add https://github.com/hamelsmu/evals-skills"

以上信息由 AI 基于公开资料整理,可能存在偏差,以来源为准。

常见问题

如何开始使用这些技能?

从`eval-audit`技能开始,按照README中的步骤安装和运行。

这些技能适合谁?

适合工程师和产品经理,特别是刚开始接触评估的人。

相关 Skill