DataDesigner

DataDesigner

生成高质量的合成数据,支持从零开始或基于种子数据。

MCP数据与分析开源合成数据数据生成NVIDIA
形态
MCP
是否开源
GitHub Stars
★ 2.0k
收录来源
mcp-github

能力说明

DataDesigner 是一个用于生成高质量合成数据的工具。它可以帮助用户创建具有多样化统计分布、字段间有意义关联以及经过验证的高质量输出的数据集。通过使用统计采样器、大语言模型或现有种子数据,DataDesigner 提供了一个灵活的框架来构建生产级合成数据。适合需要大量训练数据或测试数据的开发者和研究人员。

能力点

  • 生成多样化的数据
  • 控制字段间的关系
  • 内置验证器验证数据质量
  • 使用大语言模型评分输出
  • 快速迭代预览模式

适用场景

生成训练数据生成测试数据数据增强模拟真实数据

接入方式

依赖:API KeyPython 环境
pip install data-designer 或者从源码安装:git clone https://github.com/NVIDIA-NeMo/DataDesigner.git && cd DataDesigner && make install

以上信息由 AI 基于公开资料整理,可能存在偏差,以来源为准。

常见问题

如何设置 API Key?

设置环境变量如 export NVIDIA_API_KEY="your-api-key-here"

支持哪些模型提供商?

支持 NVIDIA Build API、OpenAI 和 OpenRouter

相关 Skill