- 形态
- MCP
- 传输协议
- http
- 是否开源
- 是
- GitHub Stars
- ★ 8.5k
- 收录来源
- mcp-github
能力说明
Kreuzberg 是一个基于 Rust 核心的多语言文档智能框架。它可以从 PDF、Office 文档、图像等 96 种文件格式中提取文本、元数据、表格和代码智能。支持 16 种编程语言的原生绑定,并且可以通过库、CLI、REST API 或 MCP 服务器运行。适用于需要快速可靠提取信息的现代 AI 和 RAG 管道。
能力点
- ▪从 96 种文件格式中提取文本
- ▪提取元数据和结构化信息
- ▪支持 306 种编程语言的代码智能
- ▪内置 OCR 和音频转录功能
- ▪支持大文件流式处理
适用场景
文档内容提取代码智能分析OCR 和音频转录AI 和 RAG 管道中的数据预处理
接入方式
依赖:API KeyNode 环境
通过 npm 安装:`npm install @kreuzberg/node` 或者使用 Docker 镜像:`docker pull ghcr.io/xberg-io/kreuzberg`
以上信息由 AI 基于公开资料整理,可能存在偏差,以来源为准。
常见问题
Kreuzberg 支持哪些文件格式?
支持 96 种文件格式,包括 PDF、Office 文档、图像等。
Kreuzberg 是否支持 OCR?
是的,内置 Tesseract、PaddleOCR、EasyOCR 等 OCR 引擎。