kreuzberg

kreuzberg

多语言文档智能框架,从多种格式的文件中提取文本、元数据和结构化信息。

MCP数据与分析开源文档处理OCR音频转录代码智能
形态
MCP
传输协议
http
是否开源
GitHub Stars
★ 8.5k
收录来源
mcp-github

能力说明

Kreuzberg 是一个基于 Rust 核心的多语言文档智能框架。它可以从 PDF、Office 文档、图像等 96 种文件格式中提取文本、元数据、表格和代码智能。支持 16 种编程语言的原生绑定,并且可以通过库、CLI、REST API 或 MCP 服务器运行。适用于需要快速可靠提取信息的现代 AI 和 RAG 管道。

能力点

  • 从 96 种文件格式中提取文本
  • 提取元数据和结构化信息
  • 支持 306 种编程语言的代码智能
  • 内置 OCR 和音频转录功能
  • 支持大文件流式处理

适用场景

文档内容提取代码智能分析OCR 和音频转录AI 和 RAG 管道中的数据预处理

接入方式

依赖:API KeyNode 环境
通过 npm 安装:`npm install @kreuzberg/node` 或者使用 Docker 镜像:`docker pull ghcr.io/xberg-io/kreuzberg`

以上信息由 AI 基于公开资料整理,可能存在偏差,以来源为准。

常见问题

Kreuzberg 支持哪些文件格式?

支持 96 种文件格式,包括 PDF、Office 文档、图像等。

Kreuzberg 是否支持 OCR?

是的,内置 Tesseract、PaddleOCR、EasyOCR 等 OCR 引擎。

相关 Skill