kreuzberg

kreuzberg

多语言文档智能框架,从97+格式中提取文本、元数据等。

MCP数据与分析开源
形态
MCP
传输协议
http
是否开源
GitHub Stars
★ 8.5k
收录来源
mcp-github

能力说明

Kreuzberg 是一个基于 Rust 核心的多语言文档智能框架,可以从 PDF、Office 文档、图像等 97 种格式中提取文本、元数据、图像和结构化信息。支持多种编程语言绑定,包括 Rust、Python、Node.js 等,并可通过 CLI、REST API 或 MCP 服务器使用。适用于需要快速可靠提取文档内容的 AI 和 RAG 流水线。

能力点

  • 从97+格式中提取文本
  • 提取元数据和图像
  • 支持306种编程语言
  • 内置OCR和音频转录
  • SIMD加速解析
  • 流式处理大文件

适用场景

文档内容提取AI 和 RAG 流水线代码智能提取多媒体文件处理

接入方式

依赖:API Key
通过 npm 安装:`npm install @kreuzberg/node` 或其他语言对应的包管理器安装。

以上信息由 AI 基于公开资料整理,可能存在偏差,以来源为准。

常见问题

Kreuzberg 支持哪些文件格式?

支持 PDF、Office 文档、图像等 97 种格式。

Kreuzberg 是否支持 OCR?

是的,内置 Tesseract、PaddleOCR 等 OCR 引擎。

相关 Skill