xberg

xberg

多语言文档智能框架,从多种格式中提取文本、元数据和结构化信息。

MCP数据与分析开源
形态
MCP
传输协议
http
是否开源
GitHub Stars
★ 8.6k
收录来源
mcp-github

能力说明

Xberg 是一个基于 Rust 核心的文档智能框架,可以从 PDF、Office 文档、图像等 97+ 种格式中提取文本、元数据、图像和结构化信息。支持 16 种编程语言的原生绑定,并可通过 CLI、REST API 或 MCP 服务器运行。适用于需要快速可靠提取文档内容的 AI 和 RAG 管道。

能力点

  • 从 97+ 种文件格式中提取文本
  • 提取元数据和结构化信息
  • 支持 306 种编程语言的代码智能
  • 内置 OCR 和音频转录功能

适用场景

文档处理和分析代码智能提取OCR 和音频转录AI 和 RAG 管道的数据预处理

接入方式

依赖:API KeyNode 环境
通过 npm 安装:`npm install @xberg/node` 或使用 Docker 镜像:`docker pull ghcr.io/xberg-io/xberg`

以上信息由 AI 基于公开资料整理,可能存在偏差,以来源为准。

常见问题

Xberg 支持哪些文件格式?

支持 97+ 种格式,包括 PDF、Office 文档、图像等。

如何使用 Xberg 的 OCR 功能?

内置 Tesseract 等 OCR 引擎,直接调用相关方法即可。

相关 Skill