xberg

多语言文档智能框架，从多种格式中提取文本、元数据和结构化信息。

MCP数据与分析开源

形态: MCP
传输协议: http
是否开源: 是
GitHub Stars: ★ 8.6k
收录来源: mcp-github
仓库: github.com/xberg-io/xberg

能力说明

Xberg 是一个基于 Rust 核心的文档智能框架，可以从 PDF、Office 文档、图像等 97+ 种格式中提取文本、元数据、图像和结构化信息。支持 16 种编程语言的原生绑定，并可通过 CLI、REST API 或 MCP 服务器运行。适用于需要快速可靠提取文档内容的 AI 和 RAG 管道。

能力点

▪从 97+ 种文件格式中提取文本
▪提取元数据和结构化信息
▪支持 306 种编程语言的代码智能
▪内置 OCR 和音频转录功能

适用场景

文档处理和分析代码智能提取OCR 和音频转录AI 和 RAG 管道的数据预处理

接入方式

依赖：API KeyNode 环境

通过 npm 安装：`npm install @xberg/node` 或使用 Docker 镜像：`docker pull ghcr.io/xberg-io/xberg`

以上信息由 AI 基于公开资料整理，可能存在偏差，以来源为准。

常见问题

Xberg 支持哪些文件格式？

支持 97+ 种格式，包括 PDF、Office 文档、图像等。

如何使用 Xberg 的 OCR 功能？

内置 Tesseract 等 OCR 引擎，直接调用相关方法即可。

相关 Skill

OpenMetadata

OpenMetadata 是一个开放的数据上下文层，为AI提供可信的数据上下文和业务语义。

MCP数据治理元数据管理

XHS-Downloader

小红书链接提取和作品采集工具，支持多种下载和信息提取功能。

MCP

unstract

基于LLM的非结构化数据提取工具，支持API部署和ETL流程。

MCP

FinanceToolkit

透明高效的金融分析工具，支持多种金融产品和指标。

MCP金融数据分析

deeplake

Deeplake 是一个为 AI 代理设计的数据运行时，提供无服务器的多模态数据湖。

Agent SkillAI 数据库多模态数据

skills

为AI代理提供实时市场数据和期权分析能力。

Agent Skill