vllm-mlx

适用于 Apple Silicon 的 OpenAI 和 Anthropic 兼容服务器，支持多模态模型。

MCP编程与开发开源

查看来源 →

形态: MCP
传输协议: http
是否开源: 是
GitHub Stars: ★ 1.4k
收录来源: mcp-github
仓库: github.com/waybarrios/vllm-mlx

能力说明

vllm-mlx 是一个为 Apple Silicon 设计的推理服务器，支持运行 LLMs 和视觉语言模型（如 Llama、Qwen-VL、LLaVA）。它提供了连续批处理、MCP 工具调用和多模态支持。原生 MLX 后端，支持 400+ tok/s 的吞吐量，并兼容 Claude Code。该能力使 AI 能够在 Apple Silicon 上高效运行多种模型，适合需要高性能推理的应用场景。

能力点

▪OpenAI 和 Anthropic API 兼容
▪连续批处理
▪多模态支持
▪高吞吐量推理
▪MCP 工具调用

适用场景

多模态推理高性能文本生成图像和音频处理结构化输出

接入方式

依赖：Apple Silicon (M1, M2, M3, M4, M5)Python 3.10+

pip install vllm-mlx

以上信息由 AI 基于公开资料整理，可能存在偏差，以来源为准。

常见问题

vllm-mlx 支持哪些硬件？

仅支持 Apple Silicon (M1, M2, M3, M4, M5)。

如何启动 vllm-mlx 服务器？

使用命令 `vllm-mlx serve <model> --port 8000`。

相关 Skill

gemini-cli

Gemini CLI 是一个开源的 AI 代理，将 Gemini 的强大功能直接带入终端。

clawgod

ClawGod 是一个运行时补丁，为 Claude Code 添加额外功能和解锁限制。

planning-with-files

基于文件的持久化规划技能，适用于AI编码代理和长时间运行的任务。

scientific-agent-skills

将任何AI代理转变为科学助手，提供147种即用型科研技能。

susi_alexa_skill

通过 Alexa 与 Susi AI 进行问答交互的技能。

claude-context

为 Claude Code 提供代码搜索能力，使整个代码库成为上下文。