vllm-mlx

vllm-mlx

适用于 Apple Silicon 的 OpenAI 和 Anthropic 兼容服务器,支持多模态模型。

MCP编程与开发开源
形态
MCP
传输协议
http
是否开源
GitHub Stars
★ 1.4k
收录来源
mcp-github

能力说明

vllm-mlx 是一个为 Apple Silicon 设计的推理服务器,支持运行 LLMs 和视觉语言模型(如 Llama、Qwen-VL、LLaVA)。它提供了连续批处理、MCP 工具调用和多模态支持。原生 MLX 后端,支持 400+ tok/s 的吞吐量,并兼容 Claude Code。该能力使 AI 能够在 Apple Silicon 上高效运行多种模型,适合需要高性能推理的应用场景。

能力点

  • OpenAI 和 Anthropic API 兼容
  • 连续批处理
  • 多模态支持
  • 高吞吐量推理
  • MCP 工具调用

适用场景

多模态推理高性能文本生成图像和音频处理结构化输出

接入方式

依赖:Apple Silicon (M1, M2, M3, M4, M5)Python 3.10+
pip install vllm-mlx

以上信息由 AI 基于公开资料整理,可能存在偏差,以来源为准。

常见问题

vllm-mlx 支持哪些硬件?

仅支持 Apple Silicon (M1, M2, M3, M4, M5)。

如何启动 vllm-mlx 服务器?

使用命令 `vllm-mlx serve <model> --port 8000`。

相关 Skill