- 形态
- MCP
- 传输协议
- http
- 是否开源
- 是
- GitHub Stars
- ★ 1.4k
- 收录来源
- mcp-github
能力说明
vllm-mlx 是一个为 Apple Silicon 设计的推理服务器,支持运行 LLMs 和视觉语言模型(如 Llama、Qwen-VL、LLaVA)。它提供了连续批处理、MCP 工具调用和多模态支持。原生 MLX 后端,支持 400+ tok/s 的吞吐量,并兼容 Claude Code。该能力使 AI 能够在 Apple Silicon 上高效运行多种模型,适合需要高性能推理的应用场景。
能力点
- ▪OpenAI 和 Anthropic API 兼容
- ▪连续批处理
- ▪多模态支持
- ▪高吞吐量推理
- ▪MCP 工具调用
适用场景
多模态推理高性能文本生成图像和音频处理结构化输出
接入方式
依赖:Apple Silicon (M1, M2, M3, M4, M5)Python 3.10+
pip install vllm-mlx
以上信息由 AI 基于公开资料整理,可能存在偏差,以来源为准。
常见问题
vllm-mlx 支持哪些硬件?
仅支持 Apple Silicon (M1, M2, M3, M4, M5)。
如何启动 vllm-mlx 服务器?
使用命令 `vllm-mlx serve <model> --port 8000`。
相关 Skill
gemini-cli
Gemini CLI 是一个开源的 AI 代理,将 Gemini 的强大功能直接带入终端。
MCP
clawgod
ClawGod 是一个运行时补丁,为 Claude Code 添加额外功能和解锁限制。
Agent Skill
planning-with-files
基于文件的持久化规划技能,适用于AI编码代理和长时间运行的任务。
Agent Skill
scientific-agent-skills
将任何AI代理转变为科学助手,提供147种即用型科研技能。
Agent Skill
susi_alexa_skill
通过 Alexa 与 Susi AI 进行问答交互的技能。
Agent Skill
claude-context
为 Claude Code 提供代码搜索能力,使整个代码库成为上下文。
MCP