- 地区
- 未知
- 定价
- 免费
- 是否开源
- 是
- GitHub Stars
- ★ 1.4k
- 收录来源
- GitHub
- 收录于
- 2026-06-13
- 最近确认可用
- 2026-06-13
详细介绍
TokenSpeed 是一个高性能的LLM推理引擎,专为代理工作负载设计。它结合了TensorRT-LLM级别的性能和vLLM级别的易用性,旨在成为生产环境中最高效的推理引擎。TokenSpeed的核心组件包括建模层、调度器、内核和入口点。建模层采用本地SPMD设计,通过静态编译器生成集体通信;调度器使用C++控制平面和Python执行平面;内核系统是可插拔的,并且有一个集中的注册表;入口点则集成了SMG以实现低开销的CPU侧请求处理。
核心功能
- ▪高性能LLM推理引擎
- ▪专为代理工作负载设计
- ▪结合TensorRT-LLM性能和vLLM易用性
- ▪支持多头潜注意力机制
适用场景
大规模语言模型推理生产环境中的代理工作负载高效处理多头潜注意力机制
优点
- +高性能推理
- +易于集成和使用
- +支持多种模型
局限 / 注意
- -需要一定的技术背景
- -学习成本较高
适合谁
开发者数据科学家企业团队
以上介绍由 AI 基于公开资料整理,可能存在偏差,以官网为准。
常见问题
是否免费?
TokenSpeed是开源项目,可以免费使用。
是否需要科学上网?
不需要,但可能需要访问GitHub下载代码。
支持中文吗?
文档主要为英文,但支持中文模型。
能否商用?
可以商用,具体请参考其许可证。
相似智能体
信息有误?欢迎在 关于页 联系我们更正。