跳到主要内容

LLM 推理手册

LLM 推理手册 是您的技术词汇表、指南和参考书——三合一。它涵盖了 LLM 推理的所有必要知识，从核心概念和性能指标（例如，首次令牌时间和每秒令牌数），到优化技术（例如，连续批处理和前缀缓存），以及运行的最佳实践。

提供部署、扩展和运行生产环境中的 LLM 的实用指导。
关注真正重要的内容，而非边缘案例或技术噪声。
使用针对您的用例量身定制的优化技术提升性能。
持续更新最新的最佳实践和经过实地验证的洞察。

动机

我们编写这本手册是为了解决开发人员面临的一个常见问题：LLM 推理知识往往是零散的；它埋藏在学术论文中，分散在供应商博客里，隐藏在 GitHub 问题中，或者在 Discord 线程中随意讨论。更糟糕的是，其中许多内容假设您已经了解了一半的技术栈。

很少有资源能够将这些内容整合在一起——例如，推理与训练的区别，为什么有效吞吐量比原始吞吐量更重要来满足 SLO，或者预填充-解码分离在实际中的工作原理。

因此，我们开始将这些内容汇总起来。

适用对象

这本手册适用于在生产环境中部署、扩展或运行 LLM 的工程师，无论您是在微调一个小型开放模型，还是在自己的技术栈上运行大规模部署。

如果您的目标是让 LLM 推理更快、更便宜或更可靠，那么这本手册就是为您准备的。

使用方法

您可以从头到尾阅读，也可以将其当作查询表使用。没有固定的导航方式。随着领域的发展，我们会持续更新这本手册，因为 LLM 推理变化迅速，今天有效的方法可能在明天不再是最佳选择。

贡献

我们欢迎贡献！如果您发现错误、有改进建议或希望添加新主题，请在我们的 GitHub 仓库中提交问题或拉取请求。

动机
适用对象
使用方法
贡献