跳到主要内容

LLM 推理手册

LLM 推理手册 是您的技术词汇表、指南和参考书——三合一。它涵盖了 LLM 推理的所有必要知识,从核心概念和性能指标(例如,首次令牌时间和每秒令牌数),到优化技术(例如,连续批处理前缀缓存),以及运行的最佳实践。

  • 提供部署、扩展和运行生产环境中的 LLM 的实用指导。
  • 关注真正重要的内容,而非边缘案例或技术噪声。
  • 使用针对您的用例量身定制的优化技术提升性能。
  • 持续更新最新的最佳实践和经过实地验证的洞察。

动机

我们编写这本手册是为了解决开发人员面临的一个常见问题:LLM 推理知识往往是零散的;它埋藏在学术论文中,分散在供应商博客里,隐藏在 GitHub 问题中,或者在 Discord 线程中随意讨论。更糟糕的是,其中许多内容假设您已经了解了一半的技术栈。

很少有资源能够将这些内容整合在一起——例如,推理与训练的区别,为什么 有效吞吐量比原始吞吐量更重要 来满足 SLO,或者 预填充-解码分离 在实际中的工作原理。

因此,我们开始将这些内容汇总起来。

适用对象

这本手册适用于在生产环境中部署、扩展或运行 LLM 的工程师,无论您是在微调一个小型开放模型,还是在自己的技术栈上运行大规模部署。

如果您的目标是让 LLM 推理更快、更便宜或更可靠,那么这本手册就是为您准备的。

使用方法

您可以从头到尾阅读,也可以将其当作查询表使用。没有固定的导航方式。随着领域的发展,我们会持续更新这本手册,因为 LLM 推理变化迅速,今天有效的方法可能在明天不再是最佳选择。

贡献

我们欢迎贡献!如果您发现错误、有改进建议或希望添加新主题,请在我们的 GitHub 仓库 中提交问题或拉取请求。