术语表 Glossary

基础概念

提示（Prompt）： 提示是用户向人工智能模型提供的输入，通常以问题、指令或陈述的形式出现，用于引导模型生成响应。提示的质量和结构对模型输出有重要影响，因此提示工程是有效使用人工智能的一项关键技能。

上下文窗口（Context Window）： 上下文窗口是人工智能模型一次能够处理的最大令牌数量，包括输入和生成的输出。这一固定大小是模型的关键限制，窗口之外的信息会被忽略，而更大的窗口则能够支持更复杂的对话和文档分析。

上下文学习（In-Context Learning）： 上下文学习是指人工智能无需重新训练，仅通过提示中直接提供的示例即可学习新任务的能力。这种强大的功能使单一的通用模型能够即时适应无数具体任务。

零样本、单样本和少样本提示（Zero-Shot, One-Shot, & Few-Shot Prompting）： 这些是提示技术，其中模型分别被给予零个、一个或几个任务示例以指导其响应。通常提供更多示例可以帮助模型更好地理解用户意图，并提高其针对特定任务的准确性。

多模态（Multimodality）： 多模态是指人工智能能够理解和处理多种数据类型，例如文本、图像和音频。这使得交互更加多样化和类似人类，例如描述图像或回答语音问题。

信息关联（Grounding）： 信息关联是将模型的输出连接到可验证的真实信息来源的过程，以确保事实准确性并减少幻觉现象。这通常通过像 RAG 这样的技术实现，使人工智能系统更加可信。

核心人工智能模型架构

Transformer： Transformer 是大多数现代大型语言模型（LLM）的基础神经网络架构。其关键创新是自注意力机制（Self-Attention），能够高效处理长文本序列并捕捉词语之间的复杂关系。

循环神经网络（Recurrent Neural Network, RNN）： 循环神经网络是早于 Transformer 的基础架构。RNN 以顺序方式处理信息，通过循环保持对之前输入的“记忆”，使其适用于文本和语音处理等任务。

专家混合（Mixture of Experts, MoE）： 专家混合是一种高效的模型架构，其中一个“路由器”网络动态选择一小部分“专家”网络来处理任意输入。这种方法允许模型拥有大量参数，同时保持计算成本可控。

扩散模型（Diffusion Models）： 扩散模型是一种生成模型，擅长创建高质量图像。其工作原理是向数据中添加随机噪声，然后训练模型精确地逆转这一过程，从而能够从随机起点生成新数据。

Mamba： Mamba 是一种近期的人工智能架构，使用选择性状态空间模型（Selective State Space Model, SSM）高效处理长序列。其选择性机制使其能够专注于相关信息，同时过滤掉噪声，成为 Transformer 的潜在替代方案。

大型语言模型开发生命周期

开发强大的语言模型遵循一个明确的顺序。首先是预训练（Pre-training），通过在海量互联网文本数据集上训练模型构建一个庞大的基础模型，使其学习语言、推理和世界知识。接下来是微调（Fine-tuning），这是一个专门化阶段，通过在较小的任务特定数据集上进一步训练通用模型，使其能力适应特定用途。最后是对齐（Alignment），在这一阶段，调整专门化模型的行为以确保其输出有用、无害并符合人类价值观。

预训练技术：

预训练是模型从大量数据中学习通用知识的初始阶段。主要的预训练技术涉及模型学习不同目标的方式。最常见的技术是因果语言建模（Causal Language Modeling，CLM），即模型预测句子中的下一个词。另一种技术是掩码语言建模（Masked Language Modeling，MLM），模型需要填补文本中故意隐藏的词。此外，还有一些重要的方法，包括去噪目标（Denoising Objectives），模型学习将被破坏的输入恢复为原始状态；对比学习（Contrastive Learning），模型学习区分相似和不相似的数据片段；以及下一句预测（Next Sentence Prediction，NSP），模型判断两句话是否逻辑上相互衔接。

微调技术：

微调是将通用的预训练模型适配到特定任务的过程，通常使用较小的专用数据集。最常见的方法是监督微调（Supervised Fine-Tuning，SFT），模型在标注的输入输出对上进行训练。一种流行的变体是指令微调（Instruction Tuning），专注于训练模型更好地遵循用户指令。为了提高效率，参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）方法被广泛应用，其中包括顶尖技术如低秩适配（Low-Rank Adaptation，LoRA），它仅更新少量参数，以及其内存优化版本QLoRA。另一种技术是检索增强生成（Retrieval-Augmented Generation，RAG），通过在微调或推理阶段连接外部知识源来增强模型能力。

对齐与安全技术：

对齐是确保AI模型行为符合人类价值观和期望，使其既有帮助又无害的过程。最突出的技术是基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF），其中一个基于人类偏好的“奖励模型”引导AI的学习过程，通常使用如近端策略优化（Proximal Policy Optimization，PPO）这样的算法来保持稳定性。一些更简单的替代方案也已出现，例如直接偏好优化（Direct Preference Optimization，DPO），无需单独的奖励模型；以及卡尼曼-特沃斯基优化（Kahneman-Tversky Optimization，KTO），进一步简化数据收集过程。为了确保安全部署，还会实施防护措施（Guardrails）作为最终的安全层，用于实时过滤输出并阻止有害行为。

增强AI智能体能力

AI智能体是能够感知环境并自主采取行动以实现目标的系统。其有效性可以通过强大的推理框架来增强。

思维链（Chain of Thought，CoT）：

这种提示技术鼓励模型在给出最终答案之前逐步解释其推理过程。这种“出声思考”的过程通常能够在复杂推理任务中产生更准确的结果。

思维树（Tree of Thoughts，ToT）：

思维树是一种高级推理框架，智能体可以同时探索多个推理路径，就像树的分枝一样。它允许智能体自我评估不同的思维路径，并选择最有前景的路径继续深入，从而在复杂问题解决中更为有效。

ReAct（推理与行动，Reason and Act）：

ReAct是一种将推理与行动结合在一个循环中的智能体框架。智能体首先“思考”应该做什么，然后采取行动使用工具，并利用由此产生的观察来指导下一步的思考，使其在解决复杂任务方面非常高效。

规划（Planning）：

这是智能体将高层次目标分解为一系列较小、可管理子任务的能力。智能体随后制定计划按顺序执行这些步骤，使其能够处理复杂的多步骤任务。

深入研究（Deep Research）：

深入研究指智能体通过迭代搜索信息、综合发现并识别新问题，能够自主深入探索某个主题的能力。这使智能体能够远超单次搜索查询，构建对主题的全面理解。

批判模型：批判模型是一种专门训练用于审查、评估和对另一个 AI 模型输出提供反馈的人工智能模型。它充当自动化评论员，帮助识别错误、改进推理，并确保最终输出达到预期的质量标准。

术语表

术语表 Glossary

基础概念

核心人工智能模型架构

大型语言模型开发生命周期

增强AI智能体能力

results matching ""

No results matching ""