术语表 Glossary

基础概念

提示(Prompt): 提示是用户向人工智能模型提供的输入,通常以问题、指令或陈述的形式出现,用于引导模型生成响应。提示的质量和结构对模型输出有重要影响,因此提示工程是有效使用人工智能的一项关键技能。

上下文窗口(Context Window): 上下文窗口是人工智能模型一次能够处理的最大令牌数量,包括输入和生成的输出。这一固定大小是模型的关键限制,窗口之外的信息会被忽略,而更大的窗口则能够支持更复杂的对话和文档分析。

上下文学习(In-Context Learning): 上下文学习是指人工智能无需重新训练,仅通过提示中直接提供的示例即可学习新任务的能力。这种强大的功能使单一的通用模型能够即时适应无数具体任务。

零样本、单样本和少样本提示(Zero-Shot, One-Shot, & Few-Shot Prompting): 这些是提示技术,其中模型分别被给予零个、一个或几个任务示例以指导其响应。通常提供更多示例可以帮助模型更好地理解用户意图,并提高其针对特定任务的准确性。

多模态(Multimodality): 多模态是指人工智能能够理解和处理多种数据类型,例如文本、图像和音频。这使得交互更加多样化和类似人类,例如描述图像或回答语音问题。

信息关联(Grounding): 信息关联是将模型的输出连接到可验证的真实信息来源的过程,以确保事实准确性并减少幻觉现象。这通常通过像 RAG 这样的技术实现,使人工智能系统更加可信。

核心人工智能模型架构

Transformer: Transformer 是大多数现代大型语言模型(LLM)的基础神经网络架构。其关键创新是自注意力机制(Self-Attention),能够高效处理长文本序列并捕捉词语之间的复杂关系。

循环神经网络(Recurrent Neural Network, RNN): 循环神经网络是早于 Transformer 的基础架构。RNN 以顺序方式处理信息,通过循环保持对之前输入的“记忆”,使其适用于文本和语音处理等任务。

专家混合(Mixture of Experts, MoE): 专家混合是一种高效的模型架构,其中一个“路由器”网络动态选择一小部分“专家”网络来处理任意输入。这种方法允许模型拥有大量参数,同时保持计算成本可控。

扩散模型(Diffusion Models): 扩散模型是一种生成模型,擅长创建高质量图像。其工作原理是向数据中添加随机噪声,然后训练模型精确地逆转这一过程,从而能够从随机起点生成新数据。

Mamba: Mamba 是一种近期的人工智能架构,使用选择性状态空间模型(Selective State Space Model, SSM)高效处理长序列。其选择性机制使其能够专注于相关信息,同时过滤掉噪声,成为 Transformer 的潜在替代方案。

大型语言模型开发生命周期

开发强大的语言模型遵循一个明确的顺序。首先是预训练(Pre-training),通过在海量互联网文本数据集上训练模型构建一个庞大的基础模型,使其学习语言、推理和世界知识。接下来是微调(Fine-tuning),这是一个专门化阶段,通过在较小的任务特定数据集上进一步训练通用模型,使其能力适应特定用途。最后是对齐(Alignment),在这一阶段,调整专门化模型的行为以确保其输出有用、无害并符合人类价值观。

预训练技术:

预训练是模型从大量数据中学习通用知识的初始阶段。主要的预训练技术涉及模型学习不同目标的方式。最常见的技术是因果语言建模(Causal Language Modeling,CLM),即模型预测句子中的下一个词。另一种技术是掩码语言建模(Masked Language Modeling,MLM),模型需要填补文本中故意隐藏的词。此外,还有一些重要的方法,包括去噪目标(Denoising Objectives),模型学习将被破坏的输入恢复为原始状态;对比学习(Contrastive Learning),模型学习区分相似和不相似的数据片段;以及下一句预测(Next Sentence Prediction,NSP),模型判断两句话是否逻辑上相互衔接。

微调技术:

微调是将通用的预训练模型适配到特定任务的过程,通常使用较小的专用数据集。最常见的方法是监督微调(Supervised Fine-Tuning,SFT),模型在标注的输入输出对上进行训练。一种流行的变体是指令微调(Instruction Tuning),专注于训练模型更好地遵循用户指令。为了提高效率,参数高效微调(Parameter-Efficient Fine-Tuning,PEFT)方法被广泛应用,其中包括顶尖技术如低秩适配(Low-Rank Adaptation,LoRA),它仅更新少量参数,以及其内存优化版本QLoRA。另一种技术是检索增强生成(Retrieval-Augmented Generation,RAG),通过在微调或推理阶段连接外部知识源来增强模型能力。

对齐与安全技术:

对齐是确保AI模型行为符合人类价值观和期望,使其既有帮助又无害的过程。最突出的技术是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),其中一个基于人类偏好的“奖励模型”引导AI的学习过程,通常使用如近端策略优化(Proximal Policy Optimization,PPO)这样的算法来保持稳定性。一些更简单的替代方案也已出现,例如直接偏好优化(Direct Preference Optimization,DPO),无需单独的奖励模型;以及卡尼曼-特沃斯基优化(Kahneman-Tversky Optimization,KTO),进一步简化数据收集过程。为了确保安全部署,还会实施防护措施(Guardrails)作为最终的安全层,用于实时过滤输出并阻止有害行为。

增强AI智能体能力

AI智能体是能够感知环境并自主采取行动以实现目标的系统。其有效性可以通过强大的推理框架来增强。

思维链(Chain of Thought,CoT):

这种提示技术鼓励模型在给出最终答案之前逐步解释其推理过程。这种“出声思考”的过程通常能够在复杂推理任务中产生更准确的结果。

思维树(Tree of Thoughts,ToT):

思维树是一种高级推理框架,智能体可以同时探索多个推理路径,就像树的分枝一样。它允许智能体自我评估不同的思维路径,并选择最有前景的路径继续深入,从而在复杂问题解决中更为有效。

ReAct(推理与行动,Reason and Act):

ReAct是一种将推理与行动结合在一个循环中的智能体框架。智能体首先“思考”应该做什么,然后采取行动使用工具,并利用由此产生的观察来指导下一步的思考,使其在解决复杂任务方面非常高效。

规划(Planning):

这是智能体将高层次目标分解为一系列较小、可管理子任务的能力。智能体随后制定计划按顺序执行这些步骤,使其能够处理复杂的多步骤任务。

深入研究(Deep Research):

深入研究指智能体通过迭代搜索信息、综合发现并识别新问题,能够自主深入探索某个主题的能力。这使智能体能够远超单次搜索查询,构建对主题的全面理解。

批判模型:批判模型是一种专门训练用于审查、评估和对另一个 AI 模型输出提供反馈的人工智能模型。它充当自动化评论员,帮助识别错误、改进推理,并确保最终输出达到预期的质量标准。

results matching ""

    No results matching ""