← 返回首页

AI 常见词汇科普(一):基础概念篇

赞助内容

AI 领域的术语在过去两年经历了爆炸式增长。LLMAIGCPromptRAGAgent……这些词在技术文章、产品发布会、甚至日常对话里频繁出现,但真能讲清楚每个词含义和边界的人,其实不多。

这篇文章的目标很简单:把最基础、最常见的 AI 词汇,用工程师能理解的方式讲透。不堆砌定义,不制造焦虑,帮你建立一个清晰的概念坐标系。后续还会有两篇,分别覆盖模型架构与训练方法(Transformer、Attention、Embedding、Fine-tuning、LoRA 等)、以及工程落地与生态工具(LangChain、向量数据库、模型部署、API 设计等)。


一、AI / 人工智能(Artificial Intelligence)

这是最上层的概念,也是最容易被泛化的词。

AI 指的是让机器表现出需要人类智能才能完成的行为的能力。 注意是”表现出”,不是”拥有”。一台能下围棋的 AI 并不”理解”围棋,它只是通过海量对弈数据学会了在特定局面下选择胜率最高的落子。

AI 不是单一技术,而是一个庞大的领域,包含机器学习、计算机视觉、自然语言处理、语音识别等多个子方向。大模型(LLM)只是其中自然语言处理这个分支在 2022 年后的突破性进展。

一句话记住: AI 是目标,机器学习是实现路径之一,大模型是路径上的最新里程碑。


二、LLM / 大语言模型(Large Language Model)

这可能是过去两年出现频率最高的技术词。

LLM 是一种基于深度学习的人工智能模型,专门训练来理解和生成人类语言。 “大”指的是参数规模——从几十亿到上万亿不等。GPT-4、Claude、文心一言、通义千问、Kimi,这些都是 LLM。

LLM 的核心能力来自”预训练”:在海量文本数据(互联网、书籍、代码、论文)上学习语言的统计规律。它本质上是一个超大规模的”文字接龙”机器——给定前面的文字,预测下一个最可能出现的字或词。

关于 LLM 的详细工作原理,我之前写过一篇《大模型是怎么听懂人话的》——从自回归生成、参数规模、RLHF 对齐到幻觉问题,做了更深入的解读。

一句话记住: LLM 是读遍了互联网的”猜字高手”,它的”知识”来自训练数据里的语言模式,不是真正的理解。


三、AIGC / AI 生成内容(AI Generated Content)

如果说 LLM 是技术术语,AIGC 就是更偏向产业和媒体的词汇。

AIGC 指的是利用人工智能技术自动生成的各种内容,包括文本(文章、代码、诗歌)、图像(Midjourney、Stable Diffusion)、音频(音乐、语音克隆)、视频(Sora、Runway)。

AIGC 和 LLM 的关系:LLM 是 AIGC 在文本领域的主要技术底座。但 AIGC 的范围更广——生成图像用的是扩散模型(Diffusion Model),生成视频用的是视频扩散或 Transformer 架构,和纯文本 LLM 并不完全相同。

一句话记住: AIGC 是”AI 生产内容”这个现象的总称,LLM 是其中文本生成的主要技术。


四、Prompt / 提示词

Prompt 是你和 LLM 之间的”对话接口”。

Prompt 指你输入给模型的文本指令或问题。 模型根据 Prompt 的内容生成回应。看似简单,但 Prompt 的质量直接决定输出的质量——同样的模型,好的 Prompt 能让它写出专业报告,差的 Prompt 只能得到泛泛而谈的废话。

围绕 Prompt 形成了一门”手艺”叫 Prompt Engineering(提示工程),研究怎么设计 Prompt 让模型输出更好。常见技巧包括:

  • 角色设定:“你是一位资深 iOS 开发工程师……”
  • Few-shot 示例:给几个输入输出的例子,让模型模仿
  • Chain-of-Thought:要求模型”一步步思考”,提升推理准确率
  • 结构化输出:要求模型按 JSON/Markdown 格式返回,方便程序解析

一句话记住: Prompt 是你操控 LLM 的遥控器,提示工程就是研究怎么按这个遥控器效果最好。


五、RAG / 检索增强生成(Retrieval-Augmented Generation)

这是目前企业落地 AI 最常见的技术方案。

RAG 是一种让 LLM 在回答问题时,先检索外部知识库,再把检索结果作为参考来生成答案的技术。 它解决了 LLM 的两个核心痛点:

  1. 知识过时:LLM 的训练数据有截止时间,不知道最新信息
  2. 知识盲区:LLM 对企业内部文档、私有数据一无所知

RAG 的工作流程通常是这样的:

  1. 索引阶段:把企业文档切分成小块,用 embedding 模型转成向量,存入向量数据库
  2. 检索阶段:用户提问时,把问题也转成向量,从数据库里找出最相关的文档片段
  3. 生成阶段:把检索到的片段和原问题一起塞进 Prompt,让 LLM 基于这些”参考资料”来回答

一句话记住: RAG 就是给 LLM 配了一个”资料员”,回答前先查资料,减少胡说八道的概率。


六、Agent / 智能体

Agent 是 2024-2025 年 AI 领域最热的概念之一。

Agent 指能够自主感知环境、做出决策并执行行动的人工智能系统。 和传统的”一问一答”式 LLM 不同,Agent 具备以下特征:

  • 自主性:不需要人类每一步指令,能自己规划任务步骤
  • 工具使用:能调用外部工具(搜索、计算器、代码执行、API 调用)
  • 记忆能力:能记住之前的交互和中间结果
  • 反思能力:能评估自己的输出,发现错误后自我修正

一个典型的 Agent 工作流可能是:

用户:“帮我查一下北京明天天气,如果下雨就提醒我带伞,顺便查一下去公司的最佳路线。”

Agent 内部:

  1. 调用天气 API → 获取北京明天天气预报
  2. 判断:预报显示有雨 → 执行”提醒带伞”
  3. 调用地图 API → 查询去公司的路线
  4. 整合结果 → 生成最终回复

目前主流的开发框架包括 LangChain、AutoGPT、MetaGPT 等。

一句话记住: 如果说 LLM 是”大脑”,Agent 就是给大脑配上”手”和”眼”,让它能真正做事。


七、多模态(Multimodal)

人类感知世界的方式是多模态的——同时通过视觉、听觉、语言来理解环境。AI 也在朝这个方向发展。

多模态 AI 指能够同时处理和理解多种类型数据(文本、图像、音频、视频)的模型。 GPT-4V(带 Vision 的版本)、Claude 3、Gemini 都是多模态模型——你可以上传一张图片问它”这张图里有什么”,或者让它根据草图生成代码。

多模态的核心挑战是模态对齐:怎么让模型理解”这张图片里的猫”和文字”猫”指的是同一个东西。技术上通常通过把图像、音频也转换成类似文本的”token”序列,让模型统一处理。

一句话记住: 多模态 = AI 能同时看懂图、听懂话、读懂字,像人一样综合感知世界。


八、涌现(Emergence)

这是一个偏学术但很有意思的概念。

涌现指当模型规模大到某个临界点时,突然”学会”一些训练时并没有专门教它的能力。 比如:

  • 小模型不会算两位数的加法,但参数量超过某个阈值后突然就会了
  • 模型在没有专门训练的情况下,学会了用”一步步推理”来解数学题
  • 大模型能进行某种程度的逻辑推演、类比、甚至简单的规划

科学家们至今没有完全解释清楚涌现的原因。一种直观的理解是:当参数足够多、数据足够丰富时,模型内部自发形成了分层结构——底层处理语法,中层处理语义,高层处理推理。

一句话记住: 涌现就是”量变引起质变”——模型大到一定程度,会突然冒出一些连开发者都没想到的能力。


九、对齐(Alignment)

对齐是让 LLM 从”文本生成器”变成”有用助手”的关键技术。

对齐指通过训练让模型的行为符合人类的价值观、意图和安全要求。 预训练后的模型只是一个”互联网文本续写器”,会生成偏见、有害、虚假的内容。对齐技术(最著名的是 RLHF,人类反馈强化学习)让模型学会:

  • 回答用户的问题,而不是续写文本
  • 拒绝生成有害内容
  • 承认不知道,而不是编造答案
  • 保持礼貌、有帮助、诚实的语气

对齐有个副作用叫 “对齐税”(Alignment Tax)——为了让模型更安全,有时会牺牲一部分能力和创造力。

一句话记住: 对齐就是给 AI 装”道德护栏”,让它既聪明又听话,但这个护栏有时也会限制它的发挥。


十、幻觉(Hallucination)

这是 LLM 最著名、最顽固的问题。

幻觉指模型生成看似合理但实际上虚假或错误的内容。 比如编造不存在的论文、虚构历史人物的事迹、给出错误的法律条文。

为什么会幻觉?回到 LLM 的本质:它在”猜字”,不是在”查资料”。当训练数据里没有相关信息时,它不会说”我不知道”,而是会根据语言模式”硬猜”出一个语法正确、结构完整的答案——只是核心事实完全错误。

重要认知: 幻觉不是 bug,而是 LLM 架构的固有特性。你无法通过”更好的训练数据”完全消除它,只能通过 RAG、事实核查、人工审核等手段来缓解。

一句话记住: 幻觉 = AI 一本正经地胡说八道。用 AI 处理关键信息时,永远要做二次验证。


小结:建立你的 AI 概念坐标系

把这十个词串起来,你就有了理解 AI 的基础框架:

概念定位一句话
AI大目标让机器表现出智能行为
LLM核心技术路径读遍互联网的猜字高手
AIGC产业现象AI 生产内容
Prompt交互界面操控 LLM 的遥控器
RAG知识增强方案给 LLM 配资料员
Agent进化方向给大脑配手和眼
多模态感知扩展看懂图、听懂话、读懂字
涌现规模效应量变引起质变
对齐安全机制给 AI 装道德护栏
幻觉核心局限一本正经地胡说八道

推荐阅读:

  • 想深入理解 LLM 工作原理?→ 《大模型是怎么听懂人话的
  • 想了解模型架构和训练方法?→ 关注本系列第二篇(即将发布)
  • 想了解工程落地和生态工具?→ 关注本系列第三篇(即将发布)

本系列持续更新中,下一篇将深入讲解模型架构与训练方法。

赞助内容