Skip to content

LLM 介绍

这一篇先把"大语言模型到底是个什么东西"讲清楚:它能做什么、不能做什么、和传统程序有什么本质区别。后续再围绕具体方向(训练、应用、本地化、Agent 等)分别展开。

1. 什么是 LLM

大语言模型(Large Language Model, LLM)是一类基于 Transformer 架构、在海量文本上预训练得到的神经网络模型。它的核心能力只有一件事:

在给定一段上文,预测下一个最可能出现的 token(可以是一个字、一个词,也可以是一个"概念片段"),并把这个过程反复迭代下去。

看起来平平无奇,但当:

  • 参数规模足够大(通常十亿以上)
  • 训练数据足够多(通常万亿级 token)
  • 上下文足够长(现代模型常见 4k-200k tokens)

三个条件同时满足时,这种"下一个 token 预测"会涌现出理解、推理、翻译、代码生成、对话等五花八门的能力。这就是 AGI 学界常说的 emergent ability(涌现能力)。

1.1 几个常被混淆的概念

名称是什么和 LLM 的关系
Transformer一种神经网络架构(2017 年由 Google 提出)现代 LLM 的"骨架"
GPT / BERT / Llama / Qwen / DeepSeek具体的模型名称这些都是 LLM(或者它们的"家族")
ChatGPT / Claude / Gemini面向最终用户的对话产品底层通常是一个或多个 LLM
Ollama / vLLM / llama.cpp本地或服务器运行 LLM 的工具不是 LLM 本身,是"加载器"和"运行环境"
RAG / Agent / Fine-tuning使用 LLM 的方法论让 LLM 在特定场景下"用得上、用得稳"

2. LLM 能做什么 / 不能做什么

2.1 它擅长的

  • 自然语言理解和生成(中英日法等):写文案、改稿、润色、翻译、摘要。
  • 代码生成与改写:从一段描述生成代码、补全函数、定位 bug、做跨语言翻译。
  • 结构化输出:抽取实体、把非结构化文本转 JSON、写 SQL、按 schema 生成。
  • 多轮对话与角色扮演:在长上下文中保持一致角色。
  • 推理与规划(取决于模型规模与提示方式):解数学题、做一般性逻辑推理、给出多步操作建议。
  • 工具调用(tool use):在受控格式下发起"我打算调用 XXX 接口"的请求,由外部系统执行。

2.2 它不擅长的 / 容易出错的地方

  • 事实准确性与时效:模型可能"自信地编造"看似合理的细节;训练数据截止之后的新闻它不知道。
  • 精确数值计算与长算式:大数乘除、位数多的加减容易出错,不要让它做会计。
  • 真实世界的因果与物理:它懂文本统计规律,不一定懂物理直觉。
  • 主观价值判断:它会迎合 prompt 的语气;真正的取舍、伦理、商业决策应交给人。
  • 长时记忆与一致性:在没有外部存储(RAG/笔记/工具)的情况下,跨会话的记忆会丢。

经验法则:LLM 是"非常强、非常快的语言统计机器 + 推理模拟器",不是数据库、不是计算器、不是搜索引擎、不是事实仲裁者。把它当成"很聪明但不靠谱的实习生"对待,通常更安全。

3. 它是怎么"被练出来"的

典型的训练三步曲:

  1. 预训练 (Pre-training)
    用海量无标注文本(网页、书、论文、代码...)训练模型"下一个 token"。这是把知识"塞"进模型参数的阶段,也是最贵的一步(动辄千万到千万美元级算力)。

  2. 监督微调 (Supervised Fine-Tuning, SFT)
    用人工标注的"好对话/好回答"数据继续训练,让模型从一个"补全文本的工具"变成"按指令回答问题的助手"。

  3. 偏好对齐 (RLHF / DPO 等)
    用人类偏好排序数据训练奖励信号(或直接训练),让模型的回答在有用性、安全性、可读性上更贴合人类偏好。RLHF (Reinforcement Learning from Human Feedback) 和 DPO (Direct Preference Optimization) 是当前两条主流路线。

可选的进一步训练:

  • 继续预训练 (Continued Pre-training):在特定领域数据上再练一阶段(比如医学、法律)。
  • 指令微调 / 任务微调:为某个固定任务定制。
  • PEFT / LoRA:Parameter-Efficient Fine-Tuning,只训练一小撮参数,成本低,可在一张消费级显卡上跑。

4. 怎么把它"接进"自己的应用

如果只是自己用,直接打开 ChatGPT/Claude/Gemini 这种对话产品就够了。如果要"接进"自己的产品,常见四种形态:

形态思路适合场景
直接调用云 API调用 OpenAI / Anthropic / Google 等厂商接口上线快、按量付费、无需自托管
自托管开源模型 + 推理服务用 Ollama / vLLM / llama.cpp + Llama / Qwen / DeepSeek 等开源模型数据敏感、需要可控、可本地/内网运行
RAG(检索增强生成)在 prompt 里塞进从知识库检索出来的相关文档,再让模型回答回答需要"基于私有/特定文档"
Agent让模型在多轮里规划、调用工具、做反思需要"做事"而不是"答话"的复杂工作流

本目录先讲 LLM 的概念层;具体怎么"用上"会分散在下面的子分类里(本地运行参考 1-Ollama/;Agent / RAG 等按需扩展)。

5. 选型时常见的几个问题

  • 开源 vs 闭源:闭源(ChatGPT、Claude、Gemini)通常更聪明但价格高、数据出云;开源(Llama、Qwen、DeepSeek、GLM)可控、私有,但要看尺寸选硬件。
  • 参数规模与能力:在同一代模型里,通常参数越大越聪明,但也越贵、越慢;在能力接近时,小模型 + 好提示词可能胜过大模型 + 烂 prompt。
  • 上下文窗口:不是越长越好;真正长期任务要靠 RAG / 滚动摘要。
  • 幻觉与可控性:闭源厂商一般偏稳,开源要靠 prompt 工程 + 工具调用 + 校验层。
  • 成本与延迟:本地推理电费 + 显卡 vs 云 API 单位 token 成本,需要按自己的量算一笔账。

6. 进一步阅读

  • Transformer 原论文:《Attention Is All You Need》(2017)
  • GPT-3 论文《Language Models are Few-Shot Learners》(2020):论证"规模带来涌现"
  • InstructGPT(2022):SFT + RLHF 的奠基性工作
  • Llama / Qwen / DeepSeek 各代模型的技术报告(对应 release 时点)

(后续本目录会按需补充:训练流水线、推理优化、Agent、RAG、评估等专题。)