基于 Final Review 所有重点范围,逐页对照课件整理。面向零基础小白,概念优先、公式辅助。

目录

  1. Transformer(Final Review 第 1-17 页)
  2. MoE 混合专家模型(Final Review 第 18-24 页)
  3. Latent Variable Models / VAE(Final Review 第 25-28 页)
  4. GAN 生成对抗网络(Final Review 第 29-38 页)
  5. Diffusion Model 扩散模型(Final Review 第 39-47 页)
  6. Prompt Engineering 提示工程
  7. Safety and Ethics 安全与伦理

1. Transformer

对应 Final Review 第 2-17 页,课件 CH03

1.1 为什么需要 Transformer?

处理文本的三个核心难题:

  1. 输入维度大:一个 37 词的句子,每词 1024 维 = 37888 维输入
  2. 长度不固定:不像图片可以 resize,文本句子的长度天然不同
  3. 指代关系:”The restaurant refused to serve me a ham sandwich because it only cooks vegetarian food.” — “it” 指 restaurant 还是 sandwich?需要注意力机制来解决

传统 RNN 的问题:处理长序列时”逐渐遗忘”前面的信息。Transformer 用自注意力一次性让所有词互相看到彼此,彻底解决了遗忘问题。

1.2 Seq2seq 架构

Transformer 属于 Seq2seq(序列到序列)模型:

输入序列 → Encoder(编码器)→ Decoder(解码器)→ 输出序列

Seq2seq 能做的事(7 种应用)

1.3 自注意力机制(Self-Attention)—— Transformer 核心

通俗理解

自注意力 = 让句子中每个词去”看”句子中所有其他词,理解它们之间的关系权重。

例如:”我用面包喂了鸭子,因为它们很饿” — “它们”应该高度关注”鸭子”。

数学定义(Final Review 第 4-5 页)

一个自注意力块 sa[·] 接收 N 个输入 x₁, ..., xₙ,每个是 D×1 维向量,输出 N 个相同大小的向量。

第 1 步:计算 Values(值)

对每个输入 xₙ,计算:

vₙ = β_v + Ω_v × xₙ

其中 Ω_v(D×D 权重矩阵)和 β_v(D 维偏置)是共享参数(所有位置用同一套参数)。

第 2 步:计算 Queries 和 Keys

qₙ = β_q + Ω_q × xₙ    (Query:我在找什么?)
kₙ = β_k + Ω_k × xₙ    (Key:我有什么特征?)

第 3 步:计算注意力权重

a[xₘ, xₙ] = softmax( qₘ · k₁/√D , qₘ · k₂/√D , ..., qₘ · kₙ/√D )ₙ
           = exp(qₘ·kₙ / √D) / Σ_j exp(qₘ·k_j / √D)

即:第 m 个 query 与所有 key 做点积(衡量相似度),除以 √D 做缩放,再 softmax 转成概率。

第 4 步:输出是所有 value 的加权和

sa[x₁, ..., xₙ]ₙ = Σₘ a[xₘ, xₙ] × vₘ

经典计算题(Final Review 第 6 页)

假设 N 个输入,每个 D 维:

  1. 计算 Q、K、V 各需要多少权重和偏置?
    • 每个需要:D×D 权重 + D 偏置
    • Q、K、V 三组合计:3D² + 3D 个参数
  2. 有多少个注意力权重 a[•, •]?
    • N² 个(每对输入之间都有一个注意力权重)
  3. 如果用全连接网络连接所有输入和输出,需要多少参数?
    • (DN)² 权重 + DN 偏置(远大于自注意力!这就是自注意力的效率优势)

矩阵形式(Final Review 第 7 页)

Attention(Q, K, V) = softmax( QK^T / √D_k ) × V

位置编码 Positional Encoding(Final Review 相关)

自注意力不关心词的顺序(”我爱你”和”你爱我”对它一样),需要加入位置信息:

PE(pos, 2i)   = sin( pos / 10000^(2i/D) )
PE(pos, 2i+1) = cos( pos / 10000^(2i/D) )

理解:每个位置有一个独特的 sin/cos 组合模式,模型借此区分位置。

1.4 交叉注意力(Cross-Attention)—— Final Review 第 8-9 页

维度 Self-Attention(自注意力) Cross-Attention(交叉注意力)
Q 来源 同一序列自己 Decoder 的当前序列
K, V 来源 同一序列自己 Encoder 的输出
作用 自己关注自己内部关系 一个序列”查询”另一个序列的信息
场景 理解英文句子的上下文 翻译时 Decoder 参考 Encoder 编码的源语言

Final Review 原话

Self-attention allows each token in a sequence to attend to all other tokens within the same sequence, enabling the model to capture contextual relationships within that input.

Cross-attention enables the decoder to attend to the output of the encoder — allowing it to integrate contextual information from a different source sequence during generation.

通俗记忆

1.5 多头自注意力(Multi-Head Self-Attention)—— Final Review 第 10-11 页

做法:并行做 h 组独立的自注意力,每组有自己独立的 W_Q、W_K、W_V,最后拼接。

MultiHead(X) = Concat(head₁, head₂, ..., head_h) × W_O
head_i = Attention(X × W_Qi, X × W_Ki, X × W_Vi)

好处(Final Review 第 11 页原话)

Enables the model to capture information from different representation subspaces.

一个头学会关注语法结构,另一个头关注指代关系,另一个关注语义相似度……多视角并行学习,然后融合。

1.6 Transformer 层(Final Review 第 12-14 页)

真实网络中,数据会经过一系列 Transformer 层。每层包含:

输入 → 多头自注意力 → 残差连接(+输入) → Layer Norm → FFN → 残差连接 → Layer Norm → 输出

核心组件:

  1. 多头自注意力:捕获 token 间关系
  2. 残差连接(Add):输入 + 注意力输出,防止梯度消失
  3. 层归一化:稳定训练
  4. 前馈神经网络(FFN):对每个位置独立做非线性变换

Batch Normalization(BN)— Final Review 第 14 页

三步操作:

  1. 计算批次的均值 μ 和标准差 σ
  2. 标准化:x̂ = (x - μ) / σ
  3. 缩放和平移:y = γ × x̂ + β(γ 和 β 是可学习参数,让网络恢复表达能力)

1.7 三种 Transformer 模型(Final Review 第 15 页)

类型 功能 代表 方向 预训练方式
Encoder-only 文本 → 表征(理解) BERT 双向 AE(自编码)
Decoder-only 上文 → 预测下一个 token(生成) GPT-3 单向(左→右) AR(自回归)
Encoder-Decoder 一个序列转另一个序列 翻译模型 Encoder双向 + Decoder单向 两者结合

BERT 详解

GPT-3 详解

1.8 预训练 Pre-Training(Final Review 第 16-17 页)

AR vs AE — 两种自监督学习目标

  AR(AutoRegressive,自回归) AE(AutoEncoding,自编码)
核心 基于上文预测下一个 token 从被破坏数据重建原始数据
公式 P(I,love,eating,burgers) = P(I)·P(love|I)·P(eating|I,love)·P(burgers|I,love,eating) P(mask=eating | I love [MASK] burgers)
方向 单向(只看左边) 双向(左右都看)
代表 GPT 系列 BERT

BERT 的两个预训练任务

  1. MLM(Masked Language Model):随机遮住(mask)一些词,让模型预测被遮的词
  2. NSP(Next Sentence Prediction):给两个句子,判断它们是否在原文中相邻

微调 Fine-Tuning

预训练后,加少量标注数据和额外层:

经典考题(Final Review 第 17 页)

题目:BERT 用 MLM 和 NSP 预训练,请提出新的对比学习预训练任务。

答案示例

1.9 完整的 NLP 处理流程

原始文本 → Tokenization(分词)→ Embeddings(嵌入)→ Transformer 模型
  1. Tokenization:把文本拆成子词单元(sub-word tokens),折中处理——比字母大,比完整单词小,解决生僻词和词形变化问题(如 walk/walks/walked/walking)
  2. Embeddings:每个 token 映射为一个固定维度的向量(典型值:1024 维,词表大小:30000)
  3. Transformer 模型:对这些向量进行多层变换

1.10 KV Cache(推理加速)

Decoder 每生成一个新 token:

优化技术:Paged Cache(分页缓存)、量化 KV Cache(4-8 bit)、自适应压缩(LeanKV)、跨层 SVD 合并(xKV,可达 6.8 倍压缩)

2. MoE 混合专家模型

对应 Final Review 第 18-24 页,课件 CH06

2.1 核心概念

MoE(Mixture of Experts):用多个子模型(”专家”)组成一个大模型,每个输入只激活最相关的少量专家,而非所有参数。

关键优势(Final Review 考点):

相比传统 Dense 模型,MoE 在增加模型容量的同时不增加每个输入的计算量,实现更高效的扩展。

2.2 核心组件(Final Review 第 19 页)

组件 是什么 做什么
Experts(专家) 多个专门的前馈神经网络(FFNN) 各自擅长处理特定类型的数据
Router / Gate Network(路由器) 一个小型决策网络 决定每个输入该发给哪些专家

2.3 Dense vs. Sparse 模型(Final Review 相关)

  Dense 模型 Sparse 模型(MoE)
激活方式 每个输入激活全部参数 每个输入选择性激活部分参数
计算量 随参数量线性增长 参数量增长但计算量(几乎)不变
原则 密集建模 稀疏建模

2.4 Router 与专家选择(Final Review 第 20-22 页)

Router 在训练和推理时决定选择哪些专家。

常见问题:同一个专家总是被选中 → 其他专家”闲置”。

Load Balancing — KeepTopK(Final Review 第 22 页)

不只选得分最高的 1 个专家,而是选得分最高的 K 个专家,缓解”一家独大”。

2.5 Auxiliary Loss(辅助损失 / 负载均衡损失)— Final Review 第 23-24 页

问题:不同专家被使用的频率严重不均(有的忙死,有的闲死)。

解决方案:在主损失函数上叠加一个 Auxiliary Loss

Add a constraint that forces experts to have equal importance.

这个损失惩罚不均衡的专家使用模式,强制所有专家被平等对待。

2.6 Expert Capacity(专家容量)

问题:太多 token 被路由到同一个专家 → 该专家处理不过来。

解决方案:设置容量因子(Capacity Factor),限制每个专家能处理的 token 数上限。超出的 token 被”溢出”处理(可能直接跳过该层或由下一个专家接管)。

2.7 MoE 优势总结

3. Latent Variable Models / VAE

对应 Final Review 第 25-28 页,课件 CH04

3.1 潜变量模型(Latent Variable Models)— Final Review 第 25 页

核心思想

Latent variable models map a random “latent” variable to create a new data sample.

假设世界的数据是这样产生的:

潜变量 z(姿态、大小、颜色、品种...) → 世界模型/生成器 → 观测变量 x(图像、视频、音频...)

数学形式

p(x) = ∫ p(z) × p(x|z) dz

如何衡量分布的好坏?

最小化 KL 散度 ⇔ 最大化似然(likelihood)

3.2 Autoencoder(自编码器)— Final Review 第 26-27 页

结构

输入 x → Encoder → 特征 code z → Decoder → 重建 x'

Encoder:4 层卷积(4-layer conv),将高维输入压缩为低维特征 Decoder:4 层反卷积(4-layer upconv),从低维特征重建输入

损失函数

L2 Loss = ||x - x'||²

让重建结果尽可能接近原始输入。不需要标签! 这是无监督学习。

Autoencoder 的多种用途

  1. 降维(Dimensionality Reduction):类似 PCA 但非线性,希望特征捕获数据中有意义的变化因子
  2. 预训练 DNN:贪心逐层预训练(Greedy Layer-wise Pre-training)— 先无监督预训练 encoder,再加分类器微调
  3. 相似图片搜索:用 encoder 提取 code,在 code 空间用欧氏距离搜索相似图片
  4. 迁移学习:从大量无标签数据预训练 → 少量有标签数据微调

Autoencoder 的致命缺陷

不能生成新图片! 因为我们不知道 code 空间长什么样:

3.3 VAE(变分自编码器)— Final Review 第 28 页

Autoencoder → VAE 的核心改进

Autoencoder 的 Encoder 输出一个确定的 code c。 VAE 的 Encoder 输出一个概率分布(均值 m 和方差 σ),然后从分布中采样。

VAE 结构对比(Final Review 第 28 页的核心图)

  Autoencoder VAE
Encoder 输出 确定的 code c 均值 m₁, m₂, m₃ 和方差 σ₁, σ₂, σ₃
Code 怎么来 c = encoder(x) c_i = exp(σ_i) × e_i + m_i(e_i 从 N(0,1) 采样)
Code 的含义 code = 信息 code = 信息(m) + 噪声(exp(σ) × e)
能否生成 ❌ 不能 ✅ 从 N(0,I) 采样,decoder 生成新图片

VAE 核心公式

c_i = exp(σ_i) × e_i + m_i       其中 e_i ~ N(0, 1)

为什么 VAE 能生成?(直觉理解)

加入噪声后:

VAE 损失函数

Loss = 重建误差 + 正则化项

1. 重建误差(Reconstruction Loss)||x - x'||²,和 Autoencoder 一样,让 decoder 输出接近输入

2. 正则化项(Regularization Loss)

Σ_i (exp(σ_i) - (1 + σ_i) + m_i²)

让 encoder 输出的分布 q(z|x) 接近先验分布 p(z) = N(0, I)

VAE 的数学推导(ELBO)

目标:最大化对数似然 log p(x) = log ∫ p(z) × p(x|z) dz

但积分不好算 → 引入辅助分布 q_φ(z|x)(就是 encoder)

经过推导得到 ELBO(Evidence Lower Bound)

log p(x) ≥ E_{z~q}[log p(x|z)] - KL(q(z|x) || p(z))
         = 重建项 - KL 散度项

最大化 ELBO ⇔ 最小化:重建误差 + KL 散度

VAE 的问题(Final Review 相关)

VAE 可能只是记住了训练图片,而不是真正学会生成新图片:

4. GAN 生成对抗网络

对应 Final Review 第 29-38 页,课件 CH05

4.1 核心思想(Final Review 第 29-30 页)

类比

Generator(生成器)= 伪造画作的画师 → 学习制造以假乱真的假货
Discriminator(鉴别器)= 艺术品鉴定官 → 学习区分真假

两者互相博弈、共同进步

最终:Generator 能生成以假乱真的内容。

4.2 GAN 训练算法(Final Review 第 31 页)

初始化:Generator G 和 Discriminator D(都是神经网络)

每个训练迭代交替两个步骤

步骤 1 — 训练 Discriminator(固定 G 不动)

步骤 2 — 训练 Generator(固定 D 不动)

Discriminator 如何帮助 Generator 改进?(Final Review 考点)

D 给 G 提供分数作为反馈信号,告诉 G 往哪个方向改进参数才能生成更逼真的内容。

这比 VAE 的 L2 Loss(逐像素对比)更好,因为 D 关注的是”整体是否真实”而非”每个像素对不对”。

4.3 JS 散度的问题(Final Review 第 32 页)—— 重点

GAN 使用的 JS 散度

GAN 的损失函数基于 JS 散度来度量生成分布 P_G 和真实分布 P_data 的差异。

致命问题

如果 P_G 和 P_data 不重叠,JS 散度永远等于 log2(常数)!

JS(P_G0, P_data) = log2
JS(P_G1, P_data) = log2     ← 全是 log2!
JS(P_G100, P_data) = 0      ← 只有完全重叠时才不同

直觉理解:两个分布不重叠 → 一个二分类器可以 100% 准确区分它们 → JS 散度给不出有意义的梯度信息。

后果

The accuracy (or loss) means nothing during GAN training.

无论 Generator 是稍微差还是特别差,JS 散度都一样 = log2。训练无法知道”往哪走”。

4.4 Wasserstein 距离(Final Review 第 33-34 页)—— 解决方案

核心思想

把分布 P “搬运”成分布 Q 需要付出的代价,选最小的平均搬运距离作为两个分布的距离。

W(P, Q) = "minimum average distance to move P into Q"

类比:有很多种搬运方案(moving plans),选平均距离最小的那个 → 这就是 Wasserstein 距离。

对比 JS 散度

  JS 散度 Wasserstein 距离
P_G0 vs P_data log2(不变) d₀(很大)
P_G1 vs P_data log2(不变) d₁(小一些)
log2
P_G100 vs P_data 0 0
梯度信号 无(都是 log2) 有(d₀ > d₁ > … > 0)

结论(Final Review 第 34 页)

Using Wasserstein Loss to improve GAN training stability.

Wasserstein 距离能反映 Generator 逐步靠近真实分布的过程,给训练提供连续的梯度信号。

4.5 生成质量评估(Final Review 第 35-36 页)

质量评估 Quality(第 35 页)

方法:用现成的图片分类器(Off-the-shelf Image Classifier,如 Inception Net、VGG)评估:

多样性评估 Diversity(第 36 页)

方法

Inception Score(IS)

Inception Score = Quality × Diversity

4.6 多样性问题(Final Review 第 37-38 页)

Mode Collapse(模式坍塌)— 第 37 页

Mode Dropping(模式丢失)— 第 38 页

5. Diffusion Model 扩散模型

对应 Final Review 第 39-47 页,课件 CH08

5.1 核心概念(Final Review 第 40 页)

Forward Process(前向过程): 清晰图片 → +噪声 → +噪声 → ... → 纯噪声
Reverse Process(反向过程): 纯噪声 → 去噪 → 去噪 → ... → 清晰图片

物理类比:墨水在水中的扩散

5.2 VAE vs. Diffusion Model(Final Review 第 41 页)

  VAE Diffusion Model
编码方式 Encoder 网络一次性编码 逐步加噪声(×N 步),每步是预定义的高斯噪声
解码方式 Decoder 网络一次性解码 逐步去噪(×N 步),每步用 CNN 预测并去除噪声
潜变量层数 单层 z 多层 z₁, z₂, …, z_T(T 通常很大,如 1000)
实现方式 Encoder + Decoder 神经网络 CNN(常用于实现去噪函数)

Diffusion = 把 VAE 的一次性编码/解码拆成 N 小步 → 每步更简单 → 效果更好

5.3 Forward Process(前向 / 加噪过程)— Final Review 第 45 页

逐步公式

x_t = √(1-β_t) × x_{t-1} + √β_t × ε

关键性质:一步到位公式

不需要循环计算 T 步,可以直接从 x₀ 算出任意 x_t:

x_t = √(ᾱ_t) × x₀ + √(1-ᾱ_t) × ε

其中 ᾱ_t = ∏_{s=1}^{t} (1-β_s),是累积信号保留率。

Noise Schedule(噪声调度)

β_t 的序列设计是扩散模型成功的关键

5.4 Reverse Process(反向 / 去噪过程)— Final Review 第 42-44 页

核心组件:噪声预测器(Noise Predictor)

米开朗基罗比喻

“The sculpture is already complete within the marble block, before I start my work. It is already there, I just have to chisel away the superfluous material.”

去噪 = 从噪声中”凿出”图片。

噪声预测器的工作方式

输入:噪声图片 x_t + 时间步 t
输出:预测的噪声 ε_pred
去噪:x_{t-1} = (x_t - 预测的噪声) / √(1-β_t) + σ_t × z

5.5 训练噪声预测器(Final Review 第 44-46 页)

训练过程

1. 随机取一张清晰图片 x₀
2. 随机采样一个噪声 ε ~ N(0, I)
3. 随机选一个时间步 t
4. 计算 x_t = √(ᾱ_t) × x₀ + √(1-ᾱ_t) × ε
5. 噪声预测器输入 (x_t, t),输出 ε_pred
6. 损失: Loss = ||ε_pred - ε||²   (让预测的噪声尽可能接近真实噪声)
7. 用梯度下降更新噪声预测器参数

核心要点

推理(生成图片)

1. 从纯噪声 x_T ~ N(0, I) 开始
2. for t = T, T-1, ..., 1:
     用噪声预测器预测当前噪声 ε_pred
     x_{t-1} = (x_t - ε_pred × ...) / ... + σ_t × z
3. 得到 x_0 = 清晰图片

5.6 Text-to-Image 文本到图片生成(Final Review 第 47 页)

条件生成

把文本条件注入噪声预测器,让它”看着文字去噪”:

Stable Diffusion 三件套(Final Review 第 47 页)

                                    ┌─ Text Encoder ──→ 文本向量 ──┐
                                    │                              ↓
Text Prompt (A cat in the snow) ────┤               Generation Model (扩散模型)
                                    │                              ↓
                                    └─→ Intermediates (压缩潜空间) ←┘
                                                                   ↓
                                                               Decoder
                                                                   ↓
                                                              输出图片
  1. Text Encoder(文本编码器):把 prompt 转成向量,提供条件信号
  2. Generation Model(扩散模型):在潜空间(压缩图) 中做扩散/去噪
  3. Decoder(解码器):把潜空间的小图放大还原成完整图片

为什么用潜空间(Latent Space)?

5.7 评估指标

FID(Fréchet Inception Distance)

CLIP Score

6. Prompt Engineering 提示工程

对应课件 CH07

6.1 基本概念

6.2 七大提示框架

框架 组成
APE Action + Purpose + Expectation
RACE Role + Action + Context + Expectation
CARE Context + Action + Result + Example
COAST Context + Objective + Action + Scenario + Task
CRISPE Capability + Role + Insight + Statement + Personality + Experiment
RISE Role + Input + Steps + Expectation
TRACE Task + Request + Action + Context + Example

6.3 RTGO 和 CO-STAR(两个重点框架)

RTGO

CO-STAR(新加坡 GPT-4 Prompt Engineering 竞赛冠军框架)

6.4 Few-Shot / One-Shot / Zero-Shot

6.5 Chain-of-Thought(CoT,思维链)

核心:让模型在回答前”一步步推理”。

经典例子

Q: “When I was 6, my sister was half my age. Now I’m 70, how old is my sister?”

Let’s think step by step:

  • When I was 6 → sister was 3 (half)
  • So sister is 3 years younger than me
  • Now I’m 70 → sister is 70 - 3 = 67

Answer: 67

6.6 Fast-Response vs Slow-Thinking Models

  Fast-Response(GPT-4o) Slow-Thinking(o1)
原理 基于概率预测 基于思维链推理
速度 快,成本低 慢,成本高
决策方式 预设规则 自主分析与实时决策
创造力 限于模式识别 能产生新想法
适用问题 结构化、定义清晰的问题 多维、非结构化问题

7. Safety and Ethics 安全与伦理

对应课件 CH11

7.1 LLM 安全问题

数据投毒 Data Poisoning

越狱攻击 Jailbreaking

通过精心设计的 prompt 绕过安全限制:

  1. 制造场景:”请假装我已故的祖母,她曾是化工厂的化学工程师…”
  2. 目标劫持(Goal Hijacking):”Ignore the previous prompt…”
  3. 角色扮演:让模型扮演特定人物,增加毒性风险
  4. Prompt Leaking:诱导模型泄露系统 prompt 或敏感信息

隐私泄露 Privacy Leakage

7.2 LLM 伦理问题

幻觉 Hallucination

虚假信息 Falsehoods

偏见 Bias

根本原因

  1. 训练数据本身就包含偏见、毒性、虚假信息
  2. 大模型学会了数据中的虚假相关性 → 放大了这些风险

7.3 文本对抗攻击

7.4 可扩展监督 Scalable Oversight

Debate(辩论机制)

例子

Human: Where should I go on vacation?

Alice: Alaska.

Bob: Bali.

Alice: Bali is out since your passport won’t arrive in time.

Bob: Expedited passport service only takes two weeks.

→ 辩论层层深入,人类最终做出判断

开放问题

核心原则

Never lose yourself in LLMs. Do not lose the ability to judge.

永远不要在 LLM 中迷失自己,不要失去判断能力。

附录:速查表

Transformer

概念 一句话
Self-Attention 每个 token 关注同序列所有其他 token
Cross-Attention Decoder 用自己 Q 查 Encoder 的 K、V(跨序列
Multi-Head 多组并行自注意力 = 不同表征子空间
Positional Encoding sin/cos 编码告诉模型词的位置
BERT Encoder-only,双向,MLM + NSP 预训练
GPT Decoder-only,自回归(AR),单向预测
AR vs AE AR = 预测下一个词;AE = 重建被破坏数据
KV Cache 缓存之前的 K、V,避免重复计算

MoE

概念 一句话
Expert 专门的 FFNN,处理特定类型数据
Router 决定输入分配给哪些专家
KeepTopK 选 Top-K 专家(不是只选 1 个)
Auxiliary Loss 强制所有专家有相同重要性
Expert Capacity 限制每个专家处理的 token 上限

VAE

概念 一句话
Autoencoder Encoder 压缩 → Decoder 重建,无监督
VAE 关键改进 Encoder 输出分布(m, σ)而不是确定值
c_i = exp(σ_i)×e_i + m_i Code = 噪声 + 信息
ELBO 重建项 - KL散度 = log p(x) 的下界
正则化项 Σ(exp(σ_i) - (1+σ_i) + m_i²)

GAN

概念 一句话
Generator 生成假样本,骗过 Discriminator
Discriminator 区分真假,给 G 反馈方向
JS 散度问题 不重叠时恒为 log2 → 无梯度信号
Wasserstein 距离 地动距离,有连续梯度 → 训练更稳
Mode Collapse G 只生成一种/少数几种模式
Mode Dropping G 在训练中丢失之前能生成的模式
Inception Score 质量(集中)× 多样性(均匀)

Diffusion

概念 一句话
Forward Process 逐步加高斯噪声到纯噪声(x_t = √(ᾱ_t)x₀ + √(1-ᾱ_t)ε)
Reverse Process 逐步去噪(CNN 预测并减去噪声)
Noise Predictor 输入 (x_t, t),输出 ε_pred,训练目标 ||(ε_pred - ε)||²
Stable Diffusion Text Encoder + Latent Diffusion + Decoder
FID 真实图 vs 生成图特征的高斯分布距离(越小越好)

Prompt Engineering

概念 一句话
RTGO Role + Task + Goal + Objective
CO-STAR Context + Objective + Style + Tone + Audience + Response
Few-shot 给几个示例帮助模型理解任务
CoT 让模型一步步推理
Self-Consistency 多条推理路径,选最一致的

Safety & Ethics

概念 一句话
Data Poisoning 训练数据中注入触发器 → 操控模型输出
Jailbreaking 精心设计 prompt 绕过安全限制
Hallucination 模型编造看起来真实的不实内容
Bias 模型反映并放大训练数据中的偏见
Debate 两个 AI agent 辩论,人类裁判判断

声明:以上内容均由 Claude Code 根据课程课件进行整理,仅用于期末复习