1. 基本概念

1.1 统计学习基本

1.1.1 三要素

模型：模型是描述输入与输出之间的一种数学公式或者工具，比如一个数学表达式。（菜谱中的“烹饪方法”（炒、炖、烤））。
策略：评价模型的标准，比如误差最小、精简等（判断菜好不好吃的标准（色、香、味））。
算法：求解模型最优参数的方法（具体操作步骤（先放油还是先放盐））。

1.1.2 基本分类

监督学习：使用已标注过的数据，进行学习预测。

本质：学习输入映射到输出的统计规律。

基本假设：X、Y具有联合概率分布

无监督学习：使用无标注的数据，学习潜在的结构

强化学习：智能体和环境之间进行互动

2. 常见模型

2.1 监督学习

定义：使用带有标签（已知结果）的数据训练模型，模型学习输入到输出的映射关系。

核心任务：

分类（Classification）：预测离散类别（如垃圾邮件检测）。
回归（Regression）：预测连续数值（如房价预测）。

应用场景：图像分类、信用评分、疾病诊断等。

2.1.1 回归

线性回归：一次函数

逻辑回归：log 函数

2.1.2 感知机——最简单的分类器

一种最简单的线性二分类模型，它的目标是找到一条直线（或超平面），将两类数据分开。它是神经网络的基础，被称为“单层神经网络”。

核心思想

输入：数据特征（比如身高、体重）向量。
输出：二分类结果（比如“健康”或“不健康”）。
工作原理：
1. 对每个特征赋予一个权重（重要性），计算加权和。
2. 通过一个阈值函数（比如符号函数）判断类别。
3. 如果分类错误，调整权重，逐步逼近正确结果。
  1. 导入了基于误分类的损失函数，通常利用梯度下降法对其求最优解

简单流程：

初始化权重（比如全设为0）。
对每个样本： a. 计算预测值：score = w1x1 + w2x2 + ... + b（b是偏置项）。 b. 预测类别：若 score > 0，输出1；否则输出-1。 c. 如果预测错误：调整权重，让结果更接近正确答案。
重复步骤2，直到所有样本都被正确分类（或达到最大迭代次数）。

2.1.3 支持向量机（SVM）

主要用于分类任务，也可用于回归。它的核心思想是寻找一个最优的决策边界，从而划分数据

适用场景：小样本、高维数据（如文本分类、图像识别）。

核心目标：最大化间隔。找到一个超平面分开不同的数据

间隔：离超平面最近的样本点到超平面的距离

支持向量：离决策边界最近的样本称为“支持向量”，它们决定了超平面的位置和方向。只有这些点对模型有影响，其他样本点即使被删除，也不会改变结果。

问题解决：

线性不可分：比如螺旋分布，那么使用核函数将数据映射到高维空间。
常用核函数：线性核、多项式核、高斯核（RBF）
核函数输入原始向量，输出转化后的向量的点积，避免了显示计算。
过拟合：使用软间隔，允许少量样本误分类。
优化问题：使用拉格朗日乘数法转化为对偶问题，提高效率

硬间隔 vs 软间隔对比

特点	硬间隔	软间隔
数据要求	严格线性可分	允许轻微非线性可分或噪声
容错性	零容忍错误	允许少量错误
参数依赖	无	依赖惩罚系数C
泛化能力	容易过拟合（对噪声敏感）	更强（通过C调节平衡）
实际应用频率	较少（现实数据难完美可分）	广泛使用

2.1.3 神经网络

2.1.4 K近邻（KNN）

对于一个新样本，用最近的k个样本来判断它属于哪一类（多数投票）

k值选择：交叉验证法，切割成多个子集评估，尝试多种不同的k来选择最好的。

适合场景：小数据集、低维度、需要快速验证想法的场景。

2.1.5 朴素贝叶斯

计算所有类别的条件概率，选最大的那个。

步骤：计算先验概率→统计条件概率→预测

朴素：假设所有变量互相独立，

适用场景：文本分类、高维数据、需要快速预测的任务。

2.1.6 决策树

通过一系列“如果…就…”的问题（有点像大问题分解成小问题）来决策。

第一问：敲声沉闷吗？
- 是 → 继续问“纹理清晰吗？”
- 否 → 直接判断为“坏瓜”。
第二问：纹理清晰吗？
- 是 → 判断为“好瓜”。
- 否 → 继续问“根蒂是否蜷缩？”
第三问：根蒂蜷缩吗？
- 是 → 好瓜。
- 否 → 坏瓜。

ID3：将特征计算它的信息增益，选取最大的作为决策树的根节点，然后对每个分支递归此过程。

2.2 无监督学习

使用无标签数据，模型自动发现数据中的模式或结构。

2.2.1 隐马尔可夫模型

“通过可见的现象，推测背后隐藏的规律！”

比如通过海藻的湿度（可见现象）推测天气（隐藏状态），尽管你无法直接观察天气

用途：处理序列数据（如语音、文本、基因序列），预测隐藏的状态序列。

2.3 半监督学习

定义：结合少量有标签数据和大量无标签数据训练模型。
适用场景：标注成本高时（如医学图像分析）。
常见方法：自训练（Self-training）、生成式模型（如半监督GAN）。

2.4 强化学习

定义：智能体通过与环境交互，根据奖励信号学习最优策略。
核心要素：状态（State）、动作（Action）、奖励（Reward）、策略（Policy）。
常见算法：Q-learning、深度强化学习（DQN）、策略梯度（PG）。
应用场景：游戏AI（如AlphaGo）、自动驾驶、机器人控制。

3. 模型评估与选择

3.1 模型评估的核心目标

衡量泛化能力：确保模型在未知数据（测试集）上表现良好，而非仅在训练集上过拟合。
比较不同模型：通过统一指标对比算法优劣（如决策树 vs 神经网络）。
指导调参优化：根据评估结果调整超参数（如学习率、树深度）。

3.2 常用评估指标

3.2.1 分类任务

准确率：预测正确数量/总数量。适用于类别比较平衡的场景，比如文字识别。

精确率：预测为正且正确数量/预测为正的总数量。适用于误判为正的代价很高的场景（确保少犯错），通常要与召回率结合。

召回率：正确预测的正例/所有正例。适用于漏判正例代价很高的场景。（宁可错杀，不放一个）

F1-Score：2*（精确率 * 召回率）/（精确率 + 召回率）。（既要准，又要全）

ROC-AUC：模型区分正负样本的能力，模型分辨力有多强。

3.2.2 回归任务

均方误差：（实际值-预测值）的平方的平均值

均绝对误差：（实际值-预测值）的绝对值的平均值

R²系数：SSE/(SSR+SSE)。SSE：残差平方和，（真实-预测）的平方

3.3 常用评估方法

3.3.1 留出法——划分训练集

步骤：将数据集按比例（如 7:3）划分为训练集和测试集。
优点：简单快速。
缺点：结果受数据划分影响大，小数据集可能偏差高。
适用场景：数据量大时。

3.3.2 K折交叉验证 (K-Fold Cross-Validation)

步骤：将数据分为K个子集，每次用K-1个子集训练，剩余1个验证，循环K次取平均结果。
优点：充分利用数据，评估更稳定。
缺点：计算成本高（需训练K次模型）。
典型值：K=5 或 10。

3.3.3 自助法 (Bootstrapping)

步骤：通过有放回抽样生成多个训练集，统计模型表现。
优点：适合小数据集。
缺点：改变了数据分布，可能引入偏差。

4. 难分类

4.1 正则化与交叉验证

4.1.1 正则化——加限制避免过拟合

核心思想：在模型训练时，故意给模型增加一些限制，防止它“学得太复杂”，从而避免过拟合。

数学本质：在损失函数中增加一个“惩罚项”，限制模型参数的大小。

原损失函数：只关注预测误差（如均方误差）。
正则化后：损失函数 = 预测误差 + λ × 正则化项
- λ（lambda）：控制惩罚力度的系数（λ越大，模型越简单）。
- 正则化项：通常用模型权重的绝对值（L1）或平方（L2）表示。

4.1.2 交叉验证

见模型评估方法——k交叉验证

4.2 生成式与判别式模型

4.2.1 生成式模型（Generative Model）

像一名“画家”，学习数据是如何生成的，能画出新作品。

核心思想

目标：学习数据的“内在规律”，掌握数据是如何被生成的（比如猫和狗的特征分布）。
能力：不仅能分类，还能生成新数据（比如画出一只新的猫）。

关键点：生成式模型的核心是理解数据背后的规律，而不是单纯分类。

常见算法

朴素贝叶斯（Naive Bayes）
隐马尔可夫模型（HMM）
生成对抗网络（GAN）
变分自编码器（VAE）

优缺点

✅ 优势：
- 能生成新数据（如AI绘画、文本创作）。
- 可以处理缺失数据（比如知道部分特征也能推断）。
❌ 劣势：
- 计算复杂度高（需要学习完整的数据分布）。
- 分类性能通常不如判别式模型（因为它分心去学生成数据了）。

应用场景

生成新图片、音乐、文本（如Midjourney、ChatGPT）。
数据补全（修复模糊的老照片）。
异常检测（生成正常数据分布，偏离的视为异常）。

4.2.2 判别式模型（Discriminative Model）

像一名“鉴定师”，只学习如何区分不同类别，专注分类边界。

核心思想

目标：直接学习类别之间的分界线，不关心数据是如何生成的。
能力：专注分类或回归任务，不能生成新数据。

关键点：判别式模型只关心“如何区分”，不关心“数据怎么来的”。

常见算法

逻辑回归（Logistic Regression）
支持向量机（SVM）
决策树（Decision Tree）
深度神经网络（DNN、CNN、Transformer）

优缺点

✅ 优势：
- 分类/回归性能通常更好（专注任务）。
- 计算效率高（不需要学习完整数据分布）。
❌ 劣势：
- 无法生成新数据。
- 对数据缺失敏感（比如缺少某些特征可能无法分类）。

应用场景

图像分类（识别猫狗、人脸识别）。
垃圾邮件过滤。
股票价格预测。

4.2.3 二者比较总结

特点	生成式模型	判别式模型
核心目标	学习数据生成规律 P(X,Y)P(X,Y)	学习分类边界 P(Y∥X)P(Y∥X)
能否生成数据	能（如AI绘画）	不能
计算复杂度	高	低
典型任务	生成、补全、异常检测	分类、回归、预测
比喻	画家	鉴宝师

kokoro的小站

机器学习简要复习笔记

1. 基本概念

1.1 统计学习基本

1.1.1 三要素

1.1.2 基本分类

2. 常见模型

2.1 监督学习

2.1.1 回归

2.1.2 感知机——最简单的分类器

2.1.3 支持向量机（SVM）

2.1.3 神经网络

2.1.4 K近邻（KNN）

2.1.5 朴素贝叶斯

2.1.6 决策树

2.2 无监督学习

2.2.1 隐马尔可夫模型

2.3 半监督学习

2.4 强化学习

3. 模型评估与选择

3.1 模型评估的核心目标

3.2 常用评估指标

3.2.1 分类任务

3.2.2 回归任务

3.3 常用评估方法

3.3.1 留出法——划分训练集

3.3.2 K折交叉验证 (K-Fold Cross-Validation)

3.3.3 自助法 (Bootstrapping)

4. 难分类

4.1 正则化与交叉验证

4.1.1 正则化——加限制避免过拟合

4.1.2 交叉验证

4.2 生成式与判别式模型

4.2.1 生成式模型（Generative Model）

4.2.2 判别式模型（Discriminative Model）

4.2.3 二者比较总结

小王

1. 基本概念

1.1 统计学习基本

1.1.1 三要素

1.1.2 基本分类

2. 常见模型

2.1 监督学习

2.1.1 回归

2.1.2 感知机——最简单的分类器

2.1.3 支持向量机（SVM）

2.1.3 神经网络

2.1.4 K近邻（KNN）

2.1.5 朴素贝叶斯

2.1.6 决策树

2.2 无监督学习

2.2.1 隐马尔可夫模型

2.3 半监督学习

2.4 强化学习

3. 模型评估与选择

3.1 模型评估的核心目标

3.2 常用评估指标

3.2.1 分类任务

3.2.2 回归任务

3.3 常用评估方法

3.3.1 留出法——划分训练集

3.3.2 K折交叉验证 (K-Fold Cross-Validation)

3.3.3 自助法 (Bootstrapping)

4. 难分类

4.1 正则化与交叉验证

4.1.1 正则化——加限制避免过拟合

4.1.2 交叉验证

4.2 生成式与判别式模型

4.2.1 生成式模型（Generative Model）

4.2.2 判别式模型（Discriminative Model）

4.2.3 二者比较总结

数据结构学习笔记——最小生成树

小王