1. 基本概念

1.1 统计学习基本

1.1.1 三要素

  • 模型:模型是描述输入与输出之间的一种数学公式或者工具,比如一个数学表达式。(菜谱中的“烹饪方法”(炒、炖、烤))。

  • 策略:评价模型的标准,比如误差最小、精简等(判断菜好不好吃的标准(色、香、味))。

  • 算法:求解模型最优参数的方法(具体操作步骤(先放油还是先放盐))。

1.1.2 基本分类

监督学习:使用已标注过的数据,进行学习预测。

本质:学习输入映射到输出的统计规律。

基本假设:X、Y具有联合概率分布

无监督学习:使用无标注的数据,学习潜在的结构

强化学习:智能体和环境之间进行互动

2. 常见模型

2.1 监督学习

定义:使用带有标签(已知结果)的数据训练模型,模型学习输入到输出的映射关系。

核心任务

  • 分类(Classification):预测离散类别(如垃圾邮件检测)。

  • 回归(Regression):预测连续数值(如房价预测)。

应用场景:图像分类、信用评分、疾病诊断等。

2.1.1 回归

线性回归:一次函数

逻辑回归:log 函数

2.1.2 感知机——最简单的分类器

一种最简单的线性二分类模型,它的目标是找到一条直线(或超平面),将两类数据分开。它是神经网络的基础,被称为“单层神经网络”。

核心思想

  • 输入:数据特征(比如身高、体重)向量。

  • 输出:二分类结果(比如“健康”或“不健康”)。

  • 工作原理

    1. 对每个特征赋予一个权重(重要性),计算加权和。

    2. 通过一个阈值函数(比如符号函数)判断类别。

    3. 如果分类错误,调整权重,逐步逼近正确结果。

      1. 导入了基于误分类的损失函数,通常利用梯度下降法对其求最优解

简单流程

  1. 初始化权重(比如全设为0)。

  2. 对每个样本: a. 计算预测值:score = w1x1 + w2x2 + ... + b(b是偏置项)。 b. 预测类别:若 score > 0,输出1;否则输出-1。 c. 如果预测错误:调整权重,让结果更接近正确答案。

  3. 重复步骤2,直到所有样本都被正确分类(或达到最大迭代次数)。

2.1.3 支持向量机(SVM)

主要用于分类任务,也可用于回归。它的核心思想是寻找一个最优的决策边界,从而划分数据

适用场景:小样本、高维数据(如文本分类、图像识别)。

核心目标:最大化间隔。找到一个超平面分开不同的数据

间隔:离超平面最近的样本点到超平面的距离

支持向量:离决策边界最近的样本称为“支持向量”,它们决定了超平面的位置和方向。只有这些点对模型有影响,其他样本点即使被删除,也不会改变结果。

问题解决

  1. 线性不可分:比如螺旋分布,那么使用核函数将数据映射到高维空间。

    常用核函数:线性核、多项式核、高斯核(RBF)

    核函数输入原始向量,输出转化后的向量的点积,避免了显示计算。

  2. 过拟合:使用软间隔,允许少量样本误分类。

  3. 优化问题:使用拉格朗日乘数法转化为对偶问题,提高效率

硬间隔 vs 软间隔对比

特点

硬间隔

软间隔

数据要求

严格线性可分

允许轻微非线性可分或噪声

容错性

零容忍错误

允许少量错误

参数依赖

依赖惩罚系数C

泛化能力

容易过拟合(对噪声敏感)

更强(通过C调节平衡)

实际应用频率

较少(现实数据难完美可分)

广泛使用

2.1.3 神经网络

2.1.4 K近邻(KNN)

对于一个新样本,用最近的k个样本来判断它属于哪一类(多数投票)

k值选择:交叉验证法,切割成多个子集评估,尝试多种不同的k来选择最好的。

适合场景:小数据集、低维度、需要快速验证想法的场景。

2.1.5 朴素贝叶斯

计算所有类别的条件概率,选最大的那个。

步骤:计算先验概率→统计条件概率→预测

朴素:假设所有变量互相独立,

适用场景:文本分类、高维数据、需要快速预测的任务。

2.1.6 决策树

通过一系列“如果…就…”的问题(有点像大问题分解成小问题)来决策。

  1. 第一问:敲声沉闷吗?

    • 是 → 继续问“纹理清晰吗?”

    • 否 → 直接判断为“坏瓜”。

  2. 第二问:纹理清晰吗?

    • 是 → 判断为“好瓜”。

    • 否 → 继续问“根蒂是否蜷缩?”

  3. 第三问:根蒂蜷缩吗?

    • 是 → 好瓜。

    • 否 → 坏瓜。

ID3:将特征计算它的信息增益,选取最大的作为决策树的根节点,然后对每个分支递归此过程。

2.2 无监督学习

使用无标签数据,模型自动发现数据中的模式或结构。

2.2.1 隐马尔可夫模型

“通过可见的现象,推测背后隐藏的规律!”

比如通过海藻的湿度(可见现象)推测天气(隐藏状态),尽管你无法直接观察天气

用途:处理序列数据(如语音、文本、基因序列),预测隐藏的状态序列。

2.3 半监督学习

  • 定义:结合少量有标签数据和大量无标签数据训练模型。

  • 适用场景:标注成本高时(如医学图像分析)。

  • 常见方法:自训练(Self-training)、生成式模型(如半监督GAN)。

2.4 强化学习

  • 定义:智能体通过与环境交互,根据奖励信号学习最优策略。

  • 核心要素:状态(State)、动作(Action)、奖励(Reward)、策略(Policy)。

  • 常见算法:Q-learning、深度强化学习(DQN)、策略梯度(PG)。

  • 应用场景:游戏AI(如AlphaGo)、自动驾驶、机器人控制。

3. 模型评估与选择

3.1 模型评估的核心目标

  1. 衡量泛化能力:确保模型在未知数据(测试集)上表现良好,而非仅在训练集上过拟合。

  2. 比较不同模型:通过统一指标对比算法优劣(如决策树 vs 神经网络)。

  3. 指导调参优化:根据评估结果调整超参数(如学习率、树深度)。

3.2 常用评估指标

3.2.1 分类任务

准确率:预测正确数量/总数量。适用于类别比较平衡的场景,比如文字识别。

精确率:预测为正且正确数量/预测为正的总数量。适用于误判为正的代价很高的场景(确保少犯错),通常要与召回率结合。

召回率:正确预测的正例/所有正例。适用于漏判正例代价很高的场景。(宁可错杀,不放一个

F1-Score:2*(精确率 * 召回率)/(精确率 + 召回率)。(既要准,又要全

ROC-AUC:模型区分正负样本的能力,模型分辨力有多强。

3.2.2 回归任务

均方误差:(实际值-预测值)的平方的平均值

均绝对误差:(实际值-预测值)的绝对值的平均值

R²系数:SSE/(SSR+SSE)。SSE:残差平方和,(真实-预测)的平方

3.3 常用评估方法

3.3.1 留出法——划分训练集

  • 步骤:将数据集按比例(如 7:3)划分为训练集和测试集。

  • 优点:简单快速。

  • 缺点:结果受数据划分影响大,小数据集可能偏差高。

  • 适用场景:数据量大时。

3.3.2 K折交叉验证 (K-Fold Cross-Validation)

  • 步骤:将数据分为K个子集,每次用K-1个子集训练,剩余1个验证,循环K次取平均结果。

  • 优点:充分利用数据,评估更稳定。

  • 缺点:计算成本高(需训练K次模型)。

  • 典型值:K=5 或 10。

3.3.3 自助法 (Bootstrapping)

  • 步骤:通过有放回抽样生成多个训练集,统计模型表现。

  • 优点:适合小数据集。

  • 缺点:改变了数据分布,可能引入偏差。

4. 难分类

4.1 正则化与交叉验证

4.1.1 正则化——加限制避免过拟合

核心思想:在模型训练时,故意给模型增加一些限制,防止它“学得太复杂”,从而避免过拟合。

数学本质:在损失函数中增加一个“惩罚项”,限制模型参数的大小。

  • 原损失函数:只关注预测误差(如均方误差)。

  • 正则化后:损失函数 = 预测误差 + λ × 正则化项

    • λ(lambda):控制惩罚力度的系数(λ越大,模型越简单)。

    • 正则化项:通常用模型权重的绝对值(L1)或平方(L2)表示。

4.1.2 交叉验证

见模型评估方法——k交叉验证

4.2 生成式与判别式模型

4.2.1 生成式模型(Generative Model)

像一名“画家”,学习数据是如何生成的,能画出新作品。

核心思想

  • 目标:学习数据的“内在规律”,掌握数据是如何被生成的(比如猫和狗的特征分布)。

  • 能力:不仅能分类,还能生成新数据(比如画出一只新的猫)。

关键点:生成式模型的核心是理解数据背后的规律,而不是单纯分类。

常见算法

  • 朴素贝叶斯(Naive Bayes)

  • 隐马尔可夫模型(HMM)

  • 生成对抗网络(GAN)

  • 变分自编码器(VAE)

优缺点

  • ✅ 优势

    • 能生成新数据(如AI绘画、文本创作)。

    • 可以处理缺失数据(比如知道部分特征也能推断)。

  • ❌ 劣势

    • 计算复杂度高(需要学习完整的数据分布)。

    • 分类性能通常不如判别式模型(因为它分心去学生成数据了)。

应用场景

  • 生成新图片、音乐、文本(如Midjourney、ChatGPT)。

  • 数据补全(修复模糊的老照片)。

  • 异常检测(生成正常数据分布,偏离的视为异常)。

4.2.2 判别式模型(Discriminative Model)

像一名“鉴定师”,只学习如何区分不同类别,专注分类边界。

核心思想

  • 目标:直接学习类别之间的分界线,不关心数据是如何生成的。

  • 能力:专注分类或回归任务,不能生成新数据。

关键点:判别式模型只关心“如何区分”,不关心“数据怎么来的”。

常见算法

  • 逻辑回归(Logistic Regression)

  • 支持向量机(SVM)

  • 决策树(Decision Tree)

  • 深度神经网络(DNN、CNN、Transformer)

优缺点

  • ✅ 优势

    • 分类/回归性能通常更好(专注任务)。

    • 计算效率高(不需要学习完整数据分布)。

  • ❌ 劣势

    • 无法生成新数据。

    • 对数据缺失敏感(比如缺少某些特征可能无法分类)。

应用场景

  • 图像分类(识别猫狗、人脸识别)。

  • 垃圾邮件过滤。

  • 股票价格预测。

4.2.3 二者比较总结

特点

生成式模型

判别式模型

核心目标

学习数据生成规律 P(X,Y)P(X,Y)

学习分类边界 P(Y∥X)P(YX)

能否生成数据

能(如AI绘画)

不能

计算复杂度

典型任务

生成、补全、异常检测

分类、回归、预测

比喻

画家

鉴宝师

SUFE大二在读