1. 基本概念
1.1 统计学习基本
1.1.1 三要素
模型:模型是描述输入与输出之间的一种数学公式或者工具,比如一个数学表达式。(菜谱中的“烹饪方法”(炒、炖、烤))。
策略:评价模型的标准,比如误差最小、精简等(判断菜好不好吃的标准(色、香、味))。
算法:求解模型最优参数的方法(具体操作步骤(先放油还是先放盐))。
1.1.2 基本分类
监督学习:使用已标注过的数据,进行学习预测。
本质:学习输入映射到输出的统计规律。
基本假设:X、Y具有联合概率分布
无监督学习:使用无标注的数据,学习潜在的结构
强化学习:智能体和环境之间进行互动
2. 常见模型
2.1 监督学习
定义:使用带有标签(已知结果)的数据训练模型,模型学习输入到输出的映射关系。
核心任务:
分类(Classification):预测离散类别(如垃圾邮件检测)。
回归(Regression):预测连续数值(如房价预测)。
应用场景:图像分类、信用评分、疾病诊断等。
2.1.1 回归
线性回归:一次函数
逻辑回归:log 函数
2.1.2 感知机——最简单的分类器
一种最简单的线性二分类模型,它的目标是找到一条直线(或超平面),将两类数据分开。它是神经网络的基础,被称为“单层神经网络”。
核心思想
输入:数据特征(比如身高、体重)向量。
输出:二分类结果(比如“健康”或“不健康”)。
工作原理:
对每个特征赋予一个权重(重要性),计算加权和。
通过一个阈值函数(比如符号函数)判断类别。
如果分类错误,调整权重,逐步逼近正确结果。
导入了基于误分类的损失函数,通常利用梯度下降法对其求最优解
简单流程:
初始化权重(比如全设为0)。
对每个样本: a. 计算预测值:score = w1x1 + w2x2 + ... + b(b是偏置项)。 b. 预测类别:若 score > 0,输出1;否则输出-1。 c. 如果预测错误:调整权重,让结果更接近正确答案。
重复步骤2,直到所有样本都被正确分类(或达到最大迭代次数)。
2.1.3 支持向量机(SVM)
主要用于分类任务,也可用于回归。它的核心思想是寻找一个最优的决策边界,从而划分数据
适用场景:小样本、高维数据(如文本分类、图像识别)。
核心目标:最大化间隔。找到一个超平面分开不同的数据
间隔:离超平面最近的样本点到超平面的距离
支持向量:离决策边界最近的样本称为“支持向量”,它们决定了超平面的位置和方向。只有这些点对模型有影响,其他样本点即使被删除,也不会改变结果。
问题解决:
线性不可分:比如螺旋分布,那么使用核函数将数据映射到高维空间。
常用核函数:线性核、多项式核、高斯核(RBF)
核函数输入原始向量,输出转化后的向量的点积,避免了显示计算。
过拟合:使用软间隔,允许少量样本误分类。
优化问题:使用拉格朗日乘数法转化为对偶问题,提高效率
硬间隔 vs 软间隔对比
2.1.3 神经网络
2.1.4 K近邻(KNN)
对于一个新样本,用最近的k个样本来判断它属于哪一类(多数投票)
k值选择:交叉验证法,切割成多个子集评估,尝试多种不同的k来选择最好的。
适合场景:小数据集、低维度、需要快速验证想法的场景。
2.1.5 朴素贝叶斯
计算所有类别的条件概率,选最大的那个。
步骤:计算先验概率→统计条件概率→预测
朴素:假设所有变量互相独立,
适用场景:文本分类、高维数据、需要快速预测的任务。
2.1.6 决策树
通过一系列“如果…就…”的问题(有点像大问题分解成小问题)来决策。
第一问:敲声沉闷吗?
是 → 继续问“纹理清晰吗?”
否 → 直接判断为“坏瓜”。
第二问:纹理清晰吗?
是 → 判断为“好瓜”。
否 → 继续问“根蒂是否蜷缩?”
第三问:根蒂蜷缩吗?
是 → 好瓜。
否 → 坏瓜。
ID3:将特征计算它的信息增益,选取最大的作为决策树的根节点,然后对每个分支递归此过程。
2.2 无监督学习
使用无标签数据,模型自动发现数据中的模式或结构。
2.2.1 隐马尔可夫模型
“通过可见的现象,推测背后隐藏的规律!”
比如通过海藻的湿度(可见现象)推测天气(隐藏状态),尽管你无法直接观察天气
用途:处理序列数据(如语音、文本、基因序列),预测隐藏的状态序列。
2.3 半监督学习
定义:结合少量有标签数据和大量无标签数据训练模型。
适用场景:标注成本高时(如医学图像分析)。
常见方法:自训练(Self-training)、生成式模型(如半监督GAN)。
2.4 强化学习
定义:智能体通过与环境交互,根据奖励信号学习最优策略。
核心要素:状态(State)、动作(Action)、奖励(Reward)、策略(Policy)。
常见算法:Q-learning、深度强化学习(DQN)、策略梯度(PG)。
应用场景:游戏AI(如AlphaGo)、自动驾驶、机器人控制。
3. 模型评估与选择
3.1 模型评估的核心目标
衡量泛化能力:确保模型在未知数据(测试集)上表现良好,而非仅在训练集上过拟合。
比较不同模型:通过统一指标对比算法优劣(如决策树 vs 神经网络)。
指导调参优化:根据评估结果调整超参数(如学习率、树深度)。
3.2 常用评估指标
3.2.1 分类任务
准确率:预测正确数量/总数量。适用于类别比较平衡的场景,比如文字识别。
精确率:预测为正且正确数量/预测为正的总数量。适用于误判为正的代价很高的场景(确保少犯错),通常要与召回率结合。
召回率:正确预测的正例/所有正例。适用于漏判正例代价很高的场景。(宁可错杀,不放一个)
F1-Score:2*(精确率 * 召回率)/(精确率 + 召回率)。(既要准,又要全)
ROC-AUC:模型区分正负样本的能力,模型分辨力有多强。
3.2.2 回归任务
均方误差:(实际值-预测值)的平方的平均值
均绝对误差:(实际值-预测值)的绝对值的平均值
R²系数:SSE/(SSR+SSE)。SSE:残差平方和,(真实-预测)的平方
3.3 常用评估方法
3.3.1 留出法——划分训练集
步骤:将数据集按比例(如 7:3)划分为训练集和测试集。
优点:简单快速。
缺点:结果受数据划分影响大,小数据集可能偏差高。
适用场景:数据量大时。
3.3.2 K折交叉验证 (K-Fold Cross-Validation)
步骤:将数据分为K个子集,每次用K-1个子集训练,剩余1个验证,循环K次取平均结果。
优点:充分利用数据,评估更稳定。
缺点:计算成本高(需训练K次模型)。
典型值:K=5 或 10。
3.3.3 自助法 (Bootstrapping)
步骤:通过有放回抽样生成多个训练集,统计模型表现。
优点:适合小数据集。
缺点:改变了数据分布,可能引入偏差。
4. 难分类
4.1 正则化与交叉验证
4.1.1 正则化——加限制避免过拟合
核心思想:在模型训练时,故意给模型增加一些限制,防止它“学得太复杂”,从而避免过拟合。
数学本质:在损失函数中增加一个“惩罚项”,限制模型参数的大小。
原损失函数:只关注预测误差(如均方误差)。
正则化后:损失函数 = 预测误差 + λ × 正则化项
λ(lambda):控制惩罚力度的系数(λ越大,模型越简单)。
正则化项:通常用模型权重的绝对值(L1)或平方(L2)表示。
4.1.2 交叉验证
见模型评估方法——k交叉验证
4.2 生成式与判别式模型
4.2.1 生成式模型(Generative Model)
像一名“画家”,学习数据是如何生成的,能画出新作品。
核心思想
目标:学习数据的“内在规律”,掌握数据是如何被生成的(比如猫和狗的特征分布)。
能力:不仅能分类,还能生成新数据(比如画出一只新的猫)。
关键点:生成式模型的核心是理解数据背后的规律,而不是单纯分类。
常见算法
朴素贝叶斯(Naive Bayes)
隐马尔可夫模型(HMM)
生成对抗网络(GAN)
变分自编码器(VAE)
优缺点
✅ 优势:
能生成新数据(如AI绘画、文本创作)。
可以处理缺失数据(比如知道部分特征也能推断)。
❌ 劣势:
计算复杂度高(需要学习完整的数据分布)。
分类性能通常不如判别式模型(因为它分心去学生成数据了)。
应用场景
生成新图片、音乐、文本(如Midjourney、ChatGPT)。
数据补全(修复模糊的老照片)。
异常检测(生成正常数据分布,偏离的视为异常)。
4.2.2 判别式模型(Discriminative Model)
像一名“鉴定师”,只学习如何区分不同类别,专注分类边界。
核心思想
目标:直接学习类别之间的分界线,不关心数据是如何生成的。
能力:专注分类或回归任务,不能生成新数据。
关键点:判别式模型只关心“如何区分”,不关心“数据怎么来的”。
常见算法
逻辑回归(Logistic Regression)
支持向量机(SVM)
决策树(Decision Tree)
深度神经网络(DNN、CNN、Transformer)
优缺点
✅ 优势:
分类/回归性能通常更好(专注任务)。
计算效率高(不需要学习完整数据分布)。
❌ 劣势:
无法生成新数据。
对数据缺失敏感(比如缺少某些特征可能无法分类)。
应用场景
图像分类(识别猫狗、人脸识别)。
垃圾邮件过滤。
股票价格预测。