统 计 学 习
真正的统计学习笔记待更新,包括李航统计学习方法和All of Statics两本,

题型

选择 3分×9
简答题 5分×5
综合分析 7分×7

绪论,回归

  • 按学习方式分类的机器学习算法 四类

  • 模型评估指标:泛化误差、经验误差

  • 欠拟合和过拟合(避免过拟合的方法 正则化-L2、dropout等)

  • 分类和聚类和回归的区别

    1
    2
    回归和分类本质相同,都是根据训练集(有标签,有监督学习)做预测,区别是输出不同,分类是定性输出,回归是定量输出
    聚类是无监督学习,产生多个集合,单个集合中的元素属性相似
  • 多元线性回归求解权重w的方法:最小二乘、梯度下降、误差函数

  • 非线性回归如何进行计算:通过中间函数映射

  • 岭回归的特点(简答?

    LDA 应该有大题

  • LDA结构,LDA生成文档D的步骤(简答

  • 使用LDA的目的:得到文章库中每篇文章的主题分布;
    得到新输入文章的主题分布。

    决策树 随机森林 支持向量机

  • 决策树是一种有监督的分类方法,它用已有的数据构造出一棵树,再用这棵树对新的数据进行预测。

  • 学习过程:通过对训练样本的分析来确定“划分属性”(即内部结点所对应的属性)

  • 预测过程:将测试示例从根结点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶结点。

  • 决策树(简答)

1
2
3
4
5
6
7
8
9
1构造过程:特征选择;决策树生成;剪枝(预剪枝和后剪枝的方法)是自根到叶的递归过程
2生成停止条件
当前结点包含的样本全属于同一类别,无需划分;
当前属性集为空, 或是所有样本在所有属性上取值相同,无法划分;
当前结点包含的样本集合为空,不能划分.
3预剪枝:在构造树的过程中,对每个结点在划分前进行估计,如果当前结点的划分不能带来决策树模型泛化性能的提升,则不对当前结点进行划分并且将当前结点标记为叶结点。
后剪枝:先把整颗决策树构造完毕,自底向上对非叶结点进行考察,若将该结点对应的子树换为叶结点能够带来泛化性能的提升,则把该子树替换为叶结点。

(预剪后剪的对比)

对节点划分的方法 信息增益 增益率 基尼指数

1
2
信息增益=△信息熵,信息熵越小纯度越大
根据基尼指数:选取划分后使基尼指数最小的属性
  • 随机森林(简答)
1
2
3
4
5
6
7
8
原始训练集为D,应用Bootstrap法有放回地随机抽取k个新的自助样本集,并由此构建k 棵决策树
每棵树最大限度地生长,不做任何修剪
将生成的多棵决策树组成随机森林,用随机森林分类器对新的数据进行判别与分类,森林中的每一棵树都对新的数据进行预测和投票,最终得票最多的分类项即为随机森林对该数据的预测结果。

优点:随机森林对于高维数据集的处理能力比较好,它可以处理成千上万的输入变量,并确定最重要的变量,因此被认为是一个不错的降维方法。此外,该模型能够输出变量的重要性程度,这是一个非常便利的功能。
在对缺失数据进行估计时,随机森林是一个十分有效的方法。就算存在大量的数据缺失,随机森林也能较好地保持精确性。
当存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法。
缺点:随机森林给人的感觉像是一个黑盒子———你几乎无法控制模型内部的运行,只能在不同的参数和随机种子之间进行尝试,从而得到一个更优的分类器。
  • 支持向量机
1
2
概念:基本模型定义为特征空间上的间隔最大的线性分类器(按监督学习方式对数据进行二分类的广义线性分类器)
决策边界是对学习样本求解的最大边距超平面
  • 间隔,最大间隔
  • 超平面的距离计算(可能考计算 r = |w.T·x+b|/|w|
  • 核方法 设计核函数(综合题)根据mercer定理:若一个对称函数所对应的核矩阵半正定,那么它可以设为核函数

    神经网络 kmeans

  • 结构
1
2
3
输入层:接受来自网络外部的数据的顶点
隐藏层:除了输入层和输出层以外的其他层
输出层:向网络外部输出数据的顶点
  • 超参数有哪些
  • 如何衡量你的预测算法,损失函数loss
  • 感知机是啥
  • BP是啥 RBF是啥 hopfield是啥 SOM是啥
  • 计算隐藏层结点数目
1
2
隐层结点数s与模式数N的关系是:s=log2N;
隐层结点数s=2n+1(n为输入层结点数);
  • CNN
  • LSTM
  • 聚类
1
2
3
4
5
6
7
8
9
10
11
优点
1.原理简单,实现方便,收敛速度快;
2.聚类效果较优;
3.模型的可解释性较强;
4.调参只需要簇数k;
缺点:
1.k的选取不好把握;
2.初始聚类中心的选择;
3.如果数据的类型不平衡,比如数据量严重失衡或者类别的方差不同,则聚类效果不佳;
4.采用的是迭代的方法,只能得到局部最优解;
5.对于噪声和异常点比较敏感。
  • 聚类性能度量 外部指标 内部指标
1
2
外:聚类结果与某个“参考模型”(reference model) 进行比较,需要标记数据如Jaccard 系数,FM 指数,Rand 指数
内:直接考察聚类结果而不用任何参考模型,类内聚集程度和类间离散程度。定义簇内样本间的距离,簇间距离,如DB 指数,Dunn 指数等