统 计 学 习
真正的统计学习笔记待更新,包括李航统计学习方法和All of Statics两本,
题型
选择 3分×9
简答题 5分×5
综合分析 7分×7
绪论,回归
按学习方式分类的机器学习算法 四类
模型评估指标:泛化误差、经验误差
欠拟合和过拟合(避免过拟合的方法 正则化-L2、dropout等)
分类和聚类和回归的区别
1
2回归和分类本质相同,都是根据训练集(有标签,有监督学习)做预测,区别是输出不同,分类是定性输出,回归是定量输出
聚类是无监督学习,产生多个集合,单个集合中的元素属性相似多元线性回归求解权重w的方法:最小二乘、梯度下降、误差函数
非线性回归如何进行计算:通过中间函数映射
岭回归的特点(简答?
LDA 应该有大题
LDA结构,LDA生成文档D的步骤(简答
使用LDA的目的:得到文章库中每篇文章的主题分布;
得到新输入文章的主题分布。决策树 随机森林 支持向量机
决策树是一种有监督的分类方法,它用已有的数据构造出一棵树,再用这棵树对新的数据进行预测。
学习过程:通过对训练样本的分析来确定“划分属性”(即内部结点所对应的属性)
预测过程:将测试示例从根结点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶结点。
决策树(简答)
1 | 1构造过程:特征选择;决策树生成;剪枝(预剪枝和后剪枝的方法)是自根到叶的递归过程 |
对节点划分的方法 信息增益 增益率 基尼指数
1 | 信息增益=△信息熵,信息熵越小纯度越大 |
- 随机森林(简答)
1 | 原始训练集为D,应用Bootstrap法有放回地随机抽取k个新的自助样本集,并由此构建k 棵决策树 |
- 支持向量机
1 | 概念:基本模型定义为特征空间上的间隔最大的线性分类器(按监督学习方式对数据进行二分类的广义线性分类器) |
- 间隔,最大间隔
- 超平面的距离计算(可能考计算 r = |w.T·x+b|/|w|
- 核方法 设计核函数(综合题)根据mercer定理:若一个对称函数所对应的核矩阵半正定,那么它可以设为核函数
神经网络 kmeans
- 结构
1 | 输入层:接受来自网络外部的数据的顶点 |
- 超参数有哪些
- 如何衡量你的预测算法,损失函数loss
- 感知机是啥
- BP是啥 RBF是啥 hopfield是啥 SOM是啥
- 计算隐藏层结点数目
1 | 隐层结点数s与模式数N的关系是:s=log2N; |
- CNN
- LSTM
- 聚类
1 | 优点 |
- 聚类性能度量 外部指标 内部指标
1 | 外:聚类结果与某个“参考模型”(reference model) 进行比较,需要标记数据如Jaccard 系数,FM 指数,Rand 指数 |