课程:莫烦python
机器学习方法
监督学习:有数据有标签
无监督学习:只有数据没有标签
半监督学习(类似聚类)
强化学习
遗传算法
神经网络
科普
人的神经网络:修正神经元之间的连接直至达到运动目的
计算机的神经网络
计算机神经网络
模型
自适应
利用统计建立输入和输出的关系
输出层:认知结果
错误判断->反向传递修改结点敏感度
刺激函数
卷积神经网络(CNN)
一个像素点->一小块像素点
图片信息的连续性
池化
循环神经网络(RNN)
数据的顺序
记住发生的事情
每分析完一组数据会产生相应的状态参加下一组数据的处理
LSTM RNN 循环神经网络
long short term memory
普通RNN:
梯度消失和梯度爆炸 $w^n$
无法回忆起救援记忆
LSMT
主线的更新取决于输入和忘记控制
输出:基于主线和分线
自编码 Autoencoder
一种神经网络形式
提取具有代表性的信息,减小同时处理的神经元数量
生成对抗网络 GAN
利用没有意义的随机数生成输出
机器(discriminator)对输出进行判断和学习,并向随机数处理过程(gennerator)进行反馈
神经网络的黑盒
黑盒:人不能直接理解的中间结果
将一种代表特征转化成另一种
梯度下降 gradient descent in neural nets
optimization
cost function
很多时候都只能找到局部最优
迁移学习 Transfer learning
借鉴其它已经训练好的模型
适用于大型的模型
神经网络技巧
检验神经网络
学习效率不高或效果不好
训练数据0.7&测试数据0.3
误差
精确度
过拟合
交叉验证
找到满足误差要求且节约资源的层
特征标准化
使数据跨度尽量统一,加快学习速率、提升学习效果
区分好用的特征
更容易得到结果
eg.可以区分种类的特征
避免重复性信息、无意义信息、复杂信息
激励函数
线性方程“掰弯”
可能会导致梯度爆炸和梯度消失
过拟合
在小范围数据内表现良好,但是大范围数据不好
解决方法:增加数据量、正规化
L1L2:
dropout:随机丢弃神经元
加速神经网络训练
SGD:将数据分成多批
momentum
adagrad
处理不均衡数据
- 获取更多的数据
- 使用其它评判方式
- 重组数据,调配比例
- 使用其它机器学习算法
- 修改算法
批标准化
(还是没太懂,回来再看看)
例tan,对绝对值较大的数据差距不敏感
数据分成批,对每一层进行标准化
L1/L2正规化
防止过拟合
自然语言处理
什么是自然语言处理
将句子转化成数字,进行后续处理
搜索引擎是怎么工作的
文字:提取关键词赋予权重构成索引
倒排索引->批量召回:先构建文章和索引的对应关系,搜索时返回索引对应的文章
匹配排序:TF-IDF(粗排)相似度评分
TF:词频
IDF:词的区分度
两者相乘
搜索向量和文章向量进行比对,返回距离最近的向量
机器理解语言的方式 词向量技术
相近的内容-》向量距离小
相似度-》向量夹角的cos
越有区分力的词越远离中间地区
语言模型的注意力
注意到一个或多个词汇
句向量通过全局信息生成对话