avatar

机器学习/机器学习基础

课程:莫烦python

机器学习方法

监督学习:有数据有标签
无监督学习:只有数据没有标签
半监督学习(类似聚类)

强化学习
遗传算法

神经网络

科普

人的神经网络:修正神经元之间的连接直至达到运动目的
计算机的神经网络

计算机神经网络

模型

自适应

利用统计建立输入和输出的关系

输出层:认知结果

image-20210219110212221

错误判断->反向传递修改结点敏感度

刺激函数

卷积神经网络(CNN)

image-20210219110533249

image-20210219110549071

一个像素点->一小块像素点
图片信息的连续性

池化

循环神经网络(RNN)

数据的顺序

记住发生的事情

每分析完一组数据会产生相应的状态参加下一组数据的处理

image-20210219111250132

LSTM RNN 循环神经网络

long short term memory

普通RNN:

image-20210219111619425

梯度消失和梯度爆炸 $w^n$

无法回忆起救援记忆

LSMT

image-20210219111745087

主线的更新取决于输入和忘记控制

输出:基于主线和分线

自编码 Autoencoder

一种神经网络形式

image-20210219112228638

提取具有代表性的信息,减小同时处理的神经元数量

生成对抗网络 GAN

利用没有意义的随机数生成输出

机器(discriminator)对输出进行判断和学习,并向随机数处理过程(gennerator)进行反馈

神经网络的黑盒

黑盒:人不能直接理解的中间结果

将一种代表特征转化成另一种

image-20210219113150711 image-20210219113230537

梯度下降 gradient descent in neural nets

optimization

cost function

image-20210219113812512

很多时候都只能找到局部最优

迁移学习 Transfer learning

借鉴其它已经训练好的模型

适用于大型的模型

神经网络技巧

检验神经网络

学习效率不高或效果不好

训练数据0.7&测试数据0.3

误差

image-20210219114552798

精确度

image-20210219114601709

过拟合

image-20210219114634350

交叉验证

找到满足误差要求且节约资源的层

image-20210219114716454

特征标准化

使数据跨度尽量统一,加快学习速率、提升学习效果

image-20210219115031301

区分好用的特征

更容易得到结果

eg.可以区分种类的特征

避免重复性信息、无意义信息、复杂信息

激励函数

线性方程“掰弯”

image-20210219120411752

可能会导致梯度爆炸和梯度消失

image-20210219120457588

过拟合

在小范围数据内表现良好,但是大范围数据不好

解决方法:增加数据量、正规化

L1L2:

image-20210219132456372

dropout:随机丢弃神经元

加速神经网络训练

SGD:将数据分成多批

momentumimage-20210219132826963

adagradimage-20210219132718520

image-20210219132749071

image-20210219132756721

处理不均衡数据

  1. 获取更多的数据
  2. 使用其它评判方式
  3. 重组数据,调配比例
  4. 使用其它机器学习算法
  5. 修改算法image-20210219174811515

批标准化

(还是没太懂,回来再看看)

例tan,对绝对值较大的数据差距不敏感

数据分成批,对每一层进行标准化

image-20210219175401859 image-20210219175435834

image-20210219175642072

image-20210219175912962

L1/L2正规化

防止过拟合

image-20210221105451773 image-20210221105352158

自然语言处理

什么是自然语言处理

将句子转化成数字,进行后续处理

搜索引擎是怎么工作的

文字:提取关键词赋予权重构成索引

image-20210221190028680

倒排索引->批量召回:先构建文章和索引的对应关系,搜索时返回索引对应的文章

匹配排序:TF-IDF(粗排)相似度评分

TF:词频
IDF:词的区分度
两者相乘

image-20210221190522268

搜索向量和文章向量进行比对,返回距离最近的向量

机器理解语言的方式 词向量技术

相近的内容-》向量距离小

相似度-》向量夹角的cos

越有区分力的词越远离中间地区

语言模型的注意力

注意到一个或多个词汇

image-20210221191905361

句向量通过全局信息生成对话

Author: Michelle19l
Link: https://gitee.com/michelle19l/michelle19l/2021/02/21/机器学习/机器学习基础/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
Donate
  • 微信
    微信
  • 支付寶
    支付寶