0%

Machine Learning Base

为何需要数据科学?

举例:假设你是医生,判断病人症状不一定都很准确,尤其对于缺乏经验的医生来说,会发生误诊。人类的判断力有一定局限性,有限、主观的经验和不完备的知识都会影响判断力,从而导致无法获得更准确的结论。

数据科学依赖数据集,我们通过计算机和算法可以做到:

·从大型数据集中发现隐藏的趋势

·充分利用发现的趋势预测

·计算结果出现的概率并获得准确的结果

(本篇纯入门级别)

准备数据

数据格式

数据以表的形式表示

:数据点,代表观测结果

:变量,也叫属性、特征、维度

变量类型

①二值变量:01

②分类变量:男女

③整型变量:车辆数

④连续变量:小数表示,比如“支出”

变量选择

是一个试错的过程,需要根据反馈不断更换变量。

一个思路是用简单的图来研究变量间的相关性。

特征工程

有时需要做一些处理才能获得最佳变量。

除了对单个变量进行重新编码外,还可以合并多个变量,这叫降维

缺失数据

①近似:

二值变量或分类变量可以用众数替代

整型变量或连续变量可以用中位数替代

②计算

③移除:除非万不得已,否则不这样做

选择算法

无监督学习

目标:找到数据中隐藏的模式

我们不知道要找的模式是什么,要依靠算法从数据集中发现模式

监督学习

目标:使用数据中的模式做预测

监督学习算法的预测都基于已有的模式

强化学习

自身可以通过反馈结果不断改进

是不是很像模电里面的反馈电路

参数调优

评价模型

准确率

表述举例:对于XXX问题,我们的模型在90%的时间里都是对的

混淆矩阵

回归指标

由于回归预测使用连续值,因此误差一般被量化成预测值和实际值之差,惩罚随误差大小而不同。

典型:均方根误差

缺点:对异常值极其敏感

验证

评估模型对新数据的预测准确度,

如果原始数据集很小,可以考虑交叉验证:把数据集分块,对模型反复测试,取结果平均值

如果交叉验证结果表明模型的预测准确度较低,可以重新调整模型的参数或者重新处理数据。

-------------本文结束感谢您的阅读-------------
请作者喝一杯蜜雪冰城吧!