本文为稀土技能社区首发签约文章，30天内制止转载，30天后未获授权制止转载，侵权必究！

人工智能的概念太大了，今天给咱们唠会儿机器学习（其实它也很大）。

有朋友就问了：啥玩意机器学习、深度学习的，你自己能差异吗？

一、机器学习与深度学习之辨

我举个便于了解的比方，假如把人工智能比作考古，那么机器学习能够算作器物判定，深度学习则是用仪器去判定。

机器学习是人工智能技能里的一个分类。类比到考古学，除了研讨器物外，还有遗址、文明等。

提起器物判定，比方点评一个花瓶，咱们首要想到古董专家去看它的颜色、形状、纹理。然后用食指戳一下眼镜框，说这件藏品是清朝仿的宋代。机器学习也是这样，关于一项研讨，首要需求手动提取数据的特征。

比方猜测糖尿患者身体状况和血糖的联络。需求先找专家给出意见，比方身高、体重或许是要素。至于老婆和你是不是一个姓，这没联络。

哎，需求先把要害特征提取出来，然后再让机器去学习。

时代在开展，科技在进步。到后来，器物时代的判定方便了。找一个仪器，嘀~，一测物体碳元素的半衰期，很简略就能获取时代。这个便是深度学习，它自己会从原始数据中找需求的信息。

仍是糖尿病猜测那个比方，你把患者每天的生活录像交给深度学习，它自己会从里边去找。

那你说，用高科技仪器去检测物体，是不是也归于器物判定的规模。因而，深度学习归于机器学习。

既然它们是从属联络了，干嘛咱们还要差异着说？诶，这就像问你是集团职工仍是子公司职工的差异。

老机器学习算法，需求人工界说特征，易于了解、可解释，硬件耗费低，小规模数据量作用好。例如车牌辨认、人脸辨认。
新深度学习算法，可自主学习特征，模型杂乱，耗费高，难以解释，大规模的高级使命作用好。例如ChatGPT聊天机器人。

他们各有好坏，都有生存空间，就像是电钻和钉子的不同，主要看你想花多少钱干什么事。

二、机器学习算法与一般逻辑算法之辨

又有一个朋友问：我多写几个if和else，我的程序能叫“机器学习”吗？两者的差异又是什么？

这位朋友是一名具有15年经验的Java开发。他提出了这个问题。在他看来，ChatGPT不过便是一个能处理数据的接口，接收参数，然后给出返回值。在具有许多对话样本的状况下，他也能用Java语言经过随机组装的办法来完成。

我说信任他，必定了他。可是我现在遇到一个难题，请他用逻辑代码完成一下。

我想请他用逻辑代码完成一个语音转文字。我说“旺财？”，程序能辨认出来是“旺财”两个字，并且还得带着疑问的口气。

他摇了摇头，若有所思。我问是不是疑问口气欠好完成。他回答说，不是，旺财也很难。

他说，这不像是电商购物，你买了产品，我就往库里插入一条数据。你退货了，我就改动一下订单状态。而语音辨认这个，参数是一组声波值。每个人的数据不同，乃至同一个人用不同口气，数据也不相同，参数完全不确定，无法写代码。

我说，尽管咱们不知道怎样写逻辑，可是我说“旺财”，你是能听懂的。不止你，咱们都能听出来。这说明，这段语音必定是有规则的。这个规则现已被大脑找到了。因而，得用一个相似于大脑的程序才干完成它。这个程序的参数不是写死的，需求随着运行而改动并优化，直到找到这个规则，这便是机器学习算法。

再举一个比方。假如要差异下图所示的两种样本，你采用逻辑代码的办法，能够完成。

可是，假如样本变成如下这样。本来代码的判别条件就失效了。

而机器学习算法，它并不关心if和else，它会习惯新数据，代码不必变，参数会自己变。

说的有点玄乎了！我能学会吗？

三、机器学习入门利器 sklearn

sklearn全称为scikit-learn。它是一个机器学习库，里边供给了许多用于数据预处理、特征工程、模型选择和评价等使命的函数和类，也包含了各种常见的算法。

随机说一下这儿边的聚类算法。

聚类算法能够自动将一组数据划分为不同的组。

比方老板给你一组数据，是广场上所有的人，让你分组。你能够分为男人和女性，能够分为老人和孩子，能够有许多种维度来分。

聚类算法是预置的，不必练习就能够用。

有人又问了：你不是说，机器学习得练习吗？怎样现在又不必了？

是呀，机器学习的类别很广。聚类是机器学习里的一种无监督学习办法，它不需求事先标记好练习样本。它能看到数据后，临时去剖析。

比方下面这个图，将一堆数据进行剖析，它按照是不是在一个圈里进行了聚类。

你能够考虑一下，一般逻辑代码该如何完成。

上面那种聚类叫光谱聚类。除此之外还有密度聚类（依据密度）、K-means聚类（依据间隔）、层次聚类（依据树形）……看你的需求。

好了，机器学习的六合很广阔，单靠我这一篇文章也说不全。下面咱们就来一个项目事例，加深印象。

假如你跟着敲一遍，能够对外说自己搞过机器学习项目。

四、实战：投票回归器完成疾病进展猜测

看名字很吓人，其实碰不到烧脑的内容，满是调框架里的类。我主要是想给咱们展示一下，机器学习的完成流程。

从新闻中咱们经常会听到，科学家用AI猜测癌症。怎样猜测呢？便是先找一批人，获取他们的要害信息，比方是不是抽烟，每天喝多少酒，几天生一次气……这些作为输入。然后，他是否患有癌症作为输出。之后，让机器学习其中的联络。

医生或许知道喝酒有患癌的几率，可是他不知道每项具体影响多少，他也无法依据一个人的状况，猜测出来是否患有疾病。可是，机器学习经过许多样本数据的计算，能够找到里边的规则。

这便是机器学习做猜测的场景。注意，前面那个要害信息的提取，很重要。

4.1 调研与处理数据集

谷歌研讨院从前给地图部门，供给过一项关于目的地好欠好泊车的猜测服务。

猜测一个当地好欠好泊车，要素太多了。咱们采用常识能够判别，商场在节假日欠好泊车，体育场在有重大赛事时欠好泊车，学校在有考试时欠好泊车。

但实际上，也跟气候、位置、是否收费、泊车位的数量等诸多要素有关。

一开端，他们在某地搜集实时的目标和洽欠好泊车的成果。后来他们发现“好欠好泊车”这是个片面问题，所以改为搜集“找到泊车位花了几分钟？”。这是个客观问题。就这样，他们经过雇人的办法（谷歌竟然走外包），在25个典型城市，搜集了10万组地面实况数据。

经过机器学习的练习和验证，他们发现，模型的猜测仍然不精确。就算他们结合了实时地图的流量，也会有许多误判的状况。所以调查发现，许多用户吃午饭的时分，会沿着饭馆绕圈，尽管路途很畅通，但的确欠好泊车。

因而，他们便将这一项数据加入到特征中。下面是它猜测某地不同时段的泊车难度。

这个功能，现在仍然在完善和更新。

从这儿，咱们能够看出，机器学习对练习数据有较高的要求。垃圾数据或许会练习出垃圾模型。

我这儿有一组优质数据集，很专业，咱们能够直接用。它对442名糖尿病患者做了一个搜集，内容是他们的10项身体目标，以及1年以后的血糖指数。

序号	称号	数值示例
1	AGE 年龄	59
2	SEX 性别	2
3	BMI 体重指数	32.1
4	BP 均匀血压	101
5	S1 血清总胆固醇	157
6	S2 低密度脂蛋白	93.2
7	S3 高密度脂蛋白	38
8	S4 总胆固醇/HDL	4
9	S5 血清甘油三酯	4.8598
10	S6 血糖水平	87
输出	Y 一年后血糖	151

下面是悉数数据的样例，很壮观：

OK，下面咱们经过机器学习去练习这批数据。练习完成之后，再用这个模型，去猜测一名新患者一年后血糖的状况。假如数据真的像“旺财”的发音相同有规则，那么这个新患者的猜测值也会是真的。

接下来，开端动代码了。

你需求保证你有一个Python环境，最好是3.6及其以上版本。

然后，安装sklearn。

pip install -U scikit-learn

4.2 预处理数据

尽管有了上面的数据集，可是关于机器学习来说，仍是无法用。

为啥？你不是说这个数据集很专业吗？！

深度学习能够直接用，可是机器学习你得做预处理。

首要，这一行11个数，总共442行，你得分隔输入和输出吧。前10个是目标，是原因x。终究1个是输出，是成果y。

数据集的地址是 www4.stat.ncsu.edu/~boos/var.s…

下载之后，复制到你写程序的同级目录，命名为diabetes.txt。

咱们先读入数据做拆分。

4.2.1 拆分输入输出

import numpy as np
datasets = np.loadtxt("diabetes.txt")
X = datasets[:, :10]  # 取前10个数据作为输入
y = datasets[:, -1]  # 取终究1个数据作为输出

numpy能够直接加载txt格式的文件。咱们打印一下datasets.shape，它会输出(442, 11)。也便是说，有422行数据，每行11列数值。

随后，将数组中前10个赋值给X, 倒数第1个赋值给y。这样就完成了输入和输出的切分。

X的数值如下，422行，每行10个数：

array([[59.    ,  2.    , 32.1   , ...,  4.    ,  4.8598, 87.    ],
       ...,
       [36.    ,  1.    , 19.6   , ...,  3.    ,  4.5951, 92.    ]])

y的数值如下，只有1行，共422个数：

array([151.,  75., 141., 206., 135.,  97., 138.,  63., 110., 310., 101.,
        ...
        66., 173.,  72.,  49.,  64.,  48., 178., 104., 132.,220.,  57.])

那么，现在能够开端机器学习了吧？

仍是不可！

4.2.1 规范化与归一化

兄台，请先放下你手里的刀，咱们有话慢慢说！

不可的原因，不在于那1项输出，而是这10项输入。

先看下面的表格。

输入目标	张三	李四	数据集上下限
AGE 年龄	59	19	19~79
BMI 体重指数	32.1	19.2	18~42
BP 均匀血压	101	87	62~133
S1 血清总胆固醇	157	124	97~301
S5 血清甘油三酯	4.8598	4.1744	3.2581~6.107

悟性很高的你，估计现已理解了。有些数据，比方血压，添加2个单位，无关痛痒。可是，像表格里的终究一项，添加2个单位，或许便是天上、地下的差异。

机器学习会调查数据间的差异与联络。同一项目标的数值还具有可比性。可是不同目标之间的数值却无法比照，因为他们不在同一个维度上。这就像穷人和有钱人关于500块钱的差异。对穷人来说，这或许是半个月生活费。对有钱人来说，买不了一双鞋垫。

假如这样的数据交给机器学习算法的话，那么关于数字灵敏的它们，会优待大额数值，那些0.3和0.6的差异，在3和300的体系下，基本就被疏忽掉了。但实际上，它们或许都很要害，乃至更要害。

因而，需求找一种方案，将它们变为同一同跑线，还不能改动它们的差异与散布。这是为了使不同特征之间的数据具有可比性，这项操作在算法中，叫做数据预处理。

常用的处理有归一化，便是捏着它们的最大值与最小值，将它们等比压缩到是[0, 1]或许[-1, 1]的区间规模内。[3, 300]假如被压缩成[0.01, 1]，那么他们仍然是百倍的联络，并且也能与0.3、0.6一同比较了。

还有一种处理办法叫规范化，它主要从规范方差的角度，在保留了数据的散布形状下去处理数据。提到方差一词，我就不讲了，因为你不爱听。

关于上面的数据，咱们该如何处理呢？我是这么做的：

X_mean = np.mean(X, axis=0) # 求每列的均匀值
X_centered = X - X_mean # 求均值差
# 对数据依照方差进行缩放
std = np.std(X_centered, axis=0) # 求规范差
scaled_X = X_centered * std # 每个数乘以规范差
scale = np.sqrt(np.sum(scaled_X**2, axis=0))
scaled_X = scaled_X/scale # 缩放

首要经过np.mean(X, axis=0)针对每一列别离获得均匀数。也便是这批数据中的均匀年龄、均匀体重指数等。

然后，让每个人的目标都减去这个均匀数。这就将原始数据的大正数，转化为绕着均匀值上下起浮的正负数。

就像下面这样：

上面只演示了一组数据，其他9组数据都是这样处理。这样做不但能够将数据变小，并且还能保留他们之间的差异。

后面的代码是对整体数据做平衡，经过方差进行缩放。终究咱们看到，尽管身高体重、年龄的数值都不相同，可是打印一下scaled_X发现，整体上“贫富”距离不是很大了。

array([[ 0.03807591,  0.05068012,  0.06169621, ..., -0.00259226,
         0.01990749, -0.01764613],
       ...,
       [-0.04547248, -0.04464164, -0.0730303 , ..., -0.03949338,
        -0.00422151,  0.00306441]])

到这一步，基本上预处理算是完毕了。下面就该选模型去练习了。

4.3 练习与猜测

咱们现在手头上有两组数据，一个是预处理过的scaled_X，另一个是成果y。

下面咱们开端练习：

from sklearn.ensemble import RandomForestRegressor
reg_rf = RandomForestRegressor(random_state=1)
reg_rf.fit(scaled_X, y)

上面便是悉数的练习代码。没错，便是3行！

我经常说，假如你不是立志做一个科学家，仅仅想做应用解决问题。其实人工智能真的没有多难，都是调用框架。

RandomForestRegressor是sklearn的一个类，叫随机森林回归器。

回归器是一种机器学习模型，它能找到输入变量和输出变量之间的联络，并依据这个联络对新的输入进行猜测。

随机森林是一种解决回归问题的算法。它会构建多棵决议计划树，然后引入了随机性，包含对练习样本的随机采样和对特征的随机选择。这样能够下降过拟合的风险，也能保持较高的猜测精确性。

关于随机森林算法，假如仍是不够形象，我画一张图你就理解了。

其实生活中，咱们经常用随机森林。上面图现已很形象了，关于一件事的判别，它会有好多棵决议计划树。经过哪棵树都能做出终究判别。就像相亲，能够看家庭，能够看人品，能够看长相。咱们只了解对方的部分信息就能有定论，当然悉数知道更好。这便是决议计划森林算法，它会故意地丢掉部分信息，这样能够防止过拟合（首富喜欢吃火龙果，因而吃火龙果的便是首富）。

上面代码中reg_rf.fit(scaled_X, y)是用随机森林回归器对X和y做了练习。

接下来，进行猜测。

假定咱们有这么一组数据，这是一名新患者的目标。

AGE, SEX, BMI, BP, S1, S2, S3, S4, S5, S6
49, 1, 31.1, 110, 154, 95.2, 33, 4, 4.6692, 97

咱们如何进行猜测呢？代码如下：

x_new = [[49, 1, 31.1, 110, 154, 95.2, 33, 4, 4.6692, 97]]
scaled_x_new = (x_new - X_mean) * std/scale
pred_rf = reg_rf.predict(scaled_x_new)

首要，仍然需求将原始数据做预处理。也便是减去均匀值，依据方差做缩放。

然后，调用回归器的predict办法，即可得到猜测成果。这儿的成果是array([213.26])。看来，这个位患者一年后的血糖状况不是很达观，建议及早干预。

它猜测的靠不靠谱？我是说随机森林算法靠不靠谱，如果它把重要的特征疏忽掉了怎样办？

4.4 投票回归猜测

投票回归，能够交融多个算法，综合多个猜测成果进行判别，相似投票的方式，因而叫投票回归。

它的用法如下：

# 随机森林回归、梯度提高回归、线性回归……
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.linear_model import LinearRegression
# 投票回归器
from sklearn.ensemble import VotingRegressor
# 各个回归器别离练习
reg1 = GradientBoostingRegressor(random_state=1)
reg1.fit(scaled_X, y)
reg2 = RandomForestRegressor(random_state=1)
reg2.fit(scaled_X, y)
reg3 = LinearRegression()
reg3.fit(scaled_X, y)
# 投票回归器练习
reg = VotingRegressor([('gb', reg1), ('rf', reg2), ('lr', reg3)])
reg.fit(scaled_X, y)
# 投票回归器猜测
pred = reg.predict(scaled_x_new)

流程信任咱们都看懂了。

解决回归问题有许多种算法，除了随机森林，还有梯度提高回归、线性回归、多项式回归……反正不要钱，多结合几种，或许会更保险一些。

咱们比照一下各个算法回归器与终究投票器的作用。

我取了15组数据别离进行猜测并画了一个图。五角星是投票器的猜测成果，其他形状是各家算法的猜测成果。

咱们看到，就算是各个回归算法，他们的猜测成果尽管略有不同，可是大体也是接近的。而投票器，则更倾向于“少数服从多数”。

以上示例，包含数据集，GitHub地址：github.com/hlwgy/juejj…

五、总结

传统机器学习算法，是一种轻量级的AI解决方案，适用于处理样本特征相对固定的简略使命。这很像老专家抱着大花瓶进行判定。你得真在行，否则很难去提取其中的特征。因而，建议做这类使命，带一个职业专家。

别的，关于研讨的事物，需求有规则。有人问，用机器学习去猜测双色球行吗？

双色球不是一种因果回归，它归于随机抽取，每一次都相当于从0开端，没有任何规则可言。因而，无法经过机器学习去精确地猜测。

你便是做再多的练习，其实作用也便是下面这几句（1到33选6个红球，1到16选1个蓝球）:

import random
red_balls = random.sample(range(1, 34), 6)
blue_ball = random.randint(1, 17)
red_balls, blue_ball = sorted(red_balls), blue_ball
print(red_balls,  blue_ball)
# [4, 6, 16, 18, 19, 27] 15

走运的朋友，[4, 6, 16, 18, 19, 27] 15送给你了，去吧！

我是@TF男孩，一个长于挖掘传统常识的程序员。

小科普：机器学习是啥？怎么分，怎么学，怎么用？

一、机器学习与深度学习之辨

二、机器学习算法与一般逻辑算法之辨

三、机器学习入门利器 sklearn

四、实战：投票回归器完成疾病进展猜测

4.1 调研与处理数据集

4.2 预处理数据

4.2.1 拆分输入输出

4.2.1 规范化与归一化

4.3 练习与猜测

4.4 投票回归猜测

五、总结

作者信息

小科普：机器学习是啥？怎么分，怎么学，怎么用？

一、机器学习与深度学习之辨

二、机器学习算法与一般逻辑算法之辨

三、机器学习入门利器 sklearn

四、实战：投票回归器完成疾病进展猜测

4.1 调研与处理数据集

4.2 预处理数据

4.2.1 拆分输入输出

4.2.1 规范化与归一化

4.3 练习与猜测

4.4 投票回归猜测

五、总结

相关文章

参与 2023 第二季度官方 Flutter 开发者调查

有了这三个神器工具集，应用开发想怎么玩就怎么玩

几行代码安装，免费做图无上限：Stability AI公布DreamStudio开源版本

2023年的深度学习入门指南(25) – 通义千问7b

作者信息