图灵测试示意图

#0 机器学习101 David 9的普及贴 附PPT

机器学习 概览

  • 什么是机器学习 ?

“不显式编程地赋予计算机能力的研究领域”, Arther Samuel (发明”机器学习”这个词) 是这样定义的.

在讲机器学习之前, 我们先看看什么不是机器学习? 首先, 深度穷举搜索, 应该不属于Arthur的这个定义, 这种算法在叶子节点显式地写return语句, 来比较两个决策的优劣. 从”深蓝“到AlphaGo, 一个重要的区别就是机器不再大量依靠穷举蛮力和专家标记, 而是, “消化”了大量数据作为自己的一部分”经验”.

并且, 机器学习很重要的两个目的有:

1. 更好地通过图灵测试 (文章主图即图灵测试说明图). 使得机器变得和人类无法区分, 是智能的一个重要体现.

2. 依靠自己的”经验”(数据) 预测未来的结果. 机器可以存储和快速处理大量数据的能力, 赋予了机器可以在现实生活中看到人类看不到的一些方面, 数据的全面使得机器可以大量使用贝叶斯概率论的有关推断.

例如, 训练一个线性回归或者SVM模型, 只需把需要的参数调整好, 而不需要蛮力地穷举, 在叶子节点写return语句. 当参数调整好, 模型也就确定下来. 如线性模型y=x*a+b, 如果斜率a和截距b确定下来, 模型也就确定下来, 通过大量数据得出的这个线性模型, 一定比人类目测比划的线性模型准确. 这就是机器的又一个优势, 精确性. 同样的数据集, 人类比划出的模型一般没有机器计算出的模型精确.

看一下机器学习的一般步骤:

  1. 收集数据
  2. 清洗数据 把数据处理成计算机容易处理的形式
  3. 准备机器学习算法的输入, 这里输入不一定是全部清理过的数据, 可以是其中一部分作为训练数据集, 另一部分作为测试数据集. 打个比方, 现在你要买股票了, 如果你是老股民, 此刻你脑中已经有一个学习机或者一个模型, 你依据的过往买股票的经验就是输入数据, 训练了你的这个模型. 而你将要买的那只股票, 是测试数据, 用来测试你是不是炒股”高手”, 也就是用了评价你这个模型好不好.
  4. 训练机器学习算法, 这就是训练参数的阶段了, 训练完成, 模型也就暂且固定了
  5. 用测试数据集评估模型, 可以给个分数什么的.
  6. 图形化数据
  • 机器学习趋势

先来看看scikit-learn这个著名机器学习python库, 给我们的机器学习选型小抄:

scikit-learn机器学习算法小抄
scikit-learn机器学习算法小抄

scikit-learn把机器学习大致分为四块问题: 分类问题, 回归问题, 聚类问题, 降维问题. 跟着图中流程条件走, 大致能找到适合你的一个学习模型. 在接下来的博客中, 我们会详细讲解这些模型, 特别是经常碰到的有用模型.

scikit-learn机器学习算法对比
scikit-learn机器学习算法对比

暂且, 让我们有个大致了解. 上图是各个不同模型的训练结果. 图中, 颜色较深的表示, 模型有较大”信心”或者说概率, 相信样本预测, 这里只是二类分类问题, 所以主要是注意观察分布. 有两点需要注意, 1. 每一行是用的同一分布不同模型, 2. 每一列用的是同一模型不同分布. 可见数据分布不同, 即便是同一模型, 也会训练出不同形态. 而不同模型, 对于不同分布, 也有优劣之分, 对于多变复杂的数据集, 用简单的决策树去训练, 效果很可能不比Adaboost这样的集成学习模型.

好了, 现在该把当今最火的机器学习算法请出来了: 深度学习 !

s

Google Trends显示, 随着深度学习的热潮, SVM等算法也有降温的趋势哦~

再来看看深度学习四位大神吧:

深度学习四大神 依次是(Yann LeCun,Geoffrey Hinton, Yoshua Bengio, Andrew Ng)
深度学习四大神 依次是(Yann LeCun,Geoffrey Hinton, Yoshua Bengio, Andrew Ng)

目前就职:

Geoff Hinton
—— Google,Google Brain
Yann Lecun
—— Director of AI Research, Facebook
Yoshua Bengio
—— Université de Montréal
Andrew Ng(吴恩达)
—— Baidu Brain

有兴趣请看详细内容, 认识深度学习的大牛们

另外开发工具的趋势: Matlab已经退热, python和R语言是深受广大机器学习和数据科学家的喜爱, 所有打算往这个方向努力的童鞋们, 好好选python或者R学习一下会有帮助哦.

最后献上三句格言:

“Don‘t model the World,  Model the Mind.”

不要认为建模世界很牛, 如果你能建模人脑, 一切问题是不是都解决了? 嘿嘿, 这不就是深度学习, 神经网络的终极目标吗?

“Data is king, algorithm is queen.”
“数据是燃料, 算法是火箭” —— 吴恩达

没有数据, 缺乏高质量的数据, 一切算法都是鸡肋.

 

  • 参考文献:

[1] https://github.com/shantnu/Titanic-Machine-Learning
[2] https://github.com/donnemartin/data-science-ipython-notebooks
[3] https://en.wikipedia.org/wiki/Machine_learning
[4] http://wubinblog.com/deep%20learning/2015/06/25/DL-FamousResearcher



发布者

David 9

邮箱:yanchao727@gmail.com 微信: david9ml

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注