机器学习中 有价值,高质量的数据集汇总 持续更新中…

巧妇难为无米之炊,没有有价值,高质量的数据集, 我们搞数据科学的怎么混呢?

今天David 9 把收集的机器学习中的高质量数据集晒一晒,以后也会持续更新:

1. 机器学习UCI数据库 :http://archive.ics.uci.edu/ml/

2. KDD cup竞赛数据集 : http://kdd.ics.uci.edu/

3. 明尼苏达大学整理的数据集http://dmr.cs.umn.edu/datasets.html

4. 华盛顿大学整理的数据集: http://www.cs.washington.edu/dm/vfml/

5. 预测者网,金融数据服务: http://yucezhe.com/product/home 继续阅读机器学习中 有价值,高质量的数据集汇总 持续更新中…

蒙特卡洛树搜索 MCTS 入门

参考文献:

  1. http://www.kuqin.com/shuoit/20160219/350769.html
  2. https://www.caktusgroup.com/blog/2015/09/24/introduction-monte-carlo-tree-search-1/

什么是 MCTS?

全称 Monte Carlo Tree Search,是一种人工智能问题中做出最优决策的方法,一般是在组合博弈中的行动(move)规划形式。它结合了随机模拟的一般性和树搜索的准确性。

MCTS 受到快速关注主要是由计算机围棋程序的成功以及其潜在的在众多难题上的应用所致。超越博弈游戏本身,MCTS 理论上可以被用在以 {状态 state,行动 action} 对定义和用模拟进行预测输出结果的任何领域。

基本算法

基本的 MCTS 算法非常简单:根据模拟的输出结果,按照节点构造搜索树。其过程可以分为下面的若干步: 继续阅读蒙特卡洛树搜索 MCTS 入门

关于conda和anaconda不可不知的误解和事实——conda必知必会

2012年发布的跨平台包管理软件conda,是在数据分析界和Numpy和Scipy一样受欢迎的python工具。但是普通程序员平时只是会使用conda安装一些第三方包, 对它从哪里来,它是什么,和它要到哪里去所知甚少。今天我们就要讲一下关于conda和anaconda不可不知的误解和事实——conda必知必会的那些事实。

误解 #1:Conda是python的一个发行版,不是一个包管理器。

事实: Conda是一个包管理器;Anaconda才是一个python发行版。虽然conda是用Anaconda打包的, 但是它们两个的目标是完全不同的。

软件发行版是在系统上提前编译和配置好的软件包集合, 装好了后就可以直接用。包管理器是自动化软件安装,更新,卸载的一种工具。Conda,有命令”conda install”, “conda update”, “conda remove”, 所以很明显, conda是包管理器。

再来说说, Anaconda 和 Miniconda. Anaconda发行版会预装很多pydata生态圈里的软件,而Miniconda是最小的conda安装环境, 一个干净的conda环境。

但是,conda和Anaconda没有必然关系, 你可以不安装Anaconda的同时, 使用conda安装和管理软件。

误解 #2: Conda是一个python包管理器

继续阅读关于conda和anaconda不可不知的误解和事实——conda必知必会