在自己专业领域,如何快速成(jia)为(zhuang)一名数据科学家? David 9的一些方法,#入门数据科学,#数据分析

David的粉丝中不少是跨学科学习机器学习(深度学习)的。如何在自己的专业领域里上手数据科学和分析是我经常被问到的问题。

这里我总结一些简单的方法,帮大家快速自学。

1,多数跨学科朋友都不是CS计算机专业的,所以不要折磨自己在编程上,专注一个容易上手的流行语言如R,python,julia可以为你减轻编程负担,如果能力有限建议只精通其中一种语言。

2,立即上手。不要害怕有些编程思想和理论还没有掌握,这里的上手是让你快速了解你这个专业的数据科学家在做什么,用了哪些流行工具?渠道大概有下面3种:

1) 找到你们行业领域的热门竞赛(如推荐领域有亚马逊,Netflix办的竞赛),如果你实在找不到,可以看官方的数据科学竞赛如kaggle, 阿里天池,以生物学DNA测序为例:

直接在kaggle中搜索:“DNA sequencing”就可以得到许多相关信息:

进入到第一个果蝇基因组的数据你就可以看到已经有一些kernel代码可以直接跑了学习: 继续阅读在自己专业领域,如何快速成(jia)为(zhuang)一名数据科学家? David 9的一些方法,#入门数据科学,#数据分析

做机器学习,再别把IoU,ROI 和 ROC,AUC 搞混了 !聊聊目标检测,医疗领域的那些评价函数

涉及领域不多的机器学习爱好者经常会把IoU,ROI 和 ROC,AUC 这样的评价函数(Metric functions)搞混。其实记住它们也没那么难,David 9今天就来帮大家理一理:

1. IoU (Intersection over Union),交集并集比

2. ROI (region of interest) , 感兴趣区域

3. ROC (Receiver Operating Characteristic curve) 受试者工作特征曲线

4. AUC (Area Under the Curve) , 曲线下区域

首先要区分,前两个目标检测领域的术语;后两个是从医疗领域引进的,但是所有机器学习准确率都可能用到该指标。

最容易理解的是第2个ROI,我们做任何目标检测在准备数据集时都要选择感兴趣区域, 我们之前的文章也提到过

labelImg 就是一个不错的标注工具。帮助你选择目标检测的感兴趣框。是的这不是一个评价函数,是一个概念而已。 继续阅读做机器学习,再别把IoU,ROI 和 ROC,AUC 搞混了 !聊聊目标检测,医疗领域的那些评价函数

德州扑克AI(Libratus)的背后:不完美信息博弈中,求解安全嵌套的子博弈, #NIPS 2017最佳论文奖

如果AI的本质是在可接受时间内搜索到最优解,那么容易定义最优解的问题都是AI可以解决的。这样,人类的“情感”看起来如此“珍贵”,因为它很难用人工定义“最优解” — David 9

相信大家还记得2017年初人工智能Libratus完胜德州扑克顶级玩家的事,年底卡耐基梅隆大学(CMU)在NIPS 2017上公开这一贡献并获得最佳论文奖。这一进展之所以让人兴奋,是因为它为不完美信息博弈(Imperfect-Information Games)问题提供了新的解决思路:

来自:https://www.youtube.com/watch?v=tRiaGahlyy4

棋类游戏,双方都是共享一切信息的,这种博弈称为完美信息博弈。而扑克类,谈判,商业决策等类似问题,双方的信息都是不公开给对方的,这就提高了AI算法搜索最优解的难度。

对于完美信息博弈,每一步Action引出下一步子状态,接下来在子状态中求解最优解即可:

来自:https://www.youtube.com/watch?v=tRiaGahlyy4

对于不完美信息博弈,我们不能安心地解决眼前的子问题,因为我们同时必须考虑:“对手的手牌现在会是什么样的?”,“他下一次会用什么策略?”等等烦人的问题,因此许多平行的子问题是我们必须同时考虑的:

来自:https://www.youtube.com/watch?v=tRiaGahlyy4

继续阅读德州扑克AI(Libratus)的背后:不完美信息博弈中,求解安全嵌套的子博弈, #NIPS 2017最佳论文奖