#4 大话“奇异值”矩阵

“奇异值”的物理意义是什么?

矩阵的奇异值是一个数学意义上的概念,一般是由奇异值分解(Singular Value Decomposition,简称SVD分解)得到。如果要问奇异值表示什么物理意义,那么就必须考虑在不同的实际工程应用中奇异值所对应的含义。下面先尽量避开严格的数学符号推导,直观的从一张图片出发,让我们来看看奇异值代表什么意义。

这是女神上野树里(Ueno Juri)的一张照片,像素为高度450*宽度333。暂停舔屏先(痴汉脸)

7916513406802738740

继续阅读#4 大话“奇异值”矩阵

文本特征提取方法研究

一、课题背景概述

文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。 继续阅读文本特征提取方法研究

8个学习pandas数据分析的超级资源

转自:Top 8 resources for learning data analysis with pandas

我最近发布了一系列关于“pandas”的视频,pandas是一个流行的python数据分析,控制和可视化的库。但是对于想要学习pandas的小伙伴,我已经准备了我的推荐列表:

    1. pandas数据结构入门: 这是Greg Reda的经典pandas教程三部曲的第一部, 第二部和第三部戳这里:第二部, 第三部 。它非常易读,对入门非常有益, 而且有很多有用的例子。
    2. Pandas简介 / 用Pandas折腾数据/ Pandas作图: 三个比较长但是写的很好、很好读的Jupyter notebook笔记,出自范德堡大学的Chris Fonnesbeck写的高级统计计算教程。 如果你想深入了解Pandas的细节和强大功能,这些笔记不容错过。

    继续阅读8个学习pandas数据分析的超级资源

    PyCon 2016 你不容错误过的演讲

    小伙伴们, 一年一度的PyCon 2016盛宴错过了吗? 有没有去俄勒冈的波特兰瞻仰一下Python大神们的风采?

    如果没有, 现在是机会享受视频回播啦, 如果你会翻墙, 请戳: Youtube PyCon 2016 视频集锦 . 如果你还苦于翻墙, 请戳我们的翻墙教程 .

    如果你懒得翻墙, 请看我们为你搬到墙内的视频:

    1. PyCon 2016 大会 python创始人Guido van Rossum演讲 – Python Language
    2. pycon 2016 – Diving into Machine Learning through TensorFlow

    有机会我们会出一期Blog专门讲一下TensorFlow.

    #3 集成学习–机器学习中的群策群力 !

    背景:

    总览

    机器学习方法在生产、生活和科研中有着广泛应用,而集成学习则是机器学习的热门方向之一。
    集成学习是使用一系列学习器进行学习,以某种规则把各个学习结果进行整合,从而获得比基学习器有更好学习效果集成学习器.

    今天, 我们在分析讨论集成学习和多类集成学习的同时, 提出目前多类集成学习的一些问题, 供大家参考。

    集成学习图例

    sss

    研究现状

    理论丰富

    二类集成学习已有较成熟理论基础。多类集成理论基于二类集成。

    国际成果

    Bagging (Leo Breiman, 1994,Technical Report No. 421.)

    Boosting (Schapire, Robert E,1990 ,“The Strength of WeakLearnability”. Machine Learning (Boston, MA: Kluwer Academic Publishers)

    AdaBoost (Yoav Freund and Robert Schapire,2003)

    AdaBoost.MH, SAMME, PIBoost, GentleBoost, AdaCost

    国内成果:

    南大周志华等人提出选择性集成理论,于2001年在国际人工智能

    顶级会议IJCAI上发表。另周志华等人提出了二次学习的思想,将集成学习用作预处理,在IEEE Trans. Information Technology in Biomedicine(2003)上发表。 继续阅读#3 集成学习–机器学习中的群策群力 !

    不容错过的Python小贴士—技巧, 风格和最佳实践

    — 改编自 Python: Tips, Tricks and Idioms

     

    1. Dict的for循环中避免使用低效的iteritems() 和 keys()

    In [1]:
    a = {}
    for i in xrange(0, 1000000):
        a[i] = i
    print(type(a))
    print(len(a))
    <type 'dict'>
    1000000
    
    In [2]:
    def for_func1():
        for x in a:
            pass
    
    def for_func2():
        for x in a.keys():
            pass
    
    def for_func3():
        for x,v in a.iteritems():
            pass
    In [3]:
    import timeit
    print(timeit.timeit(for_func1, number=100))
    print(timeit.timeit(for_func2, number=100))
    print(timeit.timeit(for_func3, number=100))
    1.22459793091
    2.30621099472
    2.17837190628
    

    是不是快多了?

     

    2. for循环中获得index神器: enumerate

    In [4]:
    students = ('James', 'Andrew', 'Mark')
    In [5]:
    for i, student in enumerate(students):
        print i, student
    0 James
    1 Andrew
    2 Mark
    
    In [6]:
    students = {'James': 'male', 'Andrew':'male', 'Alice':'female'}
    In [7]:
    for i, student in enumerate(students):
        print i, student
    0 James
    1 Andrew
    2 Alice
    

    3. 想确定for循环完整结束, 用else吧…

    In [8]:
    for ele in ['a', 'b', 'c']:
        if ele == 'b':
            break
    else: # no break
        print('for循环完整结束')
    In [9]:
    for ele in ['a', 'b', 'c']:
        if ele == 'd':
            break
    else: # no break
        print('for循环完整结束')
    for循环完整结束
    

    4. 迭代工具之chain连接器

    继续阅读不容错过的Python小贴士—技巧, 风格和最佳实践

    Brief History of Machine Learning 机器学习简史

    My subjective ML timeline
    My subjective ML timeline

    Since the initial standpoint of science, technology and AI, scientists following Blaise Pascal and Von Leibniz ponder about a machine that is intellectually capable as much as humans. Famous writers like Jules

    Pascal’s machine performing subtraction and summation – 1642
    Pascal’s machine performing subtraction and summation – 1642

    Machine Learning is one of the important lanes of AI which is very spicy hot subject in the research or industry. Companies, universities devote many resources to advance their knowledge. Recent advances in the field propel very solid results for different tasks, comparable to human performance (98.98% at Traffic Signs – higher than human-).

    Here I would like to share a crude timeline of Machine Learning and sign some of the milestones by no means complete. In addition, you should add “up to my knowledge” to beginning of any argument in the text.

    First step toward prevalent ML was proposed by Hebb , in 1949, based on a neuropsychological learning formulation. It is called Hebbian Learning theory. With a simple explanation, it pursues correlations between nodes of a Recurrent Neural Network (RNN). It memorizes any commonalities on the network and serves like a memory later. Formally, the argument states that;

    Let us assume that the persistence or repetition of a reverberatory activity (or “trace”) tends to induce lasting cellular changes that add to its stability.… When an  axon  of cell  A is near enough to excite a cell  B and repeatedly or persistently takes part in firing it, some growth process or metabolic change takes place in one or both cells such that  A’s efficiency, as one of the cells firing  B, is increased.[1]

    Arthur Samuel
    Arthur Samuel

    In 1952 , Arthur Samuel at IBM, developed a program playing Checkers . The program was able to observe positions and learn a implicit model that gives better moves for the latter cases. Samuel played so many games with the program and observed that the program was able to play better in the course of time.
    继续阅读Brief History of Machine Learning 机器学习简史