神经网络学习笔记

  • 写作原由

最近拖一位海龟数学博士朋友大神的福,一步从机器学习纯看书阶段直接进入神经网络深度学习实践阶段,并且在他的强力督促下完整掌握了基本人工神经网络的本质基础,在进军学习和实践CNN之前,将自己学习到的内容记录下来,假想自己作为一名人民教师,应当如何无缝介绍这部分的基础内容。

  • 开场介绍

通常我们写程序都是将我们的想法写入程序,告诉程序应该去做什么。比如,现阶段所谓的量化交易,本质上就是程序员将自己或别人已经完善的交易系统代码化,直接告诉计算机何时交易,及怎么交易,算法集中在如何将具体的策略有效表达。但神经网络不一样,我们只是告诉它我们的目的是什么,它自己就可以通[……]

Read more

统计学习方法(四)

一、 逻辑回归和最大熵模型
读后感:这2个算法相对比较简单,逻辑回归在“机器学习中的数学基础”已经有详细的论述,再此就不做赘述,而熵的概念在决策树部分也有涉及,因此,在这一章中只对最大熵模型的学习算法做详细介绍,包括迭代尺度算法和拟牛顿法。
1. 最大熵原理:最大熵原理说起来非常简单,就是在约束条件下,在所有可能的概率分布中选择熵最大的模型。因为熵是对随机变量不确定性的度量,所以随机变量越不确定,从某种角度上来说就是分布越均匀,熵越大。
2. 最大熵模型:最大熵原理是统计学习的一般原理,将其应用到分类则得到最大熵模型。假设函数P(Y|X),是对于给定的X,以条件概率P(Y|X)输出Y,即[……]

Read more

统计学习方法(三)

  • 朴素贝叶斯

读后感:自从接触概率论以来眼前耳边都是围绕着贝叶斯字样的名词,看公式就是一个很简单的联合概率、边缘概率和条件概率间的捣鼓,从形式上看简单的不行,但每次看到以该公式为基础延伸的一系列理论时又通常会一脸懵逼,不知所以。但朴素贝叶斯实在是我的救星,对得起它Naïve的名头,一看就懂。但鉴于它在NLP界的地位,让我更加坚信在当前工程应用领域,特征选择和特征工程,才是数据挖掘乃至机器学习的核心。

  • 朴素贝叶斯法的学习和分类:朴素贝叶斯的名称分2部分解释:贝叶斯是指P(Y/X)=P(X,Y)/P(X)=P(X/Y)P(Y)/P(X)=P(X/Y)·P(Y)/sigma(P[……]

Read more

统计学习方法(二)

  • 感知机

读后感:感知机是一个简单的二分类线性模型,输入为特征向量,输出为+1和-1,分别代表正负两类,属于判别模型。因此,感知机是很多分类问题的基础,尤其是SVM和ANN中都以感知机为基本单元。

  • 感知机模型:感知机模型输入是特征空间中Rn维向量x,输出空间是Y={+1,-1},模型优化系数,即各特征的权重向量为w,因此,感知机模型可以表示为,y=f(x)=sign(wx+b)。感知机的几何解释:线性方程w·x+b=0对应于特征空间中的分类超平面,其中w是超平面法向量,b为超平面截距。(w是在线性可分的前提下,首先定义为超平面法向量,然后才推导出来的超平面方程。)

[……]

Read more

统计学习方法(一)

  • 统计学习方法概论

读后感:2014年以来就已经对机器学习产生兴趣,从最初借助工作上的研究找到JerryLead的博客开始,到后来记了一本Andrew Ng的学习笔记,再到现在正儿八经的开始机器学习的业余研究,已经有将近2年的时间。很遗憾,这2年的学习几乎就是0成效,不得不有些小伤感。究其原因有三:第一,自己当时并没有预见到机器学习会在AlphaGo现世后受到大爆发的关注,目光短浅。第二,不能将学过的东西利用于工作生活,学过就忘。第三,因为是业余爱好,从来都是东一榔头西一棒子,始终没有形成一个完整的知识体系。因此,我有想法从机器学习的数学基础开始,在火热的机器学习大潮下,通过系统性[……]

Read more

MIT线性代数(下)

  • 对称矩阵和正定性:特征值和特征向量是快速了解矩阵的方式,就实对称矩阵来说,它的特征值均为实数,对应的特征向量相互正交。因此,对一般矩阵A,若其n个特征向量线性无关,一定有A=SV·S逆,其中S为特征向量组成的矩阵,V则是由特征值构成的对角矩阵。特别的,若A是对称矩阵,相互正交的特征向量则构成正交矩阵Q,一定有A= Q·V·Q逆=Q·V·Q转置,在数学上称之为谱定理,力学上是主轴定理。同时,教授引出复数矩阵来证明实对称矩阵特征值的实数性,对A·x=lambda·x左右两边同时取共轭,等式仍然成立,由此,再结合对称矩阵的性质可得lambda的共轭=lambda本身,问题得证。需要注意的是,[……]

Read more

MIT线性代数(中)

  • 正交向量和子空间:因为正交向量间的点积等于0,即x转置·y=0,使用向量加法和模长的勾股定理容易求证。同时,也容易推得m*n矩阵A的行空间向量与零空间向量正交,列空间向量与左零空间向量正交。另外,由于各空间还需要满足各自对应的维数,因此行空间与零空间互为Rn空间的正交补,即行空间包含与零空间相垂直的所有向量,而不是部分。列空间与左零空间同样适用。由定义可知,两个正交子空间只可能交于零向量一个点,否则无法满足任意正交的条件。
  • 子空间投影:(个人认为这是线性代数在机器学习领域最重要的知识点!)子空间投影由Ax=b引出,它解决的问题是:若Ax=b无解,如何得到最适合Ax=b的解[……]

Read more

MIT线性代数(上)

在中国不知所以的《线性代数》教材的目录排版下,当前大多数本土毕业生均能熟练使用公式计算行列式或求解线性方程组,却丝毫不能体会线性代数真正内涵的精髓所在。包括我在内,在学习机器学习途中那满篇的矩阵表示更是让人头痛欲裂,这让我事实上感受到了线性代数才是机器学习中最重要的数学工具,因此不得不静下心来按照网易名校公开课—“MIT线性代数”重学一遍,受到的启发超乎想象,线性代数新世界的大门似乎也对我缓缓打开,遂有了这两篇学习笔记,供自己或有兴趣的小伙伴后续参考。

  • 方程组的几何解释: 一个特定的线性方程组可以从3个角度去观察:行视图,列视图和矩阵表示。行视图为所有人熟知,即求解空间内不同方程所代[……]

Read more