您好,欢迎光临本网站![请登录][注册会员]  
文件名称: PCA的数学原理
  所属分类: 机器学习
  开发工具:
  文件大小: 713kb
  下载次数: 0
  上传时间: 2019-07-02
  提 供 者: aba****
 详细说明:PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线 性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只 描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工 作机制是什么。3 在代数表示方面,我们经常用线段终点的点坐标表示向量,例如上面的向量可以表示为(3,2),这是我们再熟悉不过的向 量表示。 不过我们常常忽略,只有一个(3,2)本身是不能够精确表示一个向量的。我们仔细看一下,这里的3实际表示的是向量在x 轴上的投影值是3,在y轴上的投影值是2。也就是说我们其实隐式引入了一个定义:以x轴和y轴上正方向长度为1的向量 为标准。那么一个向量(3,2)实际是说在x轴投影为3而y轴的投影为2。注意投影是一个矢量,所以可以为负。 更正式的说,向量(xy)实际上表示线性组合 X(1,0)T+y(0,1)T 不难证明所有二维向量都可以表示为这样的线性组合。此处(1,0)和(0,1)叫做二维空间中的一组基。 4 所以,要准确描述向量,首先要确定一组甚,然后绐岀在基所在的眢个直线上的投影值,就可以了。只不过我们经常省 略第一步,而默认以(1,0)和(,1)为基。 我们之所以默认选择(1.0厢和(0,1)为基,当然是比较方便,因为它们分别是X和y轴正方向上的单位向量,因此就使得二维 平面上点坐标和向量——对应,非常方便。但实际上任何两个线性无关的二维向量都可以成为一组基,所谓线性无关在 一维平面内可以直观认为是两个不在一条直线上的向量 例如,(1,1)和(←1,1)也可以成为一组基。一般来说,我们希望基的模是1,因为从内积的意义可以看到,如果基的模是1, 那么就可以方便的用向量点乘基而直接获得其在新基上的坐标了!实际上,对应任何一个向量我们总可以找到其同方向 上模为1的向量,只要让两个分量分别除以模就好了。例如,上面的基可以变为(12√,12、)和 (-12√,12√)。 现在,我们想获得(3,2)在新基上的坐标,即在两个方向上的投影矢量值,那么根据内积的几何意义,我们只要分别计算 (32和两个基的内积,不难得到新的坐标为(52√,-12√)。下图给出了新的基以及(3,2)在新基上坐标值的示意 2 3 另外这里要注意的是,我们列举的例子中基是正交的(即内积为0,或直观说相互垂直),但可以成为一组基的唯一要求 就是线性无关,非正交的基也是可以的。不过因为正交基有较好的性质,所以一般使用的基都是正交的。 基变换的矩阵表示 下面我们找一种简便的方式来表示基变换。还是拿上面的例子,想一下,将(3,2)变换为新基上的坐标,就是用(32)与第 个基做内积运算,作为第一个新的坐标分量,然后用(3,2)与第二个基做内积运算,作为第二个新坐标的分量。实际 上,我们可以用矩阵相乘的形式简洁的表示这个变换: (1/2¥-1/2、1212√)(32)=(5/2y-12y) 太漂亮了!其中矩阵的两行分别为两个基,乘以原向量,其结果刚好为新基的坐标。可以稍微推广一下,如果我们有m个 维向量,只要将二维向量按列排成一个两行m列矩阵,然后用基矩阵乘以这个矩阵,就得到了所有这些向量在新基下 的值。例如(1,1),(2,2),(3,3),想变换到刚才那组基上,则可以这样表示 (12y-12√12√1/2y)(112233)=(2√04/2√062√0 于是一组向量的基变换被千净的表示为矩阵的相乘。 一般的,如果我们有M个N维向量,想将其变换为由R个N维向量表示的新空间中,那么首先将R个甚按行组成矩阵A,然 后将向量按列组成矩阵B,那么两矩阵的乘积AB就是变换结果,其中AB的第m列为A中第m列变换后的结果。 数学表示为 p 1 p2: pR (a1 M)= p1a1 p2a1:pRa1 p1a2p2a2: pRa2 其中pi是一个行向量,表示第个基,aj是一个列向量,表示第个原始数据记录。 特別要注意的是,这里R可以小于N,而R决定了变换后数据的维数。也就是说,我们可以将一N维数据变换到更低维度的 空间中去,变换后的维度取决于基的数量。因此这种矩阵相乘的表示也可以表示降维变换 最后,上述分析同时给矩阵相乘找到了一种物理解释:两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边 矩阵中毎一行行向量为基所表示的空间中去。更抽象的说,一个矩阵可以表示一种线性变换。很多同学在学线性代数时 对矩阵相乘的方法感到奇怪,但是如果明白了矩阵相乘的物理意乂,其合理性就一目了然了。 协方差矩阵及优化目标 上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示,而且如果基的数量少于向量本身的维数,则可以达 到降维的效果。但是我们还没有回答一个最最关键的问题:如何选择基才是最优的。或者说,如果我们有一组N维向量, 现在要将其降到K维(K小于N),那么我们应该如何选择K个基才能最大程度保留原有的信息? 要完全数学化这个问题非常繁杂,这里我们用一种非形式化的直观方法来看这个问题。 为了避免过于抽象的讨论,我们仍以一个具体的例子展开。假设我们的数据由五条记录组成,将它们表示成矩阵形式: (1113234424) 其中每一列为一条数据记录,而一行为一个字段。为了后续处理方便,我们首先将每个字段内所有值都减去字段均值, 其结果是将每个字段都变为均值为0(这样做的道理和好处后面会看到)。 我们看上面的数据,第一个字段均值为2,第二个字段均值为3,所以变换后 (-1-2-10002101) 我们可以看下五条数据在平面直角坐标系内的样子: 2 3 现在问题来了:如果我们必须使用一维来表示这些数据,又希望尽量保留原始的信息,你要如何选择? 通过上一节对基变换的讨论我们知道,这个问题实际上是要在二维平面中选择一个方向,将所有数据都投影到这个方向 所在直线上,用投影值表示原始记录。这是一个实际的二维降到一维的问题。 那么如何选择这个方向(或者说基)才能尽量保留最多的原始信息呢?一种直观的看法是:希望投影后的投影值尽可能 分散。 以上图为例,可以看出如果向x轴投影,那么最左边的两个点会重叠在一起,中间的两个点也会重叠在一起,于是本身四 个各不相同的二维点投影后只剩下两个不同的值了,这是一种严重的信息丢失,同理,如果向y轴投影最上面的两个点和 分布在x轴上的两个点也会重叠。所以看来x和轴都不是最好的投影选择。我们直观目测,如果向通过第一象限和第三象 限的斜线投影,则五个点在投影后还是可以区分的 下面,我们用数学方法表述这个问题 方差 上文说到,我们希望投影后投影值尽可能分散,而这种分散程度,可以用数学上的方差来表述。此处,一个字段的方差 可以看做是每个元素与字段均值的差的平方和的均值,即: V ar(a)=1 m >i=1 m(ai-p)2 由于上面我们已经将每个字段的均值都化为0了,因此方差可以直接用每个元素的平方和除以元素个数表示 Var(a)=1m∑i=1ma2j 于是上面的问题被形式化表述为:寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大 协方差 对于上面二维降成一维的问题来说,找到那个使得方差最大的方向就可以了。不过对于更高维,还有一个问题需要解 决。考虑三维降到二维问题。与之前相同,首先我们希望找到一个方向使得投影后方差最大,这样就完成了第一个方向 的选择,继而我们选择第二个投影方向。 如果我们还是单纯只选择方差最大的方向,很明显,这个方向与第一个方向应该是“几乎重合在一起”,显然这样的维度是 没有用的,因此;应该有其他约束条件。从直观上说,让两个字段尽可能表示更多的原始信息,我们是不希望它们之间 存在(线性)相关性的,因为相关性意味着两个字段不是完全独立,必然存在重复表示的信息。 数学上可以用两个字段的协方差表示其相关性,由于已经让每个字段均值为0,则 cova,b)=1m∑}=1 maibi 可以看到,在字段均值为0的情况下,两个字段的协方差简洁的表示为其内积除以元素数m。 当协方差为0时,表示两个字段完全独立。为了让协方差为0,我们选择第二个基时只能在与第一个基正交的方向上选 择。因此最终选择的两个方向一定是正交的。 至此,我们得到了降维问题的优化目标:将一组N维向量降为κ维(K大于0,小于N),其目标是选择K个单位(模为1) 正交基,使得原始数据变换到这组基上后,各字段两两间协方差为0,而字段的方差则尽可能大(在正交的约束下,取最 大的K个方差)。 协方差矩阵 上面我们导出了优化目标,但是这个目标似乎不能直接作为操作指南(或者说算法),因为它只说要什么,但根本没有 说怎么做。所以我们要继续在数学上研究计算方案。 我们看到,最终要达到的目的与字段内方差及字段间协方差有密切关系。因此我们希望能将两者统一表示,仔细观察发 现,两者均可以表示为内积的形式,而内积又与矩阵相乘密切相关。于是我们来了灵感 假设我们只有a和b两个字段,那么我们将它们按行组成矩阵X =(a1b1a2b2 a m b m 然后我们用X乘以Ⅹ的转置,并乘上系数1/m 1 m XXT-\||| 1m >F1 ma2i 1m >=1m 1m 7F-1maibi1m >F1mb2i/1I11I 奇迹出现了!这个矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是a和b的协方差。两者被统一到了一个 矩阵的。 根据矩阵相乘的运算法则,这个结论很容易被推广到一般情况 设我们有m个n维数据记录,将其按列排成n乘m的矩阵X,设C=1mxXT,则c是一个对称矩阵,其对角线分别个 各个字段的方差,而第行列和行冽元素相同,表示两个字段的协方差。 协方差矩阵对角化 根据上述推导,我们发现要达到优化目前,等价于将协方差矩阵对角化:即除对角线外的其它元素化为0,并且在对角线 上将元紊按大小从上到下排列,这样我们就达到了优化目的。这样说可能还不是很明晰,我们进一步看下原矩阵与基变 换后矩阵协方差矩阵的关系 设原始数据矩阵×对应的协方差矩阵为C,而P是一组基按行组成的矩阵,设Y=PX,则Y为X对P做基变换后的数据。设Y 的协方差矩阵为D,我们推导一下D与C的关系 D ====1m YYT 1m(PX)PX)T 1m PXXTPT P(1 m XX T)PT PCPT 现在事情很明白了!我们要找的P不是别的,而是能让原始协方差短阵对角化的P。换句话说,优化目标变成了寻找一个 矩阵P,满足PCPT是一个对角矩阵,并且对角元素按从大到小依次排列,那么P的前K行就是要寻找的基,用P的前 K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件 至此,我们离“发明”PCA还有仅一步之遥! 现在所有焦点都聚焦在了协方差矩阵对角化问题上,有时,我们真应该感谢数学家的先行,因为矩阵对角化在线性代数 领域已经属于被玩烂了的东西,所以这在数学上根本不是问题。 由上文知道,协方差矩阵C是一个是对称短阵,在线性代数上,实对称矩阵有一系列非常好的性质 )实对称矩阵不同特征值对应的特征向量必然正交。 2)设特征向量A重数为r,则必然存在r⌒个线性无关的特征向量对应于A,因此可以将这个特征向量单位正交化 由上面两条可知,一个n行n列的实对称矩阵一定可以找到h个单位正交特征向量,设这n个情征向量为e1,e2 en,我们将其按列组成矩阵: (e1e2…en) 则对协方差矩阵C有如下结论 ETCE=∧= d1 A2 An 其中∧为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复) 以上结论不再给出严格的数学证明,对证明感兴趣的朋友可以参考线性代数书籍关于“实对称矩阵对角化"的内容。 到这里,我们发现我们已经找到了需要的矩阵P P=E T P是协方差矩阵的特征向量单位化后按行排列出的矩阵,其中每一行都是C的一个特征向量。如果设尸按照∧中特征值的 从大到小,将特征向量从上到下排列,则用P的前K行组成的矩阵乘以原始数据矩阵×,就得到了我们需要的降维后的数 据矩阵Y。 至此我们完成了整个PCA的数学原理讨论。在下面的一节,我们将给出PCA的一个实例 算法及实例 为了巩固上面的理论,我们在这一节给出一个具体的PCA实例。 PCA算法 总结一下PCA的算法步骤 设有m条n维数据。 1)将原始数据按列组成n行m列短阵Ⅹ 2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值 3)求出协方差矩阵C=1mXXT 4)求出协方差矩阵的特征值及对应的特征向量 5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取歈k行组成矩阵P 6)Y=PⅩ即为降维到k维后的数据 实例 这里以上文提到的 (-1-2-10002101) 为例,我们用PCA方法将这组二维数据其降到一维。 因为这个矩阵的每行已经是零均值,这里我们直接求协方差矩阵 C=15(-1-2-10002101 1-1020-20011 65454565 然后求其特征值和特征向量,具体求解方法不再详述,可以参考相关资料。求解后特征值为 A1=22=25 其对应的特征向量分别是 C1(11)c2(-11) 其中对应的特征向量分别是一个通解,C1和c2可取任意实数。那么标准化后的特征向量为: (121/2、)(-1/2√12√) 因此我们的矩阵P是 P=位2-12、1212√) 可以验证协方差矩阵C的对角化: PCPT=(12√-1212y12√)65454/565)12√12y-12√12y)=(2002/5) 最后我们用P的第一行乘以数据矩阵,就得到了降维后的表示 Y=(12y12y)(-1-2-10002101)=(-32-12y032-12y 降维投影结果如下图 进一步讨论 根据上面对PCA的数学原理的解释,我们可以了解到一些PCA的能力和限制。PCA本质上是将方差最大的方向作为主要 特征,并且在各个正交方向上将数据离相关",也就是让它们在不同正交方向上没有相关性。 因此,PCA也存在一些限制,例如它可以很好的解除线性相关,但是对于高阶相关性就没有办法了,对于存在高阶相关 性的数据,可以考虑 Kernel Pca,通过Keme函数将非线性相关转为线性相关,关于这点就不展开讨论了。另外,PCA 假设数据各主特征是分布在正交方向上,如果在非正交方向上存在几个方差较大的方向,PCA的效果就大打折扣了。 最后需要说明的是,PCA是一种无参数技术,也就是说面对同样的数据,如果不考虑清洗,谁来做结果都一样,没有主 观参数的介入,所以PCA便于通用实现,但是本身无法个性化的优化。 希望这篇文章能帮助朋友们了解PCA的数学理论基础和实现原理,借此了解PCA的适用场景和限制,从而更好的使用这 个算法。
(系统自动生成,下载前可以参看下载内容)

下载文件列表

相关说明

  • 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
  • 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度
  • 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
  • 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
  • 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
  • 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.
 相关搜索: PCA的数学原理
 输入关键字,在本站1000多万海量源码库中尽情搜索: