nlp自然语言处理基于SVD的降维优化方法

这篇文章主要介绍“nlp自然语言处理基于SVD的降维优化方法”，在日常操作中，相信很多人在nlp自然语言处理基于SVD的降维优化方法问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”nlp自然语言处理基于SVD的降维优化方法”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！向量降维：尽量保留数据“重要信息”的基础上减少向量维度。可以发现重要的轴（数据分布广的轴），将二维数据表示为一维数据，用新轴上的投影值来表示各个数据点的值，示意图如下。稀疏矩阵和密集矩阵转换：大多数元素为0的矩阵称为稀疏矩阵，从稀疏矩阵中找出重要的轴，用更少的维度对其进行重新表示。结果，稀疏矩阵就会被转化为大多数元素均不为0的密集矩阵。这个密集矩阵就是我们想要的单词的分布式表示。奇异值分解(Singular Value Decomposition，SVD)：任意的矩阵X分解为U、S、V，3个矩阵的乘积，其中U和V是列向量彼此正交的正交矩阵，S是除了对角线元素以外其余元素均为0的对角矩阵。关于SVD是怎么回事，从代码中分析：代码中使用 NumPy 的 linalg 模块中的 svd 方法，如下。我们输出免费云主机域名C、W、U、S、V，如下所示，可以看出，C是共现矩阵、W是PPMI矩阵。可以看到S矩阵是降序排列的。下面研究U、S、V矩阵究竟是什么，添加如下代码。输出如下，那就可以把U和V的性质给搞懂了。从jb = np.dot(V, V2)，输出jb矩阵是单位矩阵，可知，V和U是正交矩阵。jym = np.dot(V, U)，输出jym主对角线元素全为0。U和V是列向量彼此正交的，公式里面把V转置了也就是说，U的列向量和代码里的V的行向量是正交的，所以用V乘U，他们的对角元是0。U是正交矩阵。这个正交矩阵构成了一些空间中的基轴（基向量），可以将矩阵U作为“单词空间”。 S是对角矩阵，奇异值在对角线上降序排列，奇异值的大小也就意味着“对应的基轴”的重要性。奇异值小，对应基轴重要性就小，所以可以通过去除U矩阵中的多余的列向量来近似原始矩阵。从而把单词向量用降维后的矩阵表示。示意图如下。稀疏向量W经过 SVD 被转化成了密集向量U。如果要对这个密集向量降维，比如把它降维到二维向量，取出U的前两个元素即可。输出的U：用二维向量表示各个单词，并把它们画在图上，画出的图如下：goodbye 和 hello、you 和 i 位置接近，这个结果复合之前做的基于余弦相似度的结果。到此，关于“nlp自然语言处理基于SVD的降维优化方法”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注百云主机网站，小编会继续努力为大家带来更多实用的文章！

相关推荐: SSM框架配置文件是什么

这篇文章主要介绍“SSM框架配置文件是什么”，在日常操作中，相信很多人在SSM框架配置文件是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”SSM框架配置文件是什么”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！Mybati…

免责声明：本站发布的图片视频文字，以转载和分享为主，文章观点不代表本站立场，本站不承担相关法律责任；如果涉及侵权请联系邮箱：360163164@qq.com举报，并提供相关证据，经查实将立刻删除涉嫌侵权内容。