大数据 vue组件 wxRuby menu jquery通过class获取元素 linux环境变量生效 vim跳到文件末尾 linux管道符 json转object hadoop环境变量配置 mysqlinsert python抛出异常 python如何定义变量 java运行环境配置 java基础类型 怎么配置java环境 java方法 java连接sql数据库 linux密码忘记 网络电视软件下载 ** 摩尔斯电码翻译器 源计划卡特 主板排名天梯图 键盘模拟器 js延迟加载的方式 js轮播图代码 自动喊话器 skycc组合营销软件 千千静听老版本 p6软件 idea导出jar包 突袭时间表 widcomm 苹果手机怎么微信双开 西门子触摸屏编程软件 k3刷机 maya骨骼绑定教程 su镜像 h5支付接口
当前位置: 首页 > 学习教程  > 编程学习

python下【word2vec】实现两个词向量的相似度计算

2021/1/9 1:56:44 文章标签: word计算

词向量(word2vec) 是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。 要使用word2vec工具就我所知有两种方式,一种是从谷歌下载安装,需要使用linux环境;另一种是python中的ge…

词向量(word2vec)

是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
要使用word2vec工具就我所知有两种方式,一种是从谷歌下载安装,需要使用linux环境;另一种是python中的gensim库中就有word2vec工具。本文使用python下的word2vec方法。

利用word2vec实现计算两个词的相似度,需要利用python中的模块Gensim先进行语料训练,Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。

语料处理:
练语料的预处理指的是将文档中原始的字符文本转换成Gensim模型所能理解的稀疏向量的过程。Gensim的word2vec的输入是句子的序列. 每个句子是一个单词列表。 通常,我们要处理的原生语料是一堆文档的集合,每一篇文档又是一些原生字符的集合。在交给Gensim的模型训练之前,我们需要将这些原生字符解析成Gensim能处理的稀疏向量的格式。由于语言和应用的多样性,Gensim没有对预处理的接口做出任何强制性的限定。通常,我们需要先对原始的文本进行分词、去除停用词等操作,得到每一篇文档的特征列表。
如一篇文档由四个句子组成,那么输入形式为:


本文链接: http://www.dtmao.cc/news_show_1100126.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?