ActiveMQ java intellij idea下载 LeetCode Java程序员 npm drupal architecture routing sas ide vue插件 jq选择第一个子元素 jquery清除子元素 arduino程序 android逆向工程师 bentley软件介绍 mysql卸载工具 python解析json数据 python环境设置 python链接mysql数据库 python中set的用法 javalabel java基础入门 java数组添加 java课程学习 java学习平台 java字符串匹配 java八种基本数据类型 java系统学习 php实例代码 垃圾邮件数据集 金山wps2003 高效能人士的七个习惯pdf 网站数据分析工具 pr转场特效下载 方正兰亭字体下载 winterboard 脚本大全 3d软件下载
当前位置: 首页 > 学习教程  > 编程学习

Word2vec安装使用

2021/1/9 1:56:46 文章标签: word计算

下载C版本的word2vec 进入文件目录下后,会有一个makefile文件,有了它就可以编译啦 $ cd /home/yinglish/download/word2vec/trunk $ make 编译完后会生成一些新的文件。 接下来如果要使用word2vec自带的词典,则运行: $ ./dem…

下载C版本的word2vec

进入文件目录下后,会有一个makefile文件,有了它就可以编译啦

$ cd /home/yinglish/download/word2vec/trunk
$ make

编译完后会生成一些新的文件。
接下来如果要使用word2vec自带的词典,则运行:

$ ./demo-word.sh

它将会去下载数据text8(用空格隔开的英文单词,不包含标点符号,大概1600多万个单词)

如果想用自己的词典训练,则先把词典(我的叫test.txt,是已分词并去除标点符号的评论)放到该目录下,运行:

./word2vec -train test.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1

test.txt, vectors.bin分别是输入的训练数据和输出模型
不使用cbow, 默认使用skip-Gram
每个单词的向量维度为200
训练窗口大小为5(一个词语前后各取5个)
不使用NEG而使用HS
sample指采样阈值,如果一个词语在训练样本中出现的频率越大越会被采样
binary为1表示结果用二进制存储,为0表示普通存储(可以打开看到词语和对应向量)

训练完后就可以看到一个vectors.bin文件啦,这就是我们的训练数据中词语及其对应向量了。

那么如何使用Word2vec的功能呢?

比如说计算词语相似度:
我们可以在该目录下看到一个叫distance的菱形可执行文件,这是我们编译后产生的,运行它

$./distance vectors.bin
Enter word or sentence(EXIT to break):

如果我输入“林心如”,返回:

这里写图片描述


本文链接: http://www.dtmao.cc/news_show_1100129.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?