properties gps post merge swiftui jvm Notify.js vue教程 python数据挖掘实战pdf grep不是内部命令 java清空数组 windows杀进程命令 idea全文搜索快捷键 ln函数图像 vue与html5 destoon模板 python3删除文件 python的def python输出中文 java集合转数组 java的map java声明变量 linux中sudo xp系统修复 怪物猎人ol捏脸数据 微信砍价活动怎么做 gg修改器下载 正则表达式数字 光标变粗 excel乘积 vue数组更新 cdr调和工具怎么用 ps原位粘贴 安卓开发软件 js代码压缩 fs2you怎么下载 kms激活 appdata是什么 统计分析与spss的应用 元素师刷图加点
当前位置: 首页 > 学习教程  > 编程学习

利用word分词来对文本进行词频统计

2021/1/9 1:56:41 文章标签: word计算

2019独角兽企业重金招聘Python工程师标准>>> 利用word分词来对文本进行词频统计 博客分类: 算法 分词器 word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能 命令行脚本的调用方法如下: ? 1 2 3 将需要统计词…

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

利用word分词来对文本进行词频统计 博客分类: 算法 分词器  

word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能

命令行脚本的调用方法如下:

?
1
2
3
将需要统计词频的文本写入文件:text.txt
chmod +x wfs.sh & wfs.sh -textFile=text.txt -statisticsResultFile=statistics-result.txt
程序运行结束后打开文件statistics-result.txt查看词频统计结果

 

在程序中的调用方法如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
//词频统计设置
WordFrequencyStatistics wordFrequencyStatistics =  new  WordFrequencyStatistics();
wordFrequencyStatistics.setRemoveStopWord( false );
wordFrequencyStatistics.setResultPath( "word-frequency-statistics.txt" );
wordFrequencyStatistics.setSegmentationAlgorithm(SegmentationAlgorithm.MaxNgramScore);
//开始分词
wordFrequencyStatistics.seg( "明天下雨,结合成分子,明天有关于分子和原子的课程,下雨了也要去听课" );
//输出词频统计结果
wordFrequencyStatistics.dump();
//准备文件
Files.write(Paths.get( "text-to-seg.txt" ), Arrays.asList( "word分词是一个Java实现的分布式中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。" ));
//清除之前的统计结果
wordFrequencyStatistics.reset();
//对文件进行分词
wordFrequencyStatistics.seg( new  File( "text-to-seg.txt" ),  new  File( "text-seg-result.txt" ));
//输出词频统计结果
wordFrequencyStatistics.dump( "file-seg-statistics-result.txt" );

 

第一句话的词频统计结果:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1 、下雨  2
2 、明天  2
3 、分子  2
4 、课程  1
5 、听课  1
6 、结合  1
7 、原子  1
8 、去  1
9 、成  1
10 、关于  1
11 、和  1
12 、也要  1
13 、有  1
14 、的  1
15 、了  1

 

第二句话的词频统计结果:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
1 、分词  2
2 、的  2
3 、基于  1
4 、word  1
5 、组件  1
6 、词典  1
7 、ngram  1
8 、多种  1
9 、实现  1
10 、并  1
11 、利用  1
12 、消除歧义  1
13 、中文分词  1
14 、算法  1
15 、是  1
16 、分布式  1
17 、了  1
18 、提供  1
19 、模型  1
20 、来  1
21 、一个  1
22 、Java  1

 

http://my.oschina.net/apdplat/blog/417641

 

转载于:https://my.oschina.net/xiaominmin/blog/1597354


本文链接: http://www.dtmao.cc/news_show_1100122.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?