分词工具
1.ansj_seg
github地址:https://github.com/NLPchina/ansj_seg
文档地址:http://nlpchina.github.io/ansj_seg/
分词速度快,目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能。
maven配置:
<dependency>
<groupId>org.ansj</groupId>
<artifactId>ansj_seg</artifactId>
<version>5.1.1</version>
</dependency>
使用方法:
String sentence ="从创立以来,拼多多瞄准三四五线城市及县城乡镇,通过“农村包围城市”的差异化策略,主打低价拼单模式,在阿里、京东的市场垄断中异军突起。";
Result parse = ToAnalysis.parse(sentence);
System.out.println(parse.getTerms().toString() );
//分词结果
[从/p, 创立/v, 以来/f, ,/w, 拼/v, 多多/d, 瞄准/v, 三四五线/m,
城市/n, 及/c, 县城/n, 乡镇/n, ,/w, 通过/p, “/w, 农村/n, 包围/v,
城市/n, ”/w, 的/uj, 差/a, 异化/v, 策略/n, ,/w, 主/n, 打/v, 低价/n,
拼/v, 单/d, 模式/n, ,/w, 在/p, 阿里/ns, 、/w, 京东/ns, 的/uj,
市场/n, 垄断/v, 中/f, 异军突起/i, 。/w]
2.hanLp
github地址:https://github.com/hankcs/HanLP
功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁
maven:
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.7</version>
</dependency>
使用方法:
String sentence ="从创立以来,拼多多瞄准三四五线城市及县城乡镇,通过“农村包围城市”的差异化策略,主打低价拼单模式,在阿里、京东的市场垄断中异军突起。";
List<Term> list = HanLP.segment(sentence);
System.out.println(list.toString() );
//分词结果
[从/p, 创立/v, 以来/f, ,/w, 拼/v, 多多/d, 瞄准/v, 三四五/m,
线/n, 城市/n, 及/c, 县城/n, 乡镇/n, ,/w, 通过/p, “/w,
农村/n, 包围/v, 城市/n, ”/w, 的/uj, 差异化/nz, 策略/n, ,/w,
主打/v, 低价/n, 拼单/nz, 模式/n, ,/w, 在/p, 阿里/nt, 、/w,
京东/ns, 的/uj, 市场/n, 垄断/v, 中/f, 异军突起/i, 。/w]
3.thulac4j
github地址:https://github.com/yizhiru/thulac4j
是THULAC的java实现. THULAC 提供的jar包只能通过命令行形式调用
maven:
<dependency>
<groupId>io.github.yizhiru</groupId>
<artifactId>thulac4j</artifactId>
<version>3.0.0</version>
</dependency>
使用方法:
String sentence ="从创立以来,拼多多瞄准三四五线城市及县城乡镇,通过“农村包围城市”的差异化策略,主打低价拼单模式,在阿里、京东的市场垄断中异军突起。";
POSTagger pos = new POSTagger("models/model_c_model.bin", "models/model_c_dat.bin");
List<SegItem> list = pos.tagging(sentence);
System.out.println(list.toString() );
//分词结果
[从/p, 创立/v, 以来/f, ,/w, 拼多/d, 多/d, 瞄准/v, 三四五/m,
线/q, 城市/n, 及/c, 县城/n, 乡镇/n, ,/w, 通过/p, “/w,
农村/n, 包围/v, 城市/n, ”/w, 的/u, 差异化/v, 策略/n, ,/w,
主打/n, 低价/n, 拼单/v, 模式/n, ,/w, 在/p, 阿里/ns, 、/w,
京东/ns, 的/u, 市场/n, 垄断/v, 中/f, 异军突起/i, 。/w]