必威体育Betway必威体育官网
当前位置:首页 > IT技术

中文分词工具

时间:2019-07-30 02:42:10来源:IT技术作者:seo实验室小编阅读:50次「手机版」
 

分词工具

1.ansj_seg

github地址:https://github.com/NLPchina/ansj_seg

文档地址:http://nlpchina.github.io/ansj_seg/

分词速度快,目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能。

maven配置:

        <dependency>
            <groupId>org.ansj</groupId>
            <artifactId>ansj_seg</artifactId>
            <version>5.1.1</version>
        </dependency>

使用方法:

 String sentence ="从创立以来,拼多多瞄准三四五线城市及县城乡镇,通过“农村包围城市”的差异化策略,主打低价拼单模式,在阿里京东的市场垄断中异军突起。";
  Result parse =  ToAnalysis.parse(sentence);
  System.out.println(parse.getTerms().toString() );
//分词结果
[从/p, 创立/v, 以来/f, ,/w, 拼/v, 多多/d, 瞄准/v, 三四五线/m, 
城市/n, 及/c, 县城/n, 乡镇/n, ,/w, 通过/p, “/w, 农村/n, 包围/v, 
城市/n, ”/w, 的/uj, 差/a, 异化/v, 策略/n, ,/w, 主/n, 打/v, 低价/n,
 拼/v, 单/d, 模式/n, ,/w, 在/p, 阿里/ns, 、/w, 京东/ns, 的/uj,
 市场/n, 垄断/v, 中/f, 异军突起/i, 。/w]

2.hanLp

github地址:https://github.com/hankcs/HanLP

功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁

maven:

<dependency>
    <groupId>com.hankcs</groupId>
    <artifactId>hanlp</artifactId>
    <version>portable-1.6.7</version>
</dependency>

使用方法:

 String sentence ="从创立以来,拼多多瞄准三四五线城市及县城乡镇,通过“农村包围城市”的差异化策略,主打低价拼单模式,在阿里、京东的市场垄断中异军突起。";
 List<Term> list = HanLP.segment(sentence);
 System.out.println(list.toString() );

//分词结果
[从/p, 创立/v, 以来/f, ,/w, 拼/v, 多多/d, 瞄准/v, 三四五/m, 
线/n, 城市/n, 及/c, 县城/n, 乡镇/n, ,/w, 通过/p, “/w, 
农村/n, 包围/v, 城市/n, ”/w, 的/uj, 差异化/nz, 策略/n, ,/w, 
主打/v, 低价/n, 拼单/nz, 模式/n, ,/w, 在/p, 阿里/nt, 、/w, 
京东/ns, 的/uj, 市场/n, 垄断/v, 中/f, 异军突起/i, 。/w]

3.thulac4j

github地址:https://github.com/yizhiru/thulac4j

是THULAC的java实现. THULAC 提供的jar包只能通过命令行形式调用

maven:

<dependency>
  <groupId>io.github.yizhiru</groupId>
  <artifactId>thulac4j</artifactId>
  <version>3.0.0</version>
</dependency>

使用方法:

String sentence ="从创立以来,拼多多瞄准三四五线城市及县城乡镇,通过“农村包围城市”的差异化策略,主打低价拼单模式,在阿里、京东的市场垄断中异军突起。";
POSTagger pos = new POSTagger("models/model_c_model.bin", "models/model_c_dat.bin");
List<SegItem> list = pos.tagging(sentence);
System.out.println(list.toString() );

//分词结果
[从/p, 创立/v, 以来/f, ,/w, 拼多/d, 多/d, 瞄准/v, 三四五/m,
 线/q, 城市/n, 及/c, 县城/n, 乡镇/n, ,/w, 通过/p, “/w,
 农村/n, 包围/v, 城市/n, ”/w, 的/u, 差异化/v, 策略/n, ,/w, 
主打/n, 低价/n, 拼单/v, 模式/n, ,/w, 在/p, 阿里/ns, 、/w, 
京东/ns, 的/u, 市场/n, 垄断/v, 中/f, 异军突起/i, 。/w]

相关阅读

分享到:

栏目导航

推荐阅读

热门阅读