分词工具
作者 | fendouai
一.中文分词
分词服务接口列表
二.准确率评测:
THULAC:与代表性分词软件的性能对比
我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese word segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。
在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。
我们在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:
评测结果1
除了以上在标准测试集上的评测,我们也对各个分词工具在大数据上的速度进行了评测,结果如下:
CNKI_journal.txt(51 MB)
评测结果2
分词数据准备及评测由BosonNLP完成:11 款开放中文分词引擎大比拼(2015年发布)
分词的客观量化测试离不开标注数据,即人工所准备的分词“标准答案”。在数据源方面,我们将测试分为: 1.新闻数据:140篇,共30517词语; 2.微博数据:200篇,共12962词语; 3.汽车论坛数据(汽车之家)100篇:共27452词语; 4.餐饮点评数据(大众点评):100条,共8295词语。
准确度计算规则:
将所有标点符号去除,不做比较
参与测试的部分系统进行了实体识别,可能造成词语认定的不统一。我们将对应位置替换成了人工标注的结果,得到准确率估算的上界。
经过以上处理,用SIGHAN 分词评分脚本比较得到最终的准确率,召回率和F1值。
以上所有数据采用北大现代汉语基本加工规范对所有数据进行分词作为标准。具体数据下载地址请参见附录。通过这四类数据综合对比不同分词系统的分词准确度。
不同分词系统的分词准确度对比
三.付费价格:
阿里云:
阿里云付费价格
腾讯云:
腾讯云付费价格
玻森中文
免费额度:
玻森中文免费额度
付费价格:
玻森中文付费价格
四.官网
开源工具
HanLP:
https://github.com/hankcs/HanLP
结巴分词:
https://github.com/fxsjy/jieba
盘古分词:
http://pangusegment.codeplex.com/
庖丁解牛:
https://code.Google.com/p/paoding/
SCWS中文分词:
http://www.xunsearch.com/scws/docs.php
高校工具
FudanNLP:
https://github.com/FudanNLP/fnlp
LTP:
http://www.ltp-cloud.com/document
THULAC:
http://thulac.thunlp.org/
NLPIR:
http://ictclas.nlpir.org/docs
商业服务
BosonNLP:
http://bosonnlp.com/dev/center
百度NLP:
https://cloud.baidu.com/doc/NLP/NLP-API.html
搜狗分词:
http://www.sogou.com/labs/webservice/
腾讯文智:
https://cloud.tencent.com/document/product/271/2071
腾讯价格单:
https://cloud.tencent.com/document/product/271/1140
阿里云NLP:
https://data.aliyun.com/product/nlp
新浪云:
http://www.sinacloud.com/doc/sae/Python/segment.html
测试数据集
1、SIGHANBakeoff 2005 MSR, 560KB
http://sighan.cs.uchicago.edu/bakeoff2005/
2、SIGHANBakeoff 2005 PKU, 510KB
http://sighan.cs.uchicago.edu/bakeoff2005/
3、人民日报 2014,65MB
https://pan.baidu.com/s/1hq3KKXe
前两个数据集是SIGHAN于2005年组织的中文分词比赛所用的数据集,也是学术界测试分词工具的标准数据集,本文用于测试各大分词工具的准确性,而最后一个数据集规模较大,用于测试分词速度。
磐创AI:http://www.panchuangai.com/
TensorFlowNews:http://www.tensorflownews.com/
相关阅读
说明 此项目需要的数据: 综合类中文词库.xlsx: 包含了中文词,当做词典来用 以变量的方式提供了部分unigram概率 word_prob 举个例子
1.ansj_seg github地址:https://github.com/NLPchina/ansj_seg 文档地址:http://nlpchina.github.io/ansj_seg/ 分词速度快,目前实现