解决的近义词
目前很缺乏质量好的中文近义词库,于是便考虑使用 word2vec 训练一个高质量的同义词库将“非标准表述”映射到“标准表述”,这就是 Synonyms 的起源。在经典的信息检索系统中,相似度的计算是基于匹配的,而且是 Query 经过分词后与文档库的严格的匹配,这种就缺少了利用词汇之间的“关系”。而 word2vec 使用大量数据,利用上下文信息进行训练,将词汇映射到低维空间,产生了这种“关系”,这种“关系”是基于距离的,有了这种“关系”,就可以进一步利用词汇之间的距离进行检索。所以,在算法层面上,检索更是基于了“距离”而非“匹配”,基于“语义”而非“形式”。
本话题将分享 Github 开源项目 - Synonyms 中文近义词工具包,主要内容如下:
- 应用场景
- 现有的近义词包
- N-gram 模型介绍
- word2vec 原理
- 使用的开放数据集
- 训练过程
- 计算句子相似度公式
- 待改进的地方
阅读全文: http://gitbook.cn/gitchat/activity/5a563545a8b23d387720ccd5
您还可以下载 CSDN 旗下精品原创内容社区 GitChat APP ,阅读更多 GitChat 专享技术内容哦。
相关阅读
全景摄影的过程就是一部与大光比做斗争的史诗大片,因为总有一个角度会拍到光源,这对新手们非常头痛。如何解决大光比?如何
淘宝作为中国最大的网购平台,其衍生出来的灰色产业链是极其多的,其中要属淘宝刷单最多了。存在即合理,为什么会有淘宝刷单兼职行业应
文章目录导读乐观锁CAS 原理ABA问题库表改造代码改造RedPacketDao新增接口方法及Mapper映射文件UserRedPacketServic接口及实现类
要说最近怎么最火,那肯定是支付宝专享红包无疑,这是支付宝推出的新年福利,基本上手机里装有支付宝的用户都在加入到这个活动中来,可见
百度站长平台发布消息称,百度将严厉打击搜索结果页自动调起支付宝红包的现象,具体消息如下:近期,百度搜索技术团队发现在部分搜索结果