基于CRFs的中文分词系统:Chinese Segmentor
Chinese Segmentor是什么?
Chinese Segmentor基于CRFs的中文分词系统,使用sgd训练,速度快,并且支持Online learning和Incremental learning,同时可以使用hadoop实现并行训练
Chinese Segmentor有哪些特性?
-
训练速度快
-
支持大规模数据的训练
-
N-best输出
-
可视化展示切分(解码)过程
安装
安装依赖的DoubleArrayTrie
安装
- 下载最新代码
- mvn clean compile assembly:single
用法
查看帮助
java -cp target/chinesesegmentor-1.0-jar-with-dependencies.jar com.antbrains.crf.SgdCrfUsage: SgdCrf help SgdCrf train [encoding] SgdCrf train2 [encoding] SgdCrf hdfs-train [encoding] [hdfsconf1] [hdfsconf2] ... SgdCrf test [encoding] SgdCrf tag [nBest] [encoding]
训练数据格式
目前支持两种格式的训练数据:CRF++格式的数据;tab分割的数据。
人民日报的数据已经被处理成合适的格式了,使用了6标签:B E S B1 B2 M,即单字词为S,两字词为B E,三字词为B B1 E,四字词为 B B1 B2 E,五字词为B B1 B2 M E,... 本文由用户 jopen 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
转载本站原创文章,请注明出处,并保留原始链接、图片水印。
本站是一个以用户分享为主的开源技术平台,欢迎各类分享!