分词原理

Veröffentlicht am 2018-07-17

分词算法的分类

基于字符串的匹配

即扫描字符串，如果发现字符串的字串和词相同，就算匹配
通常会加入一些启发式规则，比如“正向/反向最大匹配”，“长词优先”等
优点是速度快，但对歧义和未登录词处理不好

基于统计及机器学习的分词方式

基于人工标注的词性和统计特征进行建模，并通过模型计算分词概率
常见的序列标注模型有HMM和CRF
这类分词算法能很好处理歧义和未登录问题，效果比前一类效果好，但是需要大量的人工标注数据，分词速度也比较慢

基于字符串匹配的分词算法原理

以现有的词典为基础进行
最大匹配法：以设定的最大此长度为框架，取出其中最长的匹配词
- 例：“中华人民共和国”会被完整取出，而不会进一步被分词
- 最佳匹配法：按照词典中的频率高低，优先取高频词
最大概率法：最句子整体进行分词，找到最佳的词汇排列组合规律
- 例：早上好→早上/好
最短路径分词：寻找单词数最少的分词方式

分词的难点

分词歧义
- 我个人没意见
- 三个人没意见
未登录词识别：郑成功
- 数字
- 实体名称/专业术语
- 成语
- 虚词，语气词