分词算法的分类
基于字符串的匹配
- 即扫描字符串,如果发现字符串的字串和词相同,就算匹配
- 通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等
- 优点是速度快,但对歧义和未登录词处理不好
基于统计及机器学习的分词方式
- 基于人工标注的词性和统计特征进行建模,并通过模型计算分词概率
- 常见的序列标注模型有HMM和CRF
- 这类分词算法能很好处理歧义和未登录问题,效果比前一类效果好,但是需要大量的人工标注数据,分词速度也比较慢
基于字符串匹配的分词算法原理
- 以现有的词典为基础进行
- 最大匹配法:以设定的最大此长度为框架,取出其中最长的匹配词
- 例:“中华人民共和国”会被完整取出,而不会进一步被分词
- 最佳匹配法:按照词典中的频率高低,优先取高频词
- 最大概率法:最句子整体进行分词,找到最佳的词汇排列组合规律
- 例:早上好→早上/好
- 最短路径分词:寻找单词数最少的分词方式
分词的难点
- 分词歧义
- 我个人没意见
- 三个人没意见
- 未登录词识别: 郑成功
- 数字
- 实体名称/专业术语
- 成语
- 虚词,语气词