分词原理

分词算法的分类

基于字符串的匹配

  • 即扫描字符串,如果发现字符串的字串和词相同,就算匹配
  • 通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等
  • 优点是速度快,但对歧义和未登录词处理不好

基于统计及机器学习的分词方式

  • 基于人工标注的词性和统计特征进行建模,并通过模型计算分词概率
  • 常见的序列标注模型有HMM和CRF
  • 这类分词算法能很好处理歧义和未登录问题,效果比前一类效果好,但是需要大量的人工标注数据,分词速度也比较慢

基于字符串匹配的分词算法原理

  • 以现有的词典为基础进行
  • 最大匹配法:以设定的最大此长度为框架,取出其中最长的匹配词
    • 例:“中华人民共和国”会被完整取出,而不会进一步被分词
    • 最佳匹配法:按照词典中的频率高低,优先取高频词
  • 最大概率法:最句子整体进行分词,找到最佳的词汇排列组合规律
    • 例:早上好→早上/好
  • 最短路径分词:寻找单词数最少的分词方式

分词的难点

  • 分词歧义
    • 我个人没意见
    • 三个人没意见
  • 未登录词识别: 郑成功
    • 数字
    • 实体名称/专业术语
    • 成语
    • 虚词,语气词