使每一句中切出的词数最小);4)双向最大匹配法(将正向最大匹配方法和逆向最大匹配方法结合起来,进行由左到右、由右到左两次扫描,同词不管,优先去逆向)据统计新华字典现收录20959个汉字,52万个词语;而且随着互联网的发展
,互联网词汇、术语词汇、外语词汇等词汇量与日俱增;2018年底中文网站数量为523万,中文网页数量为2816亿,新增约200亿;所以采用字符串匹配的分词的前提是得先人工维护一个海量的词库,当然这是不太可能的
# |万达|是|世界领先|的|不动产|企业|、|世界领先|的|影视|企业|、|世界领先|的|体育|企业|、|世界领先|的|儿童|产业|企业|。
)) # 自定义字典后,jieba常规分词# jieba分词 : 万达集团|创立|于|1988|年|,|经过|30|年|发展|,|已|成为|以|现代服务业|为主|的|大型|跨国企业|集团|。
# |万达|是|世界领先|的|不动产|企业|、|世界领先|的|影视企业|、|世界领先|的|体育企业|、|世界领先|的|儿童|产业|企业|。