参考使用网站:https:www.cnblogs.comqilin20p12253067.htmlimport jieba content 韩国东大门单鞋女方头绒面一脚蹬韩版休闲2020春季新款平底毛毛鞋
jieba.cut(content)print(自定义后:,,.join(result))训练词库以后,对固定字段能准确识别自定义前: 韩国,东大门,单鞋,女方,头,绒面,一脚蹬,韩版,休闲,2020,春季
,新款,平底,毛毛鞋自定义后: 韩国,东大门,单鞋,女方头,绒面,一脚蹬,韩版,休闲,2020,春季,新款,平底,毛毛鞋训练完成以后,对每个地址进行分词。
1、匹配顺序为:省->市->县(区)->镇(街道)->城乡2、分词以后是一个list类型,为避免重复匹配,对已经识别到的分词进行抛弃。采用搜索引擎模式分词,可防止街道信息识别不完整#!
3、设定默认省、市、区,如果未找到匹配入口,从默认查找入口进入。对省、市均未能有匹配才选择默认查找入口,因为不些省份直接使用市级的情况也挺多。需要分析一下,市级有没有重名。