分词的基本原理现代分词都是基于统计的分词,而统计的样本内容来自于一些标准的语料库。假如有一个句子:“小明来到荔湾区”,我们期望语料库统计后分词的结果是:小明来到荔湾区,而不是“小明来到荔湾区”。
从统计的角度,我们期望小明来到荔湾区这个分词后句子出现的概率要比“小明来到荔湾区”大。如果用数学的语言来说说,如果有一个句子S,它有m种分词选项如下:?其中下标ni代表第i种分词的词个数。
利用语料库建立的统计概率,对于一个新的句子,我们就可以通过计算各种分词方法对应的联合分布概率,找到最大概率对应的分词方法,即为最优分词。
以此类推,我们可以建立四元模型,五元模型,...一直到通用的N元模型。越往后,概率分布的计算复杂度越高。当然算法的原理是类似的。
宗成庆《统计自然语言处理》2. http:www.cnblogs.compinardp6677078.html3. 李航 《统计学习方法》