jieba.dt.total下面通过「吴国忠臣伍子胥」这个例子来理解一下分词过程:python> print(.join(jieba.cut(吴国忠臣伍子胥)))吴国忠臣伍子胥显而易见,本次 Jieba
的分词是有问题的,为什么没有分词为「吴国忠臣」呢?
P(臣) > P(吴国) * P(忠臣)」,所以出现了错误的结果。
的词频:python> jieba.add_word(忠臣, 456)python> print(.join(jieba.cut(吴国忠臣伍子胥)))吴国忠臣伍子胥说明:456 是怎么来的?
举例说明:现在各大门户网站的头版头条永远都是某大大的丰功伟绩,所以可以推定某大大从 TF-IDF 的角度看没有太大的价值。TextRank 则和 PageRank 基本是一个路子:临近的词语互相打分。