从上面的图中可以看到,微博里主要有几种特殊格式:网页@用户名(包括转发路径上的其他用户名)表情符号(用表情符就知道是正向了)。
«»“”‘’])), re.IGNORECASE) text re.sub(URL_REGEX, , text) # 去除网址 text text.replace(转发微博, ) # 去除无意义的词语
史"In: clean(回复@钱旭明QXM: @钱旭明QXM:杨大哥)Out: 杨大哥In: clean(【#赵薇#:正筹备下一部电影 但不是青春片....http:t.cn8FLopdQ)Out: 【
#赵薇#:正筹备下一部电影 但不是青春片....In: clean(@芊如_GZ: @布丁clout : 哈哈 @audrey-panda :试了我家那位,说我属于"放心的没法看的" @芊如_GZ
:)Out: 哈哈 试了我家那位,说我属于"放心的没法看的"需要清洗数据的场景,除了微博以外,还有HTML代码,URL,Email等,所以我将一批常用的数据清洗操作整合进了我开发的HarvestText