该课题是由上海市农业委员会信息中心主持,以“致富农民、服务市民、提高行政管理效能”为目标,充分发挥大数据在农业农村发展中的重要功能和巨大潜力,重点建设上海市级农业农村大数据中心,促进信息资源的共建共享和创新应用
---facebook开源的词向量计算框架pinyin ---获取中文首字母小工具预训练好的词向量模型wiki.zh.bin(仅部署网站的话不需要下载) ---下载链接:http:s3-us-west
在官网下,wiki.zh.bin在亚马逊s3下载,其它均可直接用pip3 install 安装)农业实体识别+实体分类?
思路 图谱实体获取:1.根据19000条农业网词条,按照筛法提取名词(分批进行,每2000条1批,每批维护一个不可重集合)2.将9批词做交集,生成农业词典3.将词典中的词在互动百科中进行爬取,抛弃不存在的页面
页面分类分类器:KNN算法无需表示成向量,比较相似度即可K值通过网格搜索得到定义两个页面的相似度sim(p1,p2):title之间的词向量的余弦相似度(利用fasttext计算的词向量能够避免out