现在的网站千奇百怪,什么样格式的都有,需要提取网页中的列表数据,有时候挨个分析处理很头疼,本文是一个页面结构分析的程序,可以分析处理页面大致列表结构。
KeysEnum.message, e.toString());
89 }
90 return result;
91 }
92
93 /**
94 * 处理网页结构
return getWebSiteFrame(home_url, list_index, is_subitem, false);
103 }
104
105 /**
106 * 处理网页结构
return getWebSiteFrame(home_url, list_index, false);
114 }
115
116 /**
117 * 处理网页结构
分析结果统计:
处理了将近1万的网站发现,大致的网页列表结构可以发现,平时时间大致在2-3s左右,因为用的是jsoup访问的网页,包含了网页响应的时间,时间复杂度待优化,
分析结果对于一些比较复杂乱的网页支持有待加强