按照已经规范化的数据库表来对抽取程序进行改进并进行测试,主要实现两个目的:1.使抽取的页面元素更加全面,增加了之前抽取中遗漏的字段,2.有一些社区的网页结构有更新,使得先前的页面元素抽取规则失效,导致抽取不到内容,现在对抽取规则进行改进,使其适应最新的页面结构。主要更改的有:dao中的字段名,使其与数据库表一致;model中的各变量抽取规则,检测其是否能成功抽取;补齐变量的set和get方法。项目社区的规范改进在之前的已经完成,这次主要是针对知识共享社区,有:
51cto_blog
cnblog_news
codeproject
csdn_question
csdn_bbs
csdn_blogs
dewen_question
lagou
neitui
slashdot
stackoverflow
oschina_question
cnblog_question
遇到的问题:cnblog_question 社区中的view_num 和oschina_question 中的reply_num和view_num等元素为动态加载,抽取不到。