1.Web数据具体指的是什么,为什么要对Web数据进行抽取?
2.课题研究的是面向开源社区的数据抽取技术,与面向其他领域的数据抽取相比主要区别在哪里,需要对它们加以对比和说明。
3.为什么要实现Web数据的自动化抽取?这里的自动化主要体现在哪里,具体通过什么方法实现?
4.当待抽取的开源站点页面结构发生变化时,该抽取系统能否做到快速的学习并调整抽取规则,抽取规则的学习过程是监督的还是非监督的?
5.该Web数据抽取系统的性能要求之一是抽取准确性强,达到怎样的程度才算实现了这一指标,应该给出一个量化的数据指标进行衡量。
6.研究内容中有对抽取数据的完整性进行验证,这里的数据完整性指的是?自己可以对数据的完整性进行定义,但是一定要解释清楚。
7.研究课题的题目:由《面向开源软件领域的Web信息自动抽取技术研究与实现》改为《面向开源社区的Web数据自动抽取技术研究与实现》。
8.开题报告中的参考文献引用的不是太好,文献普遍偏老,近两年的较少,需要多引用近两年的参考文献,关注该研究领域最新的发展和相关工作。