对于毕业论文选题这个事情,我当时的想法很简单。一定要选一个看起来稍微复杂一点的论文,然后认真完成,并以此论文来为我的大学生活画上句号。所以思考良久,最终选了基于 Lucene 的全文搜索引擎作为毕设。
以至于在毕业答辩的前一个半月,答辩老师让我们提交答辩申请表的时候,我才想起来还有毕业论文和设计没准备这回事。
于是这就悲剧了,总共一个半月的时间,要留一周的时间进行论文查重和修改,同时答辩前一周还要提交论文最终版,所以真正留给我做毕业设计的时间只有一个月。
当时真是急死了,于是最后和公司申请在上班时间写毕业设计,好在公司答应了我的申请,就这样我用了一个月的完成了毕业论文和设计。
前面说了,我的毕业论文是关于全文搜索引擎的。
这类数据爬虫采集不了,这时候就需要人工参与了。怎样让人和爬虫协作,这也不是个简单问题。我们公司的爬虫参考了 Nutch 的设计思想,所以也为爬虫实现了一个插件机制,这样就解决了人和爬虫协作的问题。