Java爬虫
本项目是java版的爬虫,集成了webMagic、you-get。最大的亮点是编写了一个蜘蛛爬虫,配合lucene,你可以自己实现一个类似百度搜索的功能。
很久之前我的短视频网站就有使用爬虫,可以将bilibili的视频直接爬到我的网站,当时使用的python,搞了个歪招集成在Java项目里。之后我的博客项目也使用了爬虫,在写博客的页面那里。 初衷是方便我把csdn和博客园的博客导入到我的博客里,就使用 webmagic 框架写了三个爬虫,分别针对csdn、博客园、微信公众号。最后就想把这些爬虫集合在一起,就成了现在这样。
🌷你可以发起 Issue 或者 在爬虫网站反馈
MIT