Skip to content

HOPPINZQ/java-spider-crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

31 Commits
 
 
 
 
 
 

Repository files navigation

Java爬虫


🎤介绍

本项目是java版的爬虫,集成了webMagic、you-get。最大的亮点是编写了一个蜘蛛爬虫,配合lucene,你可以自己实现一个类似百度搜索的功能。

👉 演示网站点我
👉 文档点我

💡灵感

很久之前我的短视频网站就有使用爬虫,可以将bilibili的视频直接爬到我的网站,当时使用的python,搞了个歪招集成在Java项目里。之后我的博客项目也使用了爬虫,在写博客的页面那里。 初衷是方便我把csdn和博客园的博客导入到我的博客里,就使用 webmagic 框架写了三个爬虫,分别针对csdn、博客园、微信公众号。最后就想把这些爬虫集合在一起,就成了现在这样。

📗文档

✏️我的博客

📷截图

💦类似于百度搜索的实现,案例已经抓取了足够的链接供测试

快来试试吧

🌳特性

快来试试吧

▶️CSDN爬虫,可将指定的CSDN博客链接下的博客爬取出来内容

快来试试吧

㊙️东方project

快来试试吧

🆙bilibili 亁杯🍺

快来试试吧

📁爬虫配置

快来试试吧

🎬反馈

🌷你可以发起 Issue 或者 在爬虫网站反馈

😘感谢

webMagic

📄License

MIT

About

可以做一个自己的百度!!!在线访问http://150.158.28.40:8806/index.html

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published