crawl-xiaohongshu/README.md at master · this-is-spider/crawl-xiaohongshu · GitHub

用selenium伪装真实浏览器爬取小红书的文章。大概怕了一两百条这个脚本就会崩溃，至于问题也没有找到，因为转战用scrapy框架了。

数据库请连接你自己的，记得修改。

代理池也请用自己的，没有的话可以用freeProxy项目里的爬取一个下来。然后装进去用。

为什么不用PhantomJS？
因为谷歌已经出了自己的无头浏览器，只需要给他加一个headless参数就可以了。不过我使用之后，一条数据都爬取不到，不知道是什么被检测到了，毕竟一个真实的浏览器需要用到的参数可不少。

这是一个沿着一个连接递归爬取下去的爬虫，超过几层可能就会爬取与你想要的数据不相关的数据，所以可以自己添加层数，也挺简单的。这是深度优先遍历。想要广度优先，可以尝试把第一层爬取的链接都添加到一个数组当中去。

延迟爬取直接用的是time.sleep，可以对其修改成隐式等待，或者显示等待。