- 通过 HTTP请求 抓取目标内容
- 自定义规则下载 爆文
- 代码结构优化,支持并发与API调用
- 批量生成爆文
- 增加简洁的Web中控界面
- 增加小号池,实现批量抓取和发布
- 自定义评论区演戏规则
请确保使用 python >= 3.11
。
git clone https://github.com/Cloxl/xhs-profile-spider.git
pip install -r requirements.txt
在 xhs.py
和 test.py
中粘贴有效的 Cookies,确保正常访问。
在 xhs.py
中设置要爬取的用户 ID。
如需通过关键词搜索,修改 test.py
中的 Cookies。
配置完成后,运行以下命令:
- 爬取用户发帖数据:
python xhs.py
- 关键词搜索示例:
python test.py
- 确保 Cookies 和用户ID正确。
- 请遵守法律法规和平台政策。
目前并发需求不大,后续可能会加入并发优化。
目前的代码已足够满足个人需求,未来会考虑优化。
可以,通过修改参数 c
和 i
值,实现更多数据的抓取。
开源协议为 MIT
如果你遵循了以下条件:
- 保留 Copyright (c) 2024 Cloxl
那么你可以使用本项目进行以下操作:
- 复制
- 修改
- 分发
- 商用