GitHub - d68fbe50/JavlibraryCrawler: 爬取Javlibrary演员的作品数据

🖥️ Javlibrary 爬虫

🌟 介绍

🎥 Javlibrary 爬虫 是一个利用 Scrapy 框架创建的项目，目的是从 JavLibrary 网站中抓取日本成人视频的资料。从这个项目里，你可以获得如演员信息、作品详细、评分、评论数、导演、制片商和标签等数据。

🗄️ 数据库结构

Table movies {
  id integer [primary key, increment]
  serial_number varchar(255) [unique]
  title text
  actor_id text
  release_date date
  comments integer
  reviews integer
  preview text
  link text
  maker varchar(255)
  length integer
  director varchar(255)
  label varchar(255)
  user_rating float
  genres text
  cast text
  magnet_link text
  online_missav text
}
Table actors{
  actor_id text
  actor_name text
}
Ref: movies.actor_id > actors.actor_id
Ref: movies.cast > actors.actor_name

🛠️ 使用方法

🔧 确保你已安装必要的依赖，例如 Scrapy 和 pymysql。 🌐 使用科学上网，面对403错误时可以尝试切换到韩国或台湾的代理节点。 ❌ 请不在 GitHub Actions 中设置任务，因为 JavLibrary 有封锁 GitHub IP 的措施。 🌹 在项目根目录，新建一个python环境

python3 -m venv env
source env/bin/activate
pip install -r requirements.txt

如果你使用的是pycharm，别忘记修改python的解释器为本地的env。

✏️ 修改 config.arguments 文件，按需配置。

填入想要爬取的演员 ID。例如 https://www.javlibrary.com/cn/vl_star.php?list&mode=&s=ae5q6&page=1 的 ae5q6。
reference 提供了演员数据的 json 格式供参考。
通过 magnet_file = [2, 10] 来调整磁力链的大小区间。 📂 根据需要选择数据库类型并修改 javlibrary_crawer.settings.ITEM_PIPELINES 以及相关的数据库配置。

执行下列命令：

python main.py

然后是 FastApi 的部分：

cd api
python fast.py

🎉 爬取的数据会储存到你配置的数据库中！

⚠️ 注意事项

🚫 确保你有合法权利访问目标网站。 🐢 过于频繁的爬取可能导致 IP 被封，建议在 settings.py 中适当设置延迟。 📜 遵守网站的 robots.txt 及相关法律法规。

🤝 贡献

🙌 欢迎你的提问和合作，一起让这个项目变得更好！

📜 许可证

这个项目采用 MIT 许可证。详情请查看 LICENSE 文件。

希望这篇 README 可以帮到你！如有任何问题或建议，都可以告诉我哦！🙋‍♂️

📖 参考文献

Torrent

https://onejav.com/

Name		Name	Last commit message	Last commit date
Latest commit History 82 Commits
.github/workflows		.github/workflows
api		api
config		config
dash_app		dash_app
dbop		dbop
gui		gui
javlibrary_crawler		javlibrary_crawler
preview_download		preview_download
reference		reference
test		test
utils		utils
.gitignore		.gitignore
ChangeLog.md		ChangeLog.md
LICENSE		LICENSE
README.md		README.md
SpendingAnalyze.md		SpendingAnalyze.md
index.html		index.html
main.py		main.py
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🖥️ Javlibrary 爬虫

🌟 介绍

🗄️ 数据库结构

🛠️ 使用方法

⚠️ 注意事项

🤝 贡献

📜 许可证

📖 参考文献

🌠 星级历史

About

Releases

Packages

Languages

License

d68fbe50/JavlibraryCrawler

Folders and files

Latest commit

History

Repository files navigation

🖥️ Javlibrary 爬虫

🌟 介绍

🗄️ 数据库结构

🛠️ 使用方法

⚠️ 注意事项

🤝 贡献

📜 许可证

📖 参考文献

🌠 星级历史

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages