-
Notifications
You must be signed in to change notification settings - Fork 272
Home
Yuukiy edited this page Sep 10, 2023
·
10 revisions
- 我在使用一些其他刮削器的时候发现单一来源的数据部分字段不全,希望有一个刮削器能够汇总各个网站的数据。找了一圈没有找到,所以决定自己写一个
- 顺便作为练手的python项目
收集Github Star(逃)
- 汇总多个刮削器生成数据
- 多线程抓取
- 支持下载高清封面
- 努力保持多个站点的数据具有一致的分类名称(genre)
- 使用自动单元测试来跟踪网页爬虫是否因为网站改版而失效
此项目不需要捐赠。如果你觉得这个项目帮到了你,又或者你觉得尚有不足的地方需要改进,欢迎通过以下方式参与进来:
-
帮助撰写和改进Wiki
-
帮助完善单元测试数据
我希望这个项目能够拥有较长的一段生命,也希望能够及时发现数据来源站点变更导致的爬虫失效问题,所以在最开始就考虑了单元测试。但是由于精力的限制,目前只为爬虫和一部分核心功能准备了单元测试数据。 单元测试的脚本和数据在
unittest
文件夹下 -
帮助翻译genre
genre指影片分类。为了使抓取的影片数据在最终呈现时便于理解、保持多个站点具有一致的分类规则,对各个网站的影片分类进行了翻译。主要方式是机器翻译+人工校对+查找资料的形式。 如果你发现某些genre有更好的翻译,或者某个genre在不同的站点间的翻译不一致,欢迎帮忙进行修正
-
要不顺便点个Star?
-
改进了项目代码或者开发了新的功能?欢迎发Pull Request