WebMagic-Avalon项目的目标是打造一个可配置、可管理的爬虫,以及一个可分享配置/脚本的平台,从而减少熟悉的开发者的开发量,并且让不熟悉Java技术的人也能简单的使用一个爬虫。
目标:使得可以用简单脚本的方式编写爬虫,从而为一些常用场景提供可流通的脚本。 例如:我需要抓github的仓库数据,可以这样写一个脚本(javascript):
https://github.com/code4craft/webmagic/tree/master/webmagic-scripts
这个功能目前实现了一部分,但最终结果仍在实验阶段。欢迎大家积极参与并提出意见。
一个集成了加载脚本、管理爬虫的后台。计划中。
一个可以分享、搜索和下载脚本的站点。计划中。
webmagic目前由作者业余维护,仅仅为了分享和个人提高,没有任何盈利,也没有商业化打算。
欢迎以下几种形式的贡献:
- 为webmagic项目本身提出改进意见,可以通过邮件组、qq、oschina或者在github提交issue(推荐)的方式。
- 参与WebMagic-Avalon计划的建设讨论,包括产品设计、技术选型等,可以直接回复这个issue。
- 参与webmagic代码开发,请fork一份代码,修改后提交pull request给我。请使用尽量新的版本,并说明修改内容。pull request接受后,我会将你加为committer,共同参与开发。