一个基于 Egg (Koa2) 开发的职位爬虫
拉勾 Lagou | Boss 直聘 |
---|---|
✔ | ✔ |
- 基础爬取功能
- 地图展示
- 屏蔽职位,数据本地保存
- 收藏职位,高亮显示
- 根据薪资、工作经验筛选职位,显示职位数量
- 添加离家范围覆盖层,覆盖层数据本地保存
- 职位点数据聚合
- 定时任务
- 数据库字段文档
- 后台数据列表
- 爬虫进度
- 配置文件
- 其他招聘网站
- 单元测试
- 代码部署
- JSDoc
- APIDoc
- 优化代码
Node.js
版本大于 8.11.x
,建议使用 Yarn
执行 yarn dev
-
如何使用爬虫程序
- 启动应用
- 抓取 Boss 直聘微信小程序任意接口 Session( Boss 直聘需要 Session )
- 进入
/monitor
输入 Session 点击开始
原因:Boss 直聘官网仅有十页且反爬程序稍微复杂需要用到代理池,故先采用小程序接口优化体验
-
如何查找其他职位和其他城市信息
在
app/schedule/lagou.js
中修改相关字段,如成都
或web前端
-
如何配置数据库
本项目默认使用
MongoDB
存储,需要在config
目录下建立secret_config.js
文件,并输入如下数据,如有其他适配(如数据库验证)还需修改app/service/mongodb.js
的内容module.exports = { cookieKeyStr: "cookieKeyStr", // Cookie 密钥 database: { url: "mongodb://mongo:27017", // MongoDB 数据库链接地址 baseName: "job", // MongoDB Collection 名称 auth: { // 认证相关 authSource: "admin", user: "user", password: "password", }, }, };
-
API 来源
拉勾 Boss 直聘 WeChat Mini Program WeChat Mini Program
MIT