Skip to content
This repository has been archived by the owner on Mar 29, 2018. It is now read-only.

time-river/my-spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

29 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

My Spider

距离最后一次写的爬虫已有一年有余,看看上一版本的 README.md ,忍不住笑。

当初只是为了学 Python 才入门了爬虫,最后倒也接触了不少网络、多进程/线程,甚至操作系统方面的知识,持续了将近一学期吧。

回首,啥也不懂,为了实现某一想法往往撞得头破血流,在网上那堆“垃圾”中苦苦寻觅,堪堪完成那时比较满意、如今不忍直视的作品。

而今,系统化地学习《操作系统》、《数据通信与网络》、《数据库原理》之后,外加正在学的《编译原理》,让当初那些想法的实现可以变得如此优雅。尽管 Python 的语法早已忘记,xml / Scrapy 库的使用更不用说了,但我有信心使用任意一种语言来写个比较高级点的爬虫也不过半天的功夫~

那年的记忆 & 我的第一课:

  • HTTP 的 GET / POST
  • Regex / Xpath / CSS Selector
  • 模拟登录
  • Ajax
  • 验证码识别
  • 使用代理
  • Bloom Filter
  • 多线程 / 多进程
  • 后台进程
  • IPC(inter-process communication)
  • Redis
  • Master / Slaver

timeline -- 2017/03/15

众里寻他千百度,蓦然回首,那人却在,灯火阑珊处。

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages