序
很早就想写写博客什么的记录巩固一下自己编写爬虫的经历,经验,总结等东西了。刚好最近有时间,顺带梳理下自己的知识体系。
正文
因为本人刚好是SNSD队长金泰妍的粉丝,所以,时不时地回去贴吧中扫荡一波她的美图。但是,一个一个帖子逛下来实在是太费事,就萌生了用爬虫来替代人工的想法。那么,什么是爬虫呢?
网络爬虫
网络爬虫(又被称为网页蜘蛛、网络机器人),是一种按照一定规则,自动地抓取万维网信息的程序或者脚本。
一些传统的搜索引擎,例如Google,Baidu,Bing等就是一种大型复杂的网络爬虫。
大纲
接下来会按照下面的顺序,来记录学习过程中的点点滴滴。
- python相关
- python简介
- 运行python
- python基本类型
- 基本语法
- re模块介绍
- python io
- requests模块介绍
- 进程和多线程以及协程
- 网络编程
- TCP通信
- UDP通信
- 总结
- Web相关知识
- 编写第一个爬虫
- 编写爬虫
- 抓取数据
- 保存数据
- 加快抓取速度
- 解析动态网页
- 表单交互
- 验证码交互
- 使用Scrapy框架
暂且只能想到这么点东西,后续再继续更新相关内容