常用的Python爬虫技巧有哪些

2021年03月27日 10:20:51

Python应用较多的场景还是Web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。
1、基本抓取网页
get方法与post方法
2、使用代理IP
在开发爬虫过程中经常会遇到IP被封掉的情况，这时就需要用到代理IP；在urllib2包中有ProxyHandler类，通过此类可以设置代理访问网页，如下代码片段：
3、Cookies处理
cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)，python提供了cookielib模块用于处理cookies，cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。
4、伪造成浏览器
某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error 403: Forbidden的情况。
5、页面解析
对于页面解析强大的当然是正则表达式，这个对于不同网站不同的使用者都不一样，就不用过多的说明，附两个比较好的网址。

6、验证码的处理
对于一些简单的验证码，可以进行简单的识别。本人也只进行过一些简单的验证码识别。
7、gzip压缩
有没有遇到过某些网页，不论怎么转码都是一团乱码。哈哈，那说明你还不知道许多web服务具有发送压缩数据的能力，这可以将网络线路上传输的大量数据消减 60% 以上。这尤其适用于XMLweb 服务，因为XML数据的压缩率可以很高。但是一般服务器不会为你发送压缩数据，除非你告诉服务器你可以处理压缩数据。
8、多线程并发抓取
单线程太慢的话，就需要多线程了，这里给个简单的线程池模板这个程序只是简单地打印了1-10，但是可以看出是并发的。虽然说Python的多线程很鸡肋，但是对于爬虫这种网络频繁型，还是能一定程度提高了效率的。

感谢您阅读常用的Python爬虫技巧有哪些，我是教育宝专业的Python培训学习顾问王敏，从事教育培训行业以来，发现用户很难找到适合自己的课程，希望通过我的专业可以帮您制定出合适的学习方案。

教育宝Python培训频道为你提供85家机构352条真实评价，在这里您可以了解及时、全面的课程信息及真实用户评价，各位可以根据自己的实际情况选取适合的机构，选择Python培训并不是越贵越好，只有最适合的才是最好的。

在选课过程中如需帮助，您可以加我微信：18560125702，我将为您提供全面专业的选课帮助，让我们一起开始美好的学习之旅吧。返回教育宝头条

相关推荐