nav_xian
返回返回 教育头条

常用的Python爬虫技巧有哪些

学习经验

2021年03月27日 10:20:51
Python应用较多的场景还是Web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。
1、基本抓取网页
get方法与post方法
2、使用代理IP
在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP;在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页,如下代码片段:
3、Cookies处理
cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密),python提供了cookielib模块用于处理cookies,cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源。
4、伪造成浏览器
某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error 403: Forbidden的情况。
5、页面解析
对于页面解析强大的当然是正则表达式,这个对于不同网站不同的使用者都不一样,就不用过多的说明,附两个比较好的网址。

6、验证码的处理
对于一些简单的验证码,可以进行简单的识别。本人也只进行过一些简单的验证码识别。
7、gzip压缩
有没有遇到过某些网页,不论怎么转码都是一团乱码。哈哈,那说明你还不知道许多web服务具有发送压缩数据的能力,这可以将网络线路上传输的大量数据消减 60% 以上。这尤其适用于XMLweb 服务,因为XML数据 的压缩率可以很高。但是一般服务器不会为你发送压缩数据,除非你告诉服务器你可以处理压缩数据。
8、多线程并发抓取
单线程太慢的话,就需要多线程了,这里给个简单的线程池模板 这个程序只是简单地打印了1-10,但是可以看出是并发的。虽然说Python的多线程很鸡肋,但是对于爬虫这种网络频繁型,还是能一定程度提高了效率的。

感谢您阅读常用的Python爬虫技巧有哪些,我是教育宝专业的Python培训学习顾问王敏,从事教育培训行业以来,发现用户很难找到适合自己的课程,希望通过我的专业可以帮您制定出合适的学习方案。

教育宝Python培训频道为你提供85家机构352条真实评价,在这里您可以了解及时、全面的课程信息及真实用户评价,各位可以根据自己的实际情况选取适合的机构,选择Python培训并不是越贵越好,只有最适合的才是最好的。

在选课过程中如需帮助,您可以加我微信:18560125702,我将为您提供全面专业的选课帮助,让我们一起开始美好的学习之旅吧。返回教育宝头条

【免责声明】本文仅代表作者本人观点,与教育宝无关。教育宝对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何保证。请读者仅作参考,特此声明!

相关推荐

400-029-0997