Python爬虫反爬手段有哪些


这篇文章给大家分享的是有关Python爬虫反爬手段有哪些的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1、判断请求头来进行反爬这是很早期的网站进行的反爬方式User-Agent 用户代理referer 请求来自哪里cookie 也可以用来做访问凭证解决办法:请求头里面添加对应的参数(复制浏览器里面的数据2、根据用户行为来进行反爬请求频率过高,服务器设置规定时间之内的请求阈值
解决办法:降低请求频率或者使用代理(IP代理)网页中设置一些陷阱(正常用户访问不到但是爬虫可以访问到)
解决办法:分析网页,避开这些特殊陷阱请求间隔太短,返回相同的数据
解决办法:增加请求间隔3、js加密反爬方式中较为难处理的一类。
js加密的原理:服务器响应给浏览器的js文件,可以动态的生成一些 香港云主机加密参数,浏览器会根据js的计算 得到这些参数,在请求中带入进来,如果请求中没有这些参数,那么服务器就任务请求无效。4、字体加密字体反爬,是一种常见的反爬技术,网站采用了自定义的字体文件,在浏览器上正常显示,但是爬虫抓取下来的数据要么就是乱码,要么就是变成其他字符。采用自定义字体文件是CSS3的新特性,熟悉前端的同学可能知道,就是font-face属性。6、md5相关知识MD5,消息摘要算法,一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。MD5是最常见的摘要算法,速度很快,生成结果是固定的128 bit字节,通常用一个32位的16进制字符串表示。MD5的特点:
1.不可逆:不能从密文推导出明文。
2.不管明文长度为多少,密文的长度都固定。
3.密文之间不会重复。字符串python加密后的结果:23eeeb4347bdd26bfc6b7ee9a3b755dd7、base64Base64是网络上最常见的用于传输8Bit字节码的编码方式之一,Base64就是一种基于64个可打印字符来表示二进制数据的方法。Base64编码是从二进制到字符的过程,可用于在HTTP环境下传递较长的标识信息。采用Base64编码具有不可读性,需要解码后才能阅读。结果:cHl0aG9u
china自己动手看验证码(古诗词网)使用打码平台(图鉴)新建一个captcha_api.py新建use_code.py,调用接口感谢各位的阅读!关于“Python爬虫反爬手段有哪些”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

相关推荐: Gradle中怎么自定义插件

Gradle中怎么自定义插件,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。在Gradle中创建自定义插件,Gradle提供了三种方式:在build.gradle脚本中直接使用在bu…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

Like (0)
Donate 微信扫一扫 微信扫一扫
Previous 08/28 17:38
Next 08/28 17:38

相关推荐