应对目标网站反爬方法总结_小淘米_课课家博客

小淘米

2022-07-08 16:48

标签:

python

之前有跟大家分享过很多爬虫技术方面的文章，也会在文章中分享一些网站的反爬策略，比如断断续续的讲过header、地址ip等一些的方法。具体的爬取方法相信大家已经掌握住，本篇小编主要是给大家进行应对反爬虫方法的一个梳理，在进行方法回顾的同时查漏补缺，建立系统的反爬知识框架。

首先在获取一个网站的数据前需要分析要爬的网站，出于对安全的考虑，有些网站会做一些反爬的措施，例如之前讲到的需要判断user-angent和cookies，或者判断请求的ip是否在短时间内多次访问，频繁访问会提示ip行为不正常。

那常见的绕过反爬虫的措施可以从以下方面入手：

1、构造消息头：如上所说的user-angent和cookies都包含在消息头当中。

2、延长请求间隔：如果快速频繁的发送请求，会大量抢占服务器资源，一般这种情况下很容易被网站的安全措施检测出来并且封掉ip。所以可以适当的延长请求间隔。

3、使用代理ip，解决ip检测问题。这里推荐亿牛云代理，应对反爬类型的网站效果非常好，尤其是爬虫隧道代理，这里简单的示例下：

#! -*- encoding:utf-8 -*-

import requests

import random

# 要访问的目标页面

targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面

# targetUrl = "https://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn)

proxyHost = "t.16yun.cn"

proxyPort = "31111"

# 代理验证信息

proxyUser = "username"

proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {

"host" : proxyHost,

"port" : proxyPort,

"user" : proxyUser,

"pass" : proxyPass,

}

# 设置 http和https访问都是用HTTP代理

proxies = {

"http" : proxyMeta,

"https" : proxyMeta,

}

# 设置IP切换头

tunnel = random.randint(1,10000)

headers = {"Proxy-Tunnel": str(tunnel)}

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code

print resp.text

当然常见的反爬虫方法也不止以上的这些，这里只罗列出这常用的三种方法，有更好的可以绕过反爬虫方法的可以留言大家交流学习下。

若有收获，就点个赞吧

上一篇：爬虫知识体系框架学习
下一篇：盘点使用Python实现东方财富网分时数据抓取方法

相关视频教程更多课程

HTML5零基础入门视频教程
共29节 · 10小时14分钟
十天掌握VB程序设计语言视频教程
共46节 · 27小时18分钟
项目管理工具Maven入门+实战教程
共26节 · 3小时59分钟
Beego新闻发布系统后台视频课程
共55节 · 13小时39分钟
AP计算机科学A（APcomputer science A）复习备考攻略视频教程
共12节 · 7小时28分钟
跟着王进老师学开发C#篇第四季：ADO.NET数据库开发视频教程
共58节 · 26小时30分钟

最新教程

热门教程

评论

博主资料

: 小淘米

原创：171 篇
转载：0 篇
译文：0 篇
热度：10.7W

最新发表

最近访客