官网还有其他语言的参考demo,有这方面需求的可以直接搜索“亿牛云”去官网获取参考demo或者私信小编获取。不在有疫情的干扰,接下来的一年有很多的假期,大家可以好好计划下出游行程了。
春节假期已经正式结束了,大部分人都回到了工作岗位上开启了新的奋斗。因为春节前疫情的全面放开,很多地方春节都在倡导就地过年。疫情三年大家的出游也严重的受到了限制,所以今年春节期间很多人都有了出游计划。因为假期的关系大多游客缩小了出游半径,本地游、周边游、近郊游取代了异地长线游,成为兔年春节新的旅游消费趋势。收假后全国各地也陆续公布了今年春节的文旅数据。目前为止,在已经公布春节假期旅游收入的15个省份中,四川位列第一。
而从大家出游的城市,游客量,旅游收入综合来看,四川都是遥遥领先。这里我们可以根据这个数据来对比疫情三年和疫情前,来看下疫情放开后旅游业方面的恢复力度是怎么样的。疫情前和疫情三年的旅游数据我们可以从几个比较大的平台上获取,去哪儿,携程等。
数据的获取就需要使用到我们的python技术,做过爬虫的都知道这些平台的反爬机制也是比较严的,所以这里我们可以通过爬虫程序+爬虫代理进行大数据采集,其中爬虫脚本使用Python常用的requests。爬虫代理在百度找到一家提供隧道转发技术的产品,这种代理产品自带IP池随机切换,直接配置代理信息即可使用方便快捷,参考对方提供的demo完全自动化使用简单粗暴的方式逐页爬行。参考示例如下:
#! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = "http://httpbin.org/ip" # 要访问的目标HTTPS页面 # targetUrl = "https://httpbin.org/ip" # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text