2023-01-28 16:31

春节假期已经正式结束了,大部分人都回到了工作岗位上开启了新的奋斗。因为春节前疫情的全面放开,很多地方春节都在倡导就地过年。疫情三年大家的出游也严重的受到了限制,所以今年春节期间很多人都有了出游计划。因为假期的关系大多游客缩小了出游半径,本地游、周边游、近郊游取代了异地长线游,成为兔年春节新的旅游消费趋势。收假后全国各地也陆续公布了今年春节的文旅数据。目前为止,在已经公布春节假期旅游收入的15个省份中,四川位列第一。

而从大家出游的城市,游客量,旅游收入综合来看,四川都是遥遥领先。这里我们可以根据这个数据来对比疫情三年和疫情前,来看下疫情放开后旅游业方面的恢复力度是怎么样的。疫情前和疫情三年的旅游数据我们可以从几个比较大的平台上获取,去哪儿,携程等。

数据的获取就需要使用到我们的python技术,做过爬虫的都知道这些平台的反爬机制也是比较严的,所以这里我们可以通过爬虫程序+爬虫代理进行大数据采集,其中爬虫脚本使用Python常用的requests。爬虫代理在百度找到一家提供隧道转发技术的产品,这种代理产品自带IP池随机切换,直接配置代理信息即可使用方便快捷,参考对方提供的demo完全自动化使用简单粗暴的方式逐页爬行。参考示例如下:

  #! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text


  官网还有其他语言的参考demo,有这方面需求的可以直接搜索“亿牛云”去官网获取参考demo或者私信小编获取。不在有疫情的干扰,接下来的一年有很多的假期,大家可以好好计划下出游行程了。


评论