转眼间,高考的日子又要来临了,不知道高考学子们准备的怎么样。对考生来说外在影响也是存在的,比如天气,那么高考期间天气是怎么样的?每年高考必有雨?今天我们就利用大数据来对天气进行盘点,希望对广大高生和家长有个参考数据。
整个过程总体来说不是很难,我们需要先对中国天气网中的天气数据进行爬取。详细的过程就是通过爬虫获取中国天气网6.7-6.8的降雨数据,主要包括城市,风力方向,风级,降水量,相对湿度,空气质量,然后对获取的天气数据进行预处理。实现步骤如下:首先我们需要获取各个城市的降雨数据,通过对中国天气网来获取数据:http://www.weather.com.cn,爬取数据之前我们需要对网页结构进行分析,然后把获取到所有的数据保存下来。实现过程如下:
#! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = "http://www.weather.com.cn" # 要访问的目标HTTPS页面 # targetUrl = "http://www.weather.com.cn" # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text
根据获取的数据分析看,每个地方在高考期间都会时不时会有阴雨打扰,主要以阵雨或小到中雨为主,所以备考的同学们出门一定要携带雨具,提前出门,注意交通安全。
重点讲述讲述下,因为在获取数据过程中会涉及到网站反爬,所以文中的实现示例里面添加了爬虫代理IP,主要是由亿牛云代理提供,在代理IP方面有需要的可以去根据需求咨询。