转眼间,高考的日子又要来临了,不知道高考学子们准备的怎么样。对考生来说外在影响也是存在的,比如天气,那么高考期间天气是怎么样的?每年高考必有雨?今天我们就利用大数据来对天气进行盘点,希望对广大高生和家长有个参考数据。
整个过程总体来说不是很难,我们需要先对中国天气网中的天气数据进行爬取。详细的过程就是通过爬虫获取中国天气网6.7-6.8的降雨数据,主要包括城市,风力方向,风级,降水量,相对湿度,空气质量,然后对获取的天气数据进行预处理。实现步骤如下:首先我们需要获取各个城市的降雨数据,通过对中国天气网来获取数据:http://www.weather.com.cn,爬取数据之前我们需要对网页结构进行分析,然后把获取到所有的数据保存下来。实现过程如下:
#! -*- encoding:utf-8 -*-
import requests
import random
# 要访问的目标页面
targetUrl = "http://www.weather.com.cn"
# 要访问的目标HTTPS页面
# targetUrl = "http://www.weather.com.cn"
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text根据获取的数据分析看,每个地方在高考期间都会时不时会有阴雨打扰,主要以阵雨或小到中雨为主,所以备考的同学们出门一定要携带雨具,提前出门,注意交通安全。
重点讲述讲述下,因为在获取数据过程中会涉及到网站反爬,所以文中的实现示例里面添加了爬虫代理IP,主要是由亿牛云代理提供,在代理IP方面有需要的可以去根据需求咨询。







待会儿见
K哥馆
mayun
文鼎_应老师
课课家运营团队
liangchsh
启程软考
