这几天的冬奥会让大家在喜气洋洋的过节期间增加了不少的激情,有太多的感到,骄傲,一次次的上演。突然想起了开幕式,我想冬奥会的开幕式让很多人都想起了08年奥会员的开幕式吧。如果说2008年北京奥运会开幕式的辉煌盛典让世界看到了一个大国的崛起,那么2022年北京冬奥会开幕式的浪漫空灵则让世界看到了一个更自信和从容的中国。
在b站看回放的时候满屏都是弹幕,我就想这些弹幕里面有多少会想起08年奥运会的开幕呢?那我们就使用python抓取下b站冬奥会的弹幕吧。首先来到b站搜索北京冬奥运会,进入视频网址,然后打开弹幕就可以开始我们的数据抓取了,直接通过爬虫程序发送post请求,简单的示例如下:
#! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = "https://www.bilibili.com/video/BV1u44y1W7nJfrom" # 要访问的目标HTTPS页面 # targetUrl = "https://www.bilibili.com/video/BV1u44y1W7nJfrom" # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text
在访问过程中获取的弹幕量比较大,所以需要加上代理ip才可以。因此示例里面给大家分享了下如何使用动态转发模式代理,过程比较简单,使用也更简单,在爬虫代理方面有需要的可以咨询这里。看了下爬取的数据,发现真的有很多人怀念08年的开幕式,这足以看出年我们北京奥运会开幕式有多么壮观与精彩。
若有收获,就点个赞吧