最近发现身边很多朋友都在看小说,然后还有朋友跟我抱怨过,虽然很多小说网站都有提供免费的小说阅读,但是它不提供下载全本的服务。道理大家都明白,商家也是为了获得更多的流量嘛。但是小编觉得这样还是很不好的,心理觉得就不服了,所以准备利用自己学的爬虫技术去挑战下。通过小编研究发现国内小说网站的结构,大概都如出一辙,改改地址,就差不多了。
爬取数据之前我们要先整理下思路
1、目标网站:
2、使用爬虫框架Scrapy
3、小说网站的分析、这个网站是比较大型的小说网站,网站的反爬机制肯定是做的比较好,所以我们在抓取之前还是需要做好一些基本的应对网站反扒的策略。随机ua,cookie,代理等。这里重点讲下爬虫代理的,这是个必不可少的辅助工具,但是网上代理千万家,好用的就那么几家,大家根据自己多年的爬虫经验肯定有信赖的代理的。
4、爬虫代理:
接下来我们就通过访问我们获得链接,进行标题和文本的获得。完整示例如下:
#! -*- encoding:utf-8 -*- import base64 import sys import random PY3 = sys.version_info[0] >= 3 def base64ify(bytes_or_str): if PY3 and isinstance(bytes_or_str, str): input_bytes = bytes_or_str.encode('utf8') else: input_bytes = bytes_or_str output_bytes = base64.urlsafe_b64encode(input_bytes) if PY3: return output_bytes.decode('ascii') else: return output_bytes class ProxyMiddleware(object): def process_request(self, request, spider): # 代理服务器(产品官网 www.16yun.cn) proxyHost = " u7452.5.tn.16yun.cn" proxyPort = "5446" # 代理验证信息 proxyUser = "16JGPGSP" proxyPass = "360350" request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort) # 添加验证头 encoded_user_pass = base64ify(proxyUser + ":" + proxyPass) request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass # 设置IP切换头(根据需求) tunnel = random.randint(1,10000) request.headers['Proxy-Tunnel'] = str(tunnel)
本示例主要是跟大家分享是使用Scrapy如何通过配置代理访问目标网站。有需要的小伙伴可以参考实践下。