2021-10-21 16:23

最近发现身边很多朋友都在看小说,然后还有朋友跟我抱怨过,虽然很多小说网站都有提供免费的小说阅读,但是它不提供下载全本的服务。道理大家都明白,商家也是为了获得更多的流量嘛。但是小编觉得这样还是很不好的,心理觉得就不服了,所以准备利用自己学的爬虫技术去挑战下。通过小编研究发现国内小说网站的结构,大概都如出一辙,改改地址,就差不多了。

爬取数据之前我们要先整理下思路

1、目标网站:

2、使用爬虫框架Scrapy

3、小说网站的分析、这个网站是比较大型的小说网站,网站的反爬机制肯定是做的比较好,所以我们在抓取之前还是需要做好一些基本的应对网站反扒的策略。随机ua,cookie,代理等。这里重点讲下爬虫代理的,这是个必不可少的辅助工具,但是网上代理千万家,好用的就那么几家,大家根据自己多年的爬虫经验肯定有信赖的代理的。

4、爬虫代理:

接下来我们就通过访问我们获得链接,进行标题和文本的获得。完整示例如下:

  #! -*- encoding:utf-8 -*-
        import base64            
        import sys
        import random

        PY3 = sys.version_info[0] >= 3

        def base64ify(bytes_or_str):
            if PY3 and isinstance(bytes_or_str, str):
                input_bytes = bytes_or_str.encode('utf8')
            else:
                input_bytes = bytes_or_str

            output_bytes = base64.urlsafe_b64encode(input_bytes)
            if PY3:
                return output_bytes.decode('ascii')
            else:
                return output_bytes

        class ProxyMiddleware(object):                
            def process_request(self, request, spider):
                # 代理服务器(产品官网 www.16yun.cn)
                proxyHost = "	u7452.5.tn.16yun.cn"
                proxyPort = "5446"

                # 代理验证信息
                proxyUser = "16JGPGSP"
                proxyPass = "360350"

                request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort)

                # 添加验证头
                encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)
                request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass                    

                # 设置IP切换头(根据需求)
                tunnel = random.randint(1,10000)
                request.headers['Proxy-Tunnel'] = str(tunnel)

本示例主要是跟大家分享是使用Scrapy如何通过配置代理访问目标网站。有需要的小伙伴可以参考实践下。


评论