python系列之食谱数据_小淘米

小淘米

2022-05-26 16:50

标签:

疫情之下，很多人都经历过居家隔离生活，一日三餐的都需要自己动手，对于没有烹饪经验的人而言，做菜是先放油还是先放盐都是一种难以抉择的考验，更别说美味了。那么如果你是爬虫工作者，那么学完本小节之后，你就可以轻松地按着教程的步骤做出任何美味佳肴，而且不带重样的，从此成为新一代神厨小当家，心动了吗？那么我们学起来吧。

首先我们的数据来源网站是：，在进行获取之前我们需要简单的分析下这个网站，整体比较好爬取，反爬机制不是很严，但是我们基本的反爬措施还是需要做好，尤其是代理IP的添加。对代理IP不知道怎么选择靠谱的，可以直接选择这家，api获取的和动态转发的都有提供。接下来的实现代码里面就算使用的动态转发的，可以参考学习下：

#! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://www.xiachufang.com/explore/"

    # 要访问的目标HTTPS页面
    # targetUrl = "http://www.xiachufang.com/explore/"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "636868"

    # 代理验证信息
    proxyUser = "16RAEFHU"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text

获取到的食谱我们通过表格保存起来，需要的时候直接看着操作就可以，不仅让我们学会了下厨还解决了我们不知道吃什么的烦恼问题。

若有收获，就点个赞吧

赏