2021-09-01 16:30
标签:

今天分享给小伙伴一篇爬虫教程,文章比较详细,适合刚上手的小白,老读者可以酌情加速阅读

文中涉及的代码已经测试过,可以正常跑通,文章案例的所有数据也已经成功爬取。

今天要分享的教程是爬取我国“211”大学都在哪里。全国名校众多,最常听说的是“985工程”高校、“211工程”高校。除此之外还有“双一流”高校的说法,“211”工程,即面向21世纪、重点建设100所左右的高等学校和一批重点学科的建设工程,新中国成立以来由国家立项在高等教育领域进行的规模最大、层次最高的重点建设工作,是中国政府实施“科教兴国”战略的重大举措,211大学在社会上认可度也极高,虽说只是100所,但是到了今天已经发展成了116所,目前已经不接受申报了。那么这116所211大学都在哪里呢?我们用Python动态图来盘点一下吧!

实践代码如下:

<?php
    // 要访问的目标页面
    $url = "http://www.cnur.com/";
    $urls = "http://www.cnur.com/";

    // 代理服务器(产品官网 www.16yun.cn)
    define("PROXY_SERVER", "tcp://t.16yun.cn:31111");

    // 代理身份信息
    define("PROXY_USER", "username");
    define("PROXY_PASS", "password");

    $proxyAuth = base64_encode(PROXY_USER . ":" . PROXY_PASS);

    // 设置 Proxy tunnel
    $tunnel = rand(1,10000);

    $headers = implode("\\r\\n", [
        "Proxy-Authorization: Basic {$proxyAuth}",
        "Proxy-Tunnel: ${tunnel}",
    ]);
    $sniServer = parse_url($urls, PHP_URL_HOST);
    $options = [
        "http" => [
            "proxy"  => PROXY_SERVER,
            "header" => $headers,
            "method" => "GET",
            'request_fulluri' => true,
        ],
        'ssl' => array(
                'SNI_enabled' => true, // Disable SNI for https over http proxies
                'SNI_server_name' => $sniServer
        )
    ];
    print($url);
    $context = stream_context_create($options);
    $result = file_get_contents($url, false, $context);
    var_dump($result);

    // 访问 HTTPS 页面
    print($urls);
    $context = stream_context_create($options);
    $result = file_get_contents($urls, false, $context);
    var_dump($result);
?>

有兴趣的小伙伴可以实践一下,获取到数据分析后和大家交流交流。


评论