盘点使用Python实现东方财富网分时数据抓取方法_小淘米_课课家博客

小淘米

2022-07-25 16:34

标签:

最近几天在Python交流群里大家在交流东方财富网分时数据的抓取方法,早在之前就给大家分享了东方财富网其他交易数据的抓取方法，过程比较简单，很适合新手实践。

今天我们要实现的是时分数据的获取，这里给大家提供一个实现方法，希望对大家有所参考。首先是关于目标网站url的寻找，确实花费了一番心思，因为藏的比较深，之后复制这个链接，在浏览器中打开的话，可以看到密密麻麻的，有点烧脑。通过简单的分析，发现网站的爬虫机制不是很严，但是基本的IP在爬虫程序里面是需要加上的，封IP是最常见的反爬机制。代理的选择没有那么复杂，直接推荐做爬虫的使用亿牛云代理，IP靠谱，服务靠谱，主要的是还提供了参考示例，对很多不会使用代理IP的新手来说是再友好不过的。接下来就是东方财富网实时数据抓取实现过程：

#! -*- encoding:utf-8 -*-

import requests

import random

# 要访问的目标页面

targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面

# targetUrl = "https://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn)

proxyHost = "t.16yun.cn"

proxyPort = "31111"

# 代理验证信息

proxyUser = "username"

proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {

"host" : proxyHost,

"port" : proxyPort,

"user" : proxyUser,

"pass" : proxyPass,

}

# 设置 http和https访问都是用HTTP代理

proxies = {

"http" : proxyMeta,

"https" : proxyMeta,

}

# 设置IP切换头

tunnel = random.randint(1,10000)

headers = {"Proxy-Tunnel": str(tunnel)}

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code

print resp.text

这个代码可以反复的去请求这个网页，只要有数据更新，都可以获取到，不停抓更新出来的数据，太强了！总的来说，这个方法要简单一些，还有一种方法更加底层，实现起来门槛高一些，下次可以跟大家分享下。

若有收获，就点个赞吧

上一篇：应对目标网站反爬方法总结
下一篇： python入门基本步骤

相关视频教程更多课程

跟着王进老师学开发之C#篇第五季：图书管理系统视频教程
共107节 · 39小时46分钟
Beego新闻发布系统后台视频课程
共55节 · 13小时39分钟
分布式集群任务调度解决方案视频教程
共25节 · 7小时17分钟
C++基础到进阶视频教程
共80节 · 97小时30分钟
跟着王进老师学开发C#篇第四季：ADO.NET数据库开发视频教程
共58节 · 26小时30分钟
AP计算机科学A（APcomputer science A）复习备考攻略视频教程
共12节 · 7小时28分钟

最新教程

热门教程

评论

博主资料

: 小淘米

原创：168 篇
转载：0 篇
译文：0 篇
热度：10.2W

最新发表

最近访客