学习爬虫的小伙伴是不是也会经常访问一些关于爬虫的学习网站,里面有很多的经验丰富的大佬会分享很多的爬虫东西,如果有爬虫方面不能解决的问题发在论坛里面询问也会有很多人会帮助解决。小编经常逛的爬虫论坛有csdn、博客园、爬虫开发者社区等,其中csdn的人气是最旺的,这个肯定是大家的首选论坛,但是还有很多其他的爬虫论坛也值得逛逛,那我们今天就通过百度关键词再利用爬虫技术收集下那些值得收藏的爬虫学习论坛吧。
爬虫获取百度关键词也是稍微有点难度的,毕竟百度也是做了反爬策略的,所以我们这里为了防止网站反爬,加了爬虫代理,使用的是亿牛云提供的爬虫代理动态转发的,效率变的超级高。小编简单的分享下代理的使用过程,有需要的小伙伴可以试试。
// 要访问的目标页面 string targetUrl = "http://httpbin.org/ip"; // 代理服务器(产品官网 www.16yun.cn) string proxyHost = "http://t.16yun.cn"; string proxyPort = "31111"; // 代理验证信息 string proxyUser = "username"; string proxyPass = "password"; // 设置代理服务器 WebProxy proxy = new WebProxy(string.Format("{0}:{1}", proxyHost, proxyPort), true); ServicePointManager.Expect100Continue = false; var request = WebRequest.Create(targetUrl) as HttpWebRequest; request.AllowAutoRedirect = true; request.KeepAlive = true; request.Method = "GET"; request.Proxy = proxy; //request.Proxy.Credentials = CredentialCache.DefaultCredentials; request.Proxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass); // 设置Proxy Tunnel // Random ran=new Random(); // int tunnel =ran.Next(1,10000); // request.Headers.Add("Proxy-Tunnel", String.valueOf(tunnel)); //request.Timeout = 20000; //request.ServicePoint.ConnectionLimit = 512; //request.UserAgent = "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.82 Safari/537.36"; //request.Headers.Add("Cache-Control", "max-age=0"); //request.Headers.Add("DNT", "1"); //String encoded = System.Convert.ToBase64String(System.Text.Encoding.GetEncoding("ISO-8859-1").GetBytes(proxyUser + ":" + proxyPass)); //request.Headers.Add("Proxy-Authorization", "Basic " + encoded); using (var response = request.GetResponse() as HttpWebResponse) using (var sr = new StreamReader(response.GetResponseStream(), Encoding.UTF8)) { string htmlStr = sr.ReadToEnd(); }
从获取的数据分析可以看出,一般大家都是推介的那几个比较大的论坛,csdn,博客园,知乎,脚本之家,这些也是小编收藏单里必有的。大家有哪些觉得不错的爬虫学习论坛可以分享交流下呀!