使用 Selenium 爬取京东手机销量与评分数据_小淘米

在电商数据分析场景中，京东作为头部电商平台，其手机品类的销量、评分数据是洞察市场趋势、分析用户偏好的核心依据。相较于静态网页爬取，京东采用动态渲染技术加载商品数据，传统的 Requests+BeautifulSoup 组合难以获取完整信息，而 Selenium 凭借模拟浏览器行为的特性，能完美解决动态数据爬取问题。本文将详细讲解如何基于 Selenium 实现京东手机销量与评分数据的爬取，并完成数据清洗与初步分析。一、技术选型与环境准备1. 核心技术栈Selenium：模拟 Chrome 浏览器操作，加载动态页面并定位元素；ChromeDriver：Chrome 浏览器的驱动程序，实现 Selenium 与浏览器的通信；Pandas：数据清洗、存储与初步分析；BeautifulSoup：辅助解析网页 HTML 结构，提取目标数据。2. 环境配置（1）ChromeDriver 配置查看本地 Chrome 浏览器版本（设置→关于 Chrome）；前往ChromeDriver 官方下载页下载对应版本的驱动；将 ChromeDriver.exe 放入 Python 安装目录（或配置系统环境变量），确保命令行可直接调用。二、爬取逻辑设计1. 爬取目标以京东 “手机” 关键词搜索结果为数据源，提取以下信息：商品名称；商品价格；商品销量（付款人数）；商品评分；评论数。三、完整实现代码python运行四、代码核心解析1. 浏览器配置关闭webdriver特征检测：通过execute_script修改navigator.webdriver属性，避免京东识别出自动化程序；隐式等待 + 显式等待结合：隐式等待处理全局元素加载，显式等待确保商品列表加载完成后再解析，避免数据缺失。2. 动态数据加载处理京东商品列表采用滚动加载机制，通过window.scrollTo模拟鼠标滚动，配合time.sleep等待数据加载，确保能获取完整的商品信息。3. 数据提取与容错针对 “无评分”“销量为空” 等异常情况，通过if-else做容错处理，避免程序崩溃；使用 BeautifulSoup 解析页面，通过 class 定位元素，适配京东网页结构。4. 数据清洗与存储将价格、评论数转为数值型，方便后续分析；保存为 UTF-8 编码的 CSV 文件，避免中文乱码问题。五、爬取注意事项反爬机制规避：控制请求频率（设置time.sleep），避免短时间内大量请求；不使用高并发爬取，单线程爬取少量数据（如 10 页内）更安全；可添加随机 User-Agent，进一步降低被风控的概率。网页结构变更：京东网页 class 名称可能随版本更新变化，若爬取失败，需通过浏览器开发者工具（F12）重新定位元素的 class 或 XPath。合法合规性：本代码仅用于学习研究，爬取数据不得用于商业用途，需遵守京东平台的 robots 协议及相关法律法规。六、数据应用示例爬取完成后，可通过 Pandas 做简单分析：python运行