实战：基于uiautomator2的拼多多APP商品数据自动化采集方案

张开发

• 2026/6/22 6:26:46 • 15 分钟阅读

分享文章

1. 为什么选择uiautomator2做APP自动化采集第一次接触APP自动化采集时我试过各种方案Appium、Airtest、甚至直接调用ADB命令。但真正在拼多多这种复杂电商APP上实战时uiautomator2的表现让我眼前一亮。这个基于Android原生测试框架的Python库最大的优势是直接与系统底层通信不需要像Appium那样经过WebDriver中转实测点击响应速度能快3-5倍。举个具体场景当我们需要在1秒内完成点击搜索框-输入关键词-点击搜索按钮这一系列操作时uiautomator2的稳定性明显更高。有次我用Appium跑通宵采集任务早上发现卡在某个弹窗界面而同样的脚本改用uiautomator2后配合合理的异常处理连续运行12小时都没崩溃。特别适合以下人群使用需要高频采集动态数据的电商运营做竞品价格监控的市场分析师研究用户行为的UX设计师2. 环境搭建的避坑指南虽然原始文章跳过了环境配置但根据我踩过的坑有几点必须提醒2.1 手机端必备设置先确保开发者选项已开启连续点击MIUI版本号7次然后重点检查USB调试模式开启关闭MIUI优化否则元素定位可能失效安装ATX-agentpython -m uiautomator2 init2.2 电脑端依赖安装推荐用conda创建独立环境conda create -n pdd_scraper python3.8 conda activate pdd_scraper pip install uiautomator2 weditor pillow遇到过最头疼的问题是adb devices识别不到手机通常是因为数据线只充电不传数据换原装线缺少USB驱动小米手机需安装Mi PC Suite5037端口被占用netstat -ano|findstr 5037查杀进程3. 元素定位的实战技巧3.1 比XPath更稳的定位策略原始文章用到了resourceId定位但新版拼多多经常动态生成ID。我总结出更可靠的定位优先级组合定位d(classNameandroid.widget.TextView, text搜索)相对定位d(text¥).right(classNameandroid.widget.TextView)模糊匹配d(textContains旗舰店)3.2 处理动态加载的终极方案商品列表页最让人抓狂的是无限滚动加载我的解决方案是last_count 0 while True: items d.xpath(//*[contains(text, ¥)]).all() if len(items) last_count: # 不再新增商品时退出 break last_count len(items) d.swipe(0.5, 0.8, 0.5, 0.2, 0.5) # 慢速上滑 time.sleep(2) # 加载等待3.3 防重复点击的工程化设计原始文章的recent_elements方案可以优化为from collections import deque visited deque(maxlen50) # 只保留最近50条记录 def is_new_item(item): fingerprint f{item[title]}_{item[price]} if fingerprint in visited: return False visited.append(fingerprint) return True4. 数据采集的完整实现4.1 商品详情页的字段提取除了价格、标题、店铺外建议采集这些有价值字段def get_sales(): return d.xpath(//*[contains(text, 已拼)]).get_text() def get_coupon(): return d.xpath(//*[contains(text, 券)]).get_text() def get_specs(): specs {} for elem in d.xpath(//*[resource-idspecItemContainer]/*).all(): key elem.sibling(resourceIdspecItemName).get_text() value elem.sibling(resourceIdspecItemValue).get_text() specs[key] value return specs4.2 异常处理的最佳实践电商APP常有这些坑弹窗广告d.click(0.9, 0.1)点击右上角关闭验证码if d(text验证码).exists(): save_screenshot()网络抖动try/except包裹关键操作自动重试3次4.3 数据存储方案对比根据数据量选择存储方式方案优点缺点适用场景CSV无需数据库无去重小规模测试SQLite内置去重单机使用中等规模MongoDB灵活schema需安装服务大规模分布式推荐使用MongoDB的upsert操作from pymongo import UpdateOne operations [ UpdateOne( {item_id: item[id]}, {$set: item}, upsertTrue ) for item in items ] db.bulk_write(operations)5. 效率提升的进阶技巧5.1 并行化采集方案用多设备并行采集需多个测试机from concurrent.futures import ThreadPoolExecutor def worker(device_ip): d u2.connect(device_ip) # 采集逻辑... with ThreadPoolExecutor(max_workers3) as executor: executor.map(worker, [192.168.1.101, 192.168.1.102])5.2 智能等待策略替代固定time.sleep()的方案def wait_until(selector, timeout10): start time.time() while time.time() - start timeout: if selector.exists: return True time.sleep(0.5) raise TimeoutError(f元素未出现: {selector})5.3 反检测策略拼多多会对自动化操作进行检测建议随机化滑动速度d.swipe(..., durationrandom.uniform(0.2, 1.0))模拟人类点击d.click(0.5, 0.5, duration0.3)随机间隔操作time.sleep(random.gauss(1.0, 0.3))6. 完整项目架构设计对于企业级应用推荐这样组织代码pdd_scraper/ ├── core/ │ ├── crawler.py # 主爬虫逻辑 │ ├── devices.py # 设备管理 │ └── models.py # 数据模型 ├── utils/ │ ├── anti_block.py # 反检测 │ └── logger.py # 日志记录 └── config.yaml # 全局配置关键配置示例devices: - ip: 192.168.1.101 model: Xiaomi12 - ip: 192.168.1.102 model: RedmiK50 search_keywords: - 智能手机 - 蓝牙耳机 - 智能手表 mongodb: uri: mongodb://localhost:27017 db: pdd_data在真实项目中我会用这样的启动逻辑def main(): init_logging() devices load_devices() keywords load_keywords() with ThreadPoolExecutor(len(devices)) as executor: futures [] for device in devices: crawler PDDCrawler(device) futures.append(executor.submit(crawler.run, keywords)) for future in as_completed(futures): try: future.result() except Exception as e: logger.error(f采集失败: {e}) if __name__ __main__: main()

更多文章

前端开发 2026/5/15 10:58:18

IO模型有哪些？

什么是IO，IO就是输入输出，拿谁是输入谁是输出呢？ 计算机的IO 计算机的主体分为输入设备和输出设备，输入设备是向计算机输入数据和信息的设备，键盘和鼠标都属于输入设备；输出设备是计算机硬件系统的终端设备…

3分钟找回丢失文件！FSearch让Linux搜索体验飞起来【免费下载链接】fsearch A fast file search utility for Unix-like systems based on GTK3 项目地址: https://gitcode.com/gh_mirrors/fs/fsearch 你是否曾在Linux系统中花费数分钟甚至数小时寻找一个文件…

张开发

前端开发 2026/5/15 12:41:01

【Reading Notes】（10.3）Favorite Articles from 2026 March

硅谷全面“龙虾化”！Anthropic微软Meta和Notion等集体交卷自己的Claw（2026-03-01） 就在过去的半个月里，全球AI巨头似乎集体接到了一份名为“做自己的OpenClaw”的剧本。这场由 OpenClaw 引发的效应，正在演变成一场关于…

张开发

实战：基于uiautomator2的拼多多APP商品数据自动化采集方案

最新文章

如何轻松批量下载视频号内容：res-downloader完整指南

高通Camera HAL3实战：从configure_streams到Usecase创建，一次搞懂ZSL拍照背后的完整流程

从天气预报到视频预测：ConvLSTM实战项目入门（附PyTorch完整代码）

别再乱卸载补丁了！Win10共享打印机0x00000709/11b错误，用这个官方修复补丁KB5007253一键搞定

别再只会下载程序了！手把手教你用J-Link的J-Scope和RTT功能做实时数据可视化

mysql如何使用INNER JOIN内连接_mysql等值连接实现方式

推荐文章

相关文章

分享文章

更多文章

IO模型有哪些？

3步解锁Kodi中文插件库：让新手也能玩转专业影视功能

AIGlasses OS Pro 在工业质检中的应用：结合 OpenCV 与 AI 模型

GELU激活函数保姆级实现教程：用Python从零手写并对比ReLU/Swish

群晖7.2 Docker小白也能搞定：手把手教你部署WPS Office并绑定自己的域名

无需手动下载jdk1.8，快马平台5分钟搭建spring boot应用原型

保姆级教程：手把手教你搞定Carsim2019安装与破解（附常见报错解决方案）

避坑指南：雅特力AT32F403A V2库在Keil5中的常见配置错误及解决方法

YOLOv5在Linux服务器CUDA环境报错？一招解决torch.use_deterministic_algorithms问题

终极B站视频下载工具：BiliTools跨平台完整指南

3分钟找回丢失文件！FSearch让Linux搜索体验飞起来

【Reading Notes】（10.3）Favorite Articles from 2026 March