采集数据
功能概述
“采集数据”功能允许页面自动化插件从网页中提取指定的数据,并将其以结构化的形式(如 json、csv 、xlsx 等)保存到本地.
核心特性
- 数据提取:根据
CSS 选择器
提取元素文本、属性等。 - 批量提取:支持批量提取多个元素的数据,并将其组织成数组。
- 数据转换:支持对提取的数据进行清洗和转换,如去除空格、转换数据类型等。
应用场景
- 网页数据抓取:抓取网页上的商品信息、新闻内容、评论数据等。
- 数据分析:提取网页上的数据,用于数据分析和可视化。
- 数据迁移:从一个网页提取数据,并将其迁移到另一个系统。
- 监控网页内容:定期抓取网页内容,监控内容变化。
数据行
这里以百度小说排行榜为示例进行演示
这是小说数据列表元素节点
这里我们需要对每篇小说的信息进行采集,那么我们在设置行目标元素时,模式设置为列表,这样就能选取所有行元素.
数据列
我们在要采集的数据,是从行中提取,它是相对路径.
Object 数组采集
数据采集也可以直接采集Array<object>
类型数据.
行目标元素引用Array<object>
类型变量,变量值必需为Array<object>
类型,然后列元素数据来源设置为静态,默认值设置object
属性名,就可对object
类型数据进行采集.
数据去重
数据去重功能会根据你设置的唯一索引来过滤重复数据,如果没有设置,那么默认情况下所有字段内容相同就会过滤掉.
索引项是列字段
数据转换
如果提取的数据格式不符合您的需求,您可以在此处执行数据转换