Skip to main content

采集数据

功能概述

“采集数据”功能允许页面自动化插件从网页中提取指定的数据,并将其以结构化的形式(如 json、csv 、xlsx 等)保存到本地.

数据采集

核心特性

  • 数据提取:根据 CSS 选择器提取元素文本、属性等。
  • 批量提取:支持批量提取多个元素的数据,并将其组织成数组。
  • 数据转换:支持对提取的数据进行清洗和转换,如去除空格、转换数据类型等。

应用场景

  • 网页数据抓取:抓取网页上的商品信息、新闻内容、评论数据等。
  • 数据分析:提取网页上的数据,用于数据分析和可视化。
  • 数据迁移:从一个网页提取数据,并将其迁移到另一个系统。
  • 监控网页内容:定期抓取网页内容,监控内容变化。

数据行

这里以百度小说排行榜为示例进行演示

百度小说排行榜

这是小说数据列表元素节点

百度小说排行榜数据元素

这里我们需要对每篇小说的信息进行采集,那么我们在设置行目标元素时,模式设置为列表,这样就能选取所有行元素.

百度小说排行榜

百度小说排行榜

数据列

我们在要采集的数据,是从行中提取,它是相对路径.

百度小说排行榜

百度小说排行榜

Object 数组采集

数据采集也可以直接采集Array<object>类型数据.

行目标元素引用Array<object>类型变量,变量值必需为Array<object>类型,然后列元素数据来源设置为静态,默认值设置object属性名,就可对object类型数据进行采集.

数据去重

数据去重功能会根据你设置的唯一索引来过滤重复数据,如果没有设置,那么默认情况下所有字段内容相同就会过滤掉.

百度小说排行榜

索引项是列字段

数据转换

如果提取的数据格式不符合您的需求,您可以在此处执行数据转换

百度小说排行榜