热搜:微信 游戏 亮相 内存仅 抢不到 风林火山 电脑公司 王者荣耀 王者荣耀 万能装机 系统 xp 电脑公司 浏览器 一键重装 蜘蛛侠 快手 win7 fix realtek 微信 游戏 office mumu模拟器 微软电脑管家 22H2 secoclient 11 11 11 开始菜单 WingetUI 腾讯电脑管家 打印机 应用商店 谷歌浏览 批量下载 中国建设银行 win1032位 龙信 系统 Outlook AutoCAD 2023 Fix 迅雷 系统大师 装机大师 win7系统 WIFI sscom wps 采集 启动 植物大战僵尸 驱动人生 腾讯QQ V9.7.20 优酷 输入法 抖音 三只羊 短视频 qq 快手 系统 迅雷 注册表 学习通 红警
后羿采集器是一款操作简单的数据采集软件。该软件配置简单,采集功能强大。它可以支持所有平台的所有操作系统版本更新和功能升级。您可以一键获取各种最新信息。收集和导出是免费的,可以无限期地使用。有需要的朋友来下载。
功能介绍
1、可视化自定义采集过程
全过程问答引导、可视化操作、自定义采集流程。
网页操作顺序的自动记录和模拟。
满足更多采集需求的高级设置。
2、选择网页数据进行选择
点击鼠标,选择要爬的网页内容,操作简单。
可选择提取文本、链接、属性、html标签等。
3、批量运行数据采集
根据采集过程和抽取规则,软件自动批量采集。
采集速度和过程实时显示快速稳定。
在不打扰前台工作的情况下,可以切换软件后台运行。
4、收集的数据导出和发布
采集的数据自动表格化,字段自由配置。
支持数据导出到Excel等本地文件。
一键发布到CMS网站/数据库/微信微信官方账号等媒体。
使用方法
定制收集百度搜索结果数据的方法
一、创建收集任务
1、启动后羿收集器,进入主界面,选择自定义收集,点击创建任务按钮 “定制收集任务”;
2、URL输入百度搜索,包括三种方式。
手动输入:URL直接输入输入框,多个URL必须换行分割。
单击从文件中读取:用户选择一个存储URL的文件,文件中可以有多个URL地址,地址必须换行分割。
批量添加:通过添加和调整地址参数,生成多个有规律的地址。
二、自定义采集流程
1、点击创建后,自动打开第一个URL,然后进入自定义设置页面。默认情况下,已经创建了一个开始、打开和结束的过程块。底部模板区域用于拖动到画布中生成新的过程块;单击打开页面中的属性按钮以修改打开的网站;
2、添加输入文本流程块:将输入文本块拖到底部模板区域附近打开网页块。当出现阴影区域时,鼠标可以松开,然后自动连接并添加;
3、生成完整的流程图:模仿上面添加输入文本流程块的拖动流程,添加新块;
关键步骤块设置介绍
等待前面打开网页的时间等待。
点击输入框Xpath属性按钮,点击属性菜单中的图标选择网页中的输入框,点击输入文本属性按钮,在菜单中输入要搜索的文本。
点击开始搜索按钮,点击元素的xpath属性按钮,点击菜单中的图标,然后点击网页中的百度按钮。
用于设置下一个列表页面的循环加载。在循环块内的循环条件块中设置详细条件。点击此处的操作按钮,选择单个元素,然后点击属性菜单中的xpath属性按钮,并在同一页上点击下一页按钮。默认情况下,循环次数属性按钮为0,即点击下一页的次数不受限制。
用于设置循环提取列表页面中的数据。在循环块内的循环条件块中设置详细条件。单击此处的操作按钮,选择不固定元素列表,然后单击属性菜单中元素的xpath属性按钮,然后连续两次在网页中选择第一和第二元素。默认情况下,循环次数属性按钮为0,即列表中收集字段的数量不受限制。
点击下一页按钮,点击元素xpath属性按钮,选择使用当前循环中元素的xpath选项。
设置网页加载等待时间也是如此。
用于设置从列表页面中提取的字段规则,点击属性按钮中使用循环中的元素按钮,选择循环中的元素选项。单击元素模板属性按钮,单击字段表中的加减添加删除字段,单击选择操作添加字段,即单击加号后,鼠标移动到网页元素上单击选择。
4、点击开始收集,开始收集。
三、数据采集和导出
1、在收集任务的运行中;
2、采集完成后,选择“导出数据”本地文件可以导出所有数据;
3、选择“导出方式”,excel可以作为导出格式导出采集的数据;
4、导出数据后,如下图所示。