热搜:微信 游戏 亮相 内存仅 抢不到 风林火山 电脑公司 王者荣耀 王者荣耀 万能装机 系统 xp 电脑公司 浏览器 一键重装 蜘蛛侠 快手 win7 fix realtek 微信 游戏 office mumu模拟器 微软电脑管家 22H2 secoclient 11 11 11 开始菜单 WingetUI 腾讯电脑管家 打印机 应用商店 谷歌浏览 批量下载 中国建设银行 win1032位 龙信 系统 Outlook AutoCAD 2023 Fix 迅雷 系统大师 装机大师 win7系统 WIFI sscom wps 采集 启动 植物大战僵尸 驱动人生 腾讯QQ V9.7.20 优酷 输入法 抖音 三只羊 短视频 qq 快手 系统 迅雷 注册表 学习通 红警 the vmware win11 必应 原神 小米 乙 和 UC浏览器网页版 TT SugarNMS 企业微信 21h2 Escrcpy 驱动精灵 京麦 QQ amd 搜狗 yy iOS16 kook 剪映 冰凌 CAD 华为电脑管家 edge 推流 雷电模拟器 pdf 键盘失灵 Microsoft photos 迅雷12 FileZilla Server LTSC CF 英语 企业版 中国移动云盘 Windows10 迅读 英文版 win10 abbyy Visual Studio 2012 Microsoft Edge 无线网卡驱动 激活 合同管理系统 office 2019 win10旗舰 亿图图示 WPS WPS Office 2024 冷风 通达信 VMware 罗技外设管 柜柜 冰凌五笔 腾讯视频 贵政通 鲁大师 字体 win10游戏版 BTMine 黄 wps office UnblockNeteaseMusic office 2016 老机 不坑盒子 360安全卫士 夸克 SKYPE 搜狗输入法 局域网 2012 谷歌浏览器 PDF 企业微信 mechanical ps 激活码 翻译 rar 16 cad Win10 百度 visio 定时 定时发送 图库 专业工作站版 专业工作站 Dell Display Manager xp系统 wps2019 axure amd显卡 mac pe 磁盘 微信xp Photo 老电脑 精简 工作站 百度网盘 qq空间查看器 斯沃 AxMathV2.706 旗舰版 官方原版 21H2 asus 2016 激活工具 广联达 蓝牙驱动 xp 石大师 抖音客户端 系统之家 驱动 win10系统 环保手册 会声会影 抖音直播伴侣 Windows Windows7 联想笔记本 Office ltsc 2019 19041 iBypasser 浏览器 UltraISO 华为 qq浏览器 win8 会声会影 系统工具 音乐 autocad 5y 飞书 office 2016 winpe 网卡驱动 压 企业版 19044 饥荒 DingTalk电脑版 微软杀毒 edge TranslucentTB QQ空间查看器 805 WIN10精简版 Edge 平板 Ghost GHOST 芝麻倒计时 万维 注册 vic 夸克网盘 V1 激活系统 钉钉 超级互联 u盘 联想电脑管家 10系统 火绒 像素蛋糕 TRANSL 京麦工作台 chrome Win10 LTSC 任务栏 QQ突破群禁言 彩虹 ARM 夸克网盘 AMD Ryzen Master 同花顺 天正 photo QQ空间 108.0.5359.99 108.0.5359 Chromium浏览器 WeekToDo 智能 microsoft photos ltsc Q绑 空间查看器 office2013 天正电气 12.1.0.19770 千牛 jdpaint win11 压力 PS插件 Easy Document 阿里云盘 CAD迷你看图 百灵创作 火狐浏览器 东方财富 微信电脑版 DirectX Altium Designer msi 手机 ABD ADB qq空间破解 亦搜 游戏定制 沙漏 WIN8 僵尸 qq音乐
八爪鱼采集器是一款专门用来采集网页数据的网络软件,以自主研发的分布式云计算平台为核心,能够在短时间内从不同网站和网页上抓取大量规范化的数据内容,帮助用户轻松实现数据自动化采集,编辑,规范化,大大提高用户的效率。
功能介绍
简易采集
简易采集模式内置上百种主流网站数据源,如京东、天猫、大众点评等热门采集网站,只需参照模板简单设置参数,就可以快速获取网站公开数据。
智能采集
八爪鱼采集可根据不同网站,提供多种网页采集策略与配套资源,可自定义配置,组合运用,自动化处理。从而帮助整个采集过程实现数据的完整性与稳定性。
云采集
由5000多台云服务器支撑的云采集,7*24小时不间断运行,可实现定时采集,无需人员值守,灵活契合业务场景,帮你提升采集效率,保障数据时效性。
API接口
通过八爪鱼API,可以轻松获取八爪鱼任务信息和采集到的数据,灵活调度任务,比如远程控制任务启动与停止,高效实现数据采集与归档。基于强大的API体系,还可以无缝对接公司内部各类管理平台,实现各类业务自动化。
自定义采集
针对不同用户的采集需求,八爪鱼可提供自动生成爬虫的自定义模式,可准确批量识别各种网页元素,还有翻页、下拉、ajax、页面滚动、条件判断等多种功能,支持不同网页结构的复杂网站采集,满足多种采集应用场景。
便捷定时功能
简单几步点击设置,即可实现采集任务的定时控制,不论是单次采集的定时设置,还是预设某一天或是每周每月的定时采集,都可以同时对多个任务自由进行设置,根据需要对选择时间进行多重组合,灵活调配自己的采集任务。
全自动数据格式化
八爪鱼内置了强大的数据格式化引擎,支持字符串替换、正则表达式替换或匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码等多项功能,采集过程中全自动处理,无需人工干预,即可得到所需格式数据。
多层级采集
很多主流新闻、电商类的网站,里面包含一级商品列表页,也包含二级商品详情页,还有三级评论详情页面;不论网站有多少层级,八爪鱼都可以不限制层级的采集数据,满足各类业务采集需求。
支持网站登录后采集
八爪鱼内置了采集登录模块,只需配置目标网站的账号密码,即可用该模块采集到登录后的数据;同时八爪鱼还具备采集Cookie自定义功能,首次登录以后,可以自动记住cookie,免去多次输入密码的繁琐,支持更多网站的采集。
使用方法
先我们新建一个任务-->进入流程设计页面-->添加一个循环步骤到流程中-->选中循环步骤-->勾选上软件右方的URL 列表勾选框-->打开URL列表文本框-->将准备好的URL列表填写到文本框中。
接下来往循环中拖入一个打开网页的步骤-->选中打开网页步骤-->勾选上使用当前循环里的URL作为导航地址-->点击保存。系统会在界面下方的浏览器中打开循环中选中的URL对应的网页。
到这里,循环打开网页的流程就配置完成了,运行流程的时候,系统会逐个的打开循环中设置的URL。最后我们不需要配置一个采集数据的步骤,这里就不在多讲,大家可以参考从入门到精通系列1:采集单个网页 这篇文章。下图就是最终和流程。
下面是流程最终的运行结果。
更新日志
迭代功能
优化数据预览刷新机制
优化全部字段面板
Bug修复
修复复制粘贴步骤的问题
修复数据预览二级面板点选按钮异常问题
修复自动识别后登录显示异常问题
修复修改循环步骤方式页面异常跳转问题
修复字段预览显示排序不正确问题