Content Grabber · 2019年11月23号 0

Content Grabber:内容采集器基础入门(快速入门)

Web爬网工具通常使用宏或配置方法,并遵循顺序的命令列表。宏方法更加用户友好,并且可以在浏览器中自动记录用户的操作。但是,通常在访问代理程序背后的代码方面受到限制。配置方法允许用户直接配置代理的每个部分。他们可以引入更多的代码结构,控件,数据改进或添加自己的命名约定。

Content Grabber使您可以选择遵循简单的宏自动化方法,或者直接控制代理中每个元素和命令的处理方式。

内容收集器代理开发

使用Content Grabber,您可以直观地浏览网站并按要收集数据的顺序单击数据元素。基于选定的内容元素,Content Grabber将在为您构建代理时自动确定相应的操作类型并为每个命令提供默认名称。

Content Grabber快速入门

Content Grabber主屏幕-建立CarPoint Agent

Content Grabber代理是命令的集合,这些命令以串行方式执行直到完成。这些命令可以是动作(例如,跳转到URL)或数据捕获命令(例如,捕获文本)。这些命令按执行顺序记录在Content Grabber屏幕的Agent Explorer面板中。

Content Grabber快速入门

带有“新代理”命令的“代理资源管理器”面板

如果要进行其他调整或更好地控制命令,则可以在“ 配置代理命令”面板中进行更改。

Content Grabber快速入门

配置代理命令面板

 

您还可以将新命令添加到代理,或配置现有命令。为此,您只需在任何Web元素(内容项)上单击两次,即可显示“ 内容收集器消息”窗口。在这里,您可以选择所需的命令类型,并将其添加到Agent Explorer中。

Content Grabber快速入门

内容捕获器消息窗口弹出

 

内容收集器数据输出

完成代理的构建并首次运行后,Content Grabber会以结构化数据库格式将数据本地保存。Content Grabber可以将提取的Web数据导出为报告或导出到许多不同的数据库类型。数据输出选项包括CSV,Excel,XML,SQL Server,MySQL,Oracle和OleDB。

Content Grabber快速入门

Content Grabber的“数据配置”窗口

您还可以使用Content Grabber导出脚本来完全自定义数据导出到您自己的数据库结构。

排程

Content Grabber提供了代理程序调度功能,使您可以在需要时在预定的时间段自动运行代理程序。可以每小时,每天,每月,每年等进行此操作。

Content Grabber快速入门