Content Grabber · 2019年11月30号 0

Content Grabber:如何建立第一个采集规则

选择起始URL

在启动网址是你开始收集数据和对应于你的网络刮剂起点的地方。

在以下各节中,我们将使用Cruise Direct网站作为示例。

http://www.cruisedirect.com

注意:在此示例中,我们从Cruise Direct主页开始,但是,如果您所需的数据不在网站主页上,则可以从网站子页面启动代理。这种方法将使代理更有效率,因此值得花些时间来使其更加具体。

1.首先,将目标网站(http://www.cruisedirect.com)的起始网页URL粘贴到Content Grabber的地址栏中。

2.接下来,单击“蓝色播放”按钮以加载Cruise Direct主页。

注意:您也可以按Enter键加载Cruise Direct主页。

Content Grabber:如何建立第一个采集规则

加载了Cruise Direct主页的Content Grabber

在下一部分中,选择要捕获的内容,我们将继续使用Cruise Direct网站数据作为示例。

选择要捕获的内容

在上一部分中,我们选择了“ 开始URL”并将网页加载到Content Grabber中。接下来,您可以选择要捕获的数据并开始构建Web抓取代理。在我们的Cruise Direct示例中,我们计划搜索可用的巡航假期,然后提取有关每个巡航的详细信息。

1.首先, 我们需要执行搜索以检索可用航次的数据。为此,我们用鼠标选择橙色的“ 搜索” 按钮元素,然后再单击一次以显示“ 内容收集器消息” 窗口。

Content Grabber:如何建立第一个采集规则

内容收集器消息窗口

2.从消息窗口中,选择“ 单击Web元素” 选项,将新命令添加到代理,该命令将执行搜索并在新网页上显示搜索结果。请注意,Content Grabber已向Agent Explorer添加了我们的第一个命令-在这种情况下,将执行搜索并显示搜索结果。

Content Grabber:如何建立第一个采集规则

带有新搜索命令的Agent Explorer链接到新的搜索页面

3.现在,我们准备向代理添加命令以提取巡航数据。由于表中有许多数据元素,因此我们将使用一个列表来简化提取过程。要捕获数据元素,请将鼠标精确地移到所需的数据元素上,直到看到其周围的数据捕获框。我们首先选择第一个巡航名称。

Content Grabber:如何建立第一个采集规则

在Content Grabber中选择的第一个Cruise Line数据元素

4.然后在“ 配置代理命令” 面板中单击“ 列表” 以激活列表选择模式。

Content Grabber:如何建立第一个采集规则

从“配置代理程序命令”面板激活列表选择模式

5.在列表选择模式下,我们可以通过单击相似的数据元素将Web数据元素添加到列表中。现在,我们将单击第二个巡航名称,您将看到Content Grabber在页面上选择了其余数据元素。注意:如果未选择任何巡航数据元素,只需单击这些元素即可将其添加到列表中。

Content Grabber:如何建立第一个采集规则

在列表选择模式下选择的第二条Cruise Line数据元素

6.现在,我们单击保存以保存列表并退出列表选择模式。Web元素列表命令定义了列表区域,因此该区域内的所有元素现在都包含在列表中。

7.要捕获巡航名称文本,我们单击任何选定的元素以显示“ Content Grabber Message” 窗口。在“ 内容捕获器消息” 窗口中,选择“ 捕获文本” 选项以添加Web元素命令以捕获巡航名称。现在,我们已向代理资源管理器中添加了新的Web元素列表和Web元素命令,Content Grabber设置了这些命令的默认名称。

8.要编辑命令的名称,请单击相应的“ 编辑” 图标,然后将命令的名称设置为“搜索列表”和“巡航名称”。然后单击绿色刻度以保存。

Content Grabber:如何建立第一个采集规则

带有新搜索列表和巡航名称命令的Agent Explorer

9.现在,我们计划从每个表中提取各个巡航网络元素。因此,首先单击Departs Web元素。现在,Content Grabber会自动为所有巡游选择“ 出发”网络元素,因为它已被定义为列表。

10.接下来,再单击一次Departs Web元素以显示Content Grabber Message 窗口。现在,从Content Grabber Message 窗口中选择Capture Text 选项,将命令添加到Agent,以便我们可以捕获各个Departs Web元素。

11.然后,单击“ 编辑” 图标将命令的名称更改为“部门”,然后将其保存。

12.现在,对“发货”,“目的地”,“持续时间”和“呼叫端口” Web元素执行相同的操作,然后设置命令的相应名称并保存。

13.我们还希望捕获定价表中的所有价格信息,因此,像以前一样,我们选择定价表中的第一个Web元素(日期)。然后,在“ 配置代理命令” 面板中单击“ 列表” 以激活列表选择模式,然后单击更多“ 日期” Web元素以生成列表。

Content Grabber:如何建立第一个采集规则

14.在“日期” Web元素之一上再单击一次,以显示“ 内容收集器消息” 窗口。然后选择捕获文本选项以将命令添加到代理。

15.通过在每个Web元素上单击两次,为“内部”,“外部”,“阳台”和“套房” Web元素添加命令。

16.更改新命令的名称,以便您的代理如下图所示。

Content Grabber:如何建立第一个采集规则

代理资源管理器显示所有捕获文本命令

17.到目前为止,我们已经创建了代理以提取第一页上的所有巡航信息。我们需要对其进行设置以遍历所有搜索结果页面。为此,我们需要使用“ 跟随分页”命令来跟随每个页面。向下滚动页面,然后选择“ 下一步” 链接。然后在所选元素上再单击一次以显示“ 内容收集器消息” 窗口。

Content Grabber:如何建立第一个采集规则

选择了“跟随分页”选项的“内容收集器消息”窗口

18.现在,我们选择“ 跟随分页” 选项以将分页命令添加到代理。
Content Grabber已将分页命令添加到代理,并在第二个浏览器选项卡上加载下一页。

19.单击分页命令时,我们可以看到分页命令内部的所有搜索列表命令。这意味着我们的代理现在将遍历所有搜索结果页面以提取此信息。

Content Grabber:如何建立第一个采集规则

显示分页命令内容的Agent Explorer

20.我们现在已经完成了Agent的构建,因此我们应该保存它。要保存代理,请在Content Grabber菜单中选择“ 文件”>“保存” ,然后输入代理名称“ cruisedirect”。然后单击“ 保存” 按钮以提交更改。

在下一节“ 优化数据”中,我们使用Content Grabber的Content Transformation方法更改提取的价格数据。

如何优化您的数据

在上一部分中,我们向代理添加了命令以捕获我们所需的所有Cruise价格内容。价格包含$符号,但我们想摆脱该$符号,因此我们留下一个干净的数字。

1.首先在“ 代理资源管理器”中编辑“内部价格”命令。

Content Grabber:如何建立第一个采集规则

2.接下来,我们向下滚动到捕获样本窗口,然后仅选择价格编号。您应该注意到,“ 转换脚本”按钮现在已更改为“ 生成转换”按钮。

Content Grabber:如何建立第一个采集规则

在“配置代理命令”面板中选择要转换的文本

3.现在单击“ 生成转换” 按钮,现在我们可以在“ 转换的” 窗口中仅看到价格编号。

Content Grabber:如何建立第一个采集规则

“配置代理程序命令”面板中的转换文本

4.单击保存以保存转换。

5.对“外部价格”,“阳台价格”和“套房价格”重复上述步骤。

在下一节“ 输出数据格式”中,我们查看可用于提取的Web数据的数据输出格式,并展示如何更改和配置新的导出目标。

输出数据格式

Content Grabber可以将提取的Web数据导出为报告或导出到许多不同的数据库类型。数据输出选项包括CSV,Excel,XML,SQL Server,MySQL,Oracle和OleDB。

您还可以使用Content Grabber导出脚本来完全自定义数据导出到您自己的数据库结构。当您希望动态更新数据更新(例如在线网站/门户)时,此功能很有用。

Content Grabber可以将数据导出到Excel 2003+,并利用Excel 2007+中的功能,例如大纲和嵌入式图像。

数据提取项目完成后,数据会自动导出到您选择的导出目标,因此您不必手动导出数据。但是,您始终可以随时随时将提取的数据手动导出到任何导出目标。

以下步骤显示选择要使用的数据导出类型有多么容易。

1.我们首先单击Content Grabber的“ 数据”菜单,然后单击“ 更改导出目标” 按钮。

Content Grabber:如何建立第一个采集规则

Content Grabber的“数据”菜单

2.单击“ 更改导出目标”按钮后,将显示“ 数据配置”窗口。该窗口允许您更改和配置新的导出目标。默认选项是Excel2003。
单击“ 导出目标” 下拉列表框以显示可用的其他报表和数据库导出选项。然后选择您要使用的格式。 您还可以更改输出数据文件的默认目标文件夹位置。

Content Grabber:如何建立第一个采集规则

Content Grabber的“数据配置”窗口

在下一节“ 测试您的代理”中,我们使用Content Grabber的调试功能来测试“ cruisedata”代理是否按预期运行。

如何测试您的采集规则

一旦完成代理的开发,对它进行测试很重要,以确保提取了正确的数据并采用了所需的格式。Content Grabber具有完善的调试引擎,使您能够仔细分析代理的各个方面以及提取的数据。它还可以帮助您查明代理代码中的任何问题点,以便您快速解决它们。有关Content Grabber中可用的调试器功能的更多详细信息,请参阅测试/调试代理

现在,让我们运行Cruise Direct代理以检查命令是否正常运行。

要进行测试运行,请单击屏幕左上方的“调试”菜单选项,然后单击“开始”箭头按钮以开始调试。

Content Grabber:如何建立第一个采集规则

运行Cruise Direct Agent的Content Grabber调试器

在调试过程中,我们可以观察并检查Content Grabber是否依次执行每个命令并处理每个网页以提取所需的数据。

在运行代理的部分过程中,我们将单击“停止”按钮以停止调试。然后单击“查看导出数据”以检查输出结果是否正确。

Content Grabber:如何建立第一个采集规则

Content Grabber的导出数据默认视图

要在Excel中查看导出数据,我们只需单击“打开导出的电子表格”按钮即可打开Excel电子表格。

Content Grabber:如何建立第一个采集规则

在Excel电子表格中查看Cruise Direct的导出结果

提取的数据在每个出发日期均包含一行,但是您也可以选择将日期和价格信息保存在单独的数据表中。导出到Excel后,数据将如下图所示。

Content Grabber:如何建立第一个采集规则
在Excel电子表格中查看Cruise Direct的导出结果

在下一部分“ 计划”中,您将学习如何设置代理,以便可以按您选择的时间间隔自动运行代理。

如何启用计划任务

Content Grabber提供了代理程序调度功能,使您可以在需要时在预定的时间段自动运行代理程序。可以每小时,每天,每月,每年等进行此操作。

完成代理后,您将可以使用此功能。从Content Grabber应用程序顶部的“ 代理设置” 菜单中。只需单击“ 计划” 菜单选项以显示“计划”窗口。

Content Grabber:如何建立第一个采集规则

内容收集器的计划窗口

有关如何配置内容抓取的调度功能,或者如果您想了解如何使用的详细信息Windows任务调度程序与你的代理,是指计划在内容抓取编辑器部分。

在下一节“运行您的代理”中,我们将向您展示如何运行完成的网络抓取代理。

运行采集规则

既然我们已经完成了开发和测试Cruise Direct Agent的使用,就可以使用它了。

要运行您的代理,您只需单击Content Grabber应用程序左上方的“运行” 菜单,然后单击“ 运行代理” 箭头选择。

Content Grabber:如何建立第一个采集规则

Content Grabber的“运行”菜单选择

注意:如果您已安排代理在以后的某个时间或日期运行,则可以将其保留在启用Internet的PC或服务器上,它将自动运行。有关更多详细信息,请参阅计划