Content Grabber代理由执行导航网站和提取内容的命令组成。
您可以通过在Content Grabber Web浏览器中选择一个Web元素来手动配置命令,然后使用配置窗口指定和配置应该对所选Web元素执行的操作。
您还可以通过单击选定的Web元素,然后从适用于选定Web元素类型的适当操作列表中选择,让Content Grabber自动配置命令。
有关配置命令的更多信息,请参见代理命令。
自动配置多个命令
Content Grabber可以自动配置多个命令,以从网页的整个区域提取内容,例如完整的HTML表或搜索结果。
要自动配置多个命令,请选择要从中提取数据的整个页面区域,例如HTML表格,然后再次单击所选区域以打开“添加命令”对话框窗口。
如果您选择的区域中包含多个Web元素,则可以选择捕获所有Web元素。此选项将为选定区域中的每个Web元素添加默认捕获命令。下图显示了使用“ 捕获所有Web元素”选项添加的命令的示例。
Content Grabber通常会添加比您所需更多的捕获命令,并且您将必须手动删除不需要的命令。
Content Grabber将自动尝试为添加的命令分配名称,但是在大多数情况下,您将不得不更改名称以使它们更有意义。
捕获HTML表或列表
如果在Web浏览器中选择了多个Web元素,则将在“添加命令”对话框窗口中获得“ 捕获列表”或“表 ”的选项。此选项将为您选择的列表添加命令,并且在列表内将为每个Web元素添加默认捕获命令。
如果选择了包含列表或HTML表格的单个Web元素,则还将在“添加命令”对话框窗口中获得“ 捕获列表或表格 ”的选项。此选项将在所选Web元素中找到第一个列表或表,并向您的代理添加一个列表命令,以遍历该表或列表中的每一行,并且在列表中,它将为每个Web元素添加默认捕获命令。
从“添加命令”对话框窗口中选择“ 捕获列表”或“表”选项后,您将获得一个新的对话框窗口,您可以在其中选择所选表或列表的类型。
您可以选择下表或列表类型之一。
表或列表类型 |
描述 |
带标题行的表 |
第一行包含标题文本的表。标头文本不会被提取,但将用于命名捕获命令。标题文本对于每一列必须是唯一的。 |
没有标题文本的表 |
没有标题文本的表。捕获命令将使用自动生成的名称。 |
名称/值对表 |
具有两列的表,其中第一列包含值名称,第二列包含值。值名称将不会被提取,但将用于命名捕获命令。值名称必须唯一。 |
清单 |
任何简单的内容列表。将为列表中的每个Web元素添加一个捕获命令。捕获命令将使用自动生成的名称。 |
选择表或列表类型后,Content Grabber将添加带有capture子命令的list命令。下图显示了使用“ 捕获列表”或“表”选项添加的命令的示例。
Content Grabber通常会添加比您所需更多的捕获命令,并且您将必须手动删除不需要的命令。
Content Grabber将自动尝试为添加的命令分配名称,但是如果您选择了“ 列表或表无标题文本”选项,则可能必须更改名称以使它们更有意义。
添加具有指定名称的捕获命令列表
在创建满足书面要求的代理时,通常会列出一堆必填字段,并且必须为每个字段添加捕获命令。为了简化此过程,可以在配置单个捕获命令时指定命令名称列表。然后,Content Grabber将为每个指定的名称添加一个命令。
您可以通过使用逗号分隔名称来指定多个命令名称。您可以粘贴用逗号,制表符或换行符分隔的命令名称,Content Grabber会自动生成一个用逗号分隔的名称列表,并且还会删除命令名称中的所有空格。这使得将命令名称直接从需求文档复制和粘贴到Content Grabber变得容易。