Visual Web Ripper是Sequentum发布的另一种Web抓取工具。Content Grabber可以打开Visual Web Ripper项目并将其转换为Content Grabber代理。这不是完全自动化的转换,许多座席在转换后将需要手动调整。
要转换Visual Web Ripper项目,只需在Content Grabber中打开项目文件,就好像它是普通的Content Grabber代理一样。然后,Content Grabber会询问您是否要将项目文件转换为代理。Visual Web Ripper项目将保持不变,因此您无需复制Visual Web Ripper项目。
首先打开Visual Web Ripper项目
好像是正常的代理
系统将要求您将Visual Web Ripper项目转换为代理。
Content Grabber会尝试将所有必需的命令添加到转换后的代理中,但将无法正确设置所有命令属性,因此我们建议您在转换后的代理中测试所有命令,以确保它们正常工作。
下面的列表包括一些功能,这些功能不会从Visual Web Ripper项目中转换而来。这不是完整的列表,并且项目的其他方面可能无法正确转换。
•除了非常简单的“内容转换”脚本之外,不会转换Visual Web Ripper脚本。
• OleDB和Oracle数据库连接将不会转换。所有其他数据库连接将转换为共享连接。
• Content Grabber中不提供“专用代理交换机”选项。
• PAC代理配置将不会转换。
•大多数页面转换元素将需要后期配置。
•标签名称属性在Content Grabber中不可用。
•如果将属性SaveDataMethod设置为Default以外的任何设置,则将需要后期配置。
•许多Back模板将需要后期配置。
•多个页面导航模板一起使用将需要后期配置。
•使用“动态链接”或“链接列表”的页面导航模板有时需要进行后期配置
•所有操作将转换为属性“ 检测操作”设置为true的操作。所有其他动作配置,包括wait元素,将被忽略。
•使用“ 开始索引”和“ 计数”属性的“ 表单域”元素通常需要后配置。
•表单字段查找数据源将不会转换。
•项目用户代理设置将不会转换。
• CAPTCHA配置将不会转换。
•文件转换将不会被转换。
•通过表单提交下载的文档将不会转换。
•计划配置不会转换。
•通知配置不会被转换。
•重复检查有时需要后期配置
•项目,模板和内容中许多很少使用的选项在Content Grabber中没有相应的选项,因此不会被转换。