Content Grabber · 2019年11月30号 0

Content Grabber:动态网站数据抓取

使用HTML脚本,客户端动态网页将在初始内容加载并且页面元素可供用户使用后继续加载更多内容。客户端脚本最常用的语言是JavaScript,它可以使用AJAX(异步JavaScript和XML)将其他内容异步加载到网页上。它还可能会修改网页上的现有内容,例如在单击特定的Web元素时启用或禁用内容。

为了正确提取数据,Content Grabber需要检测网页上的任何动态更改。例如,如果要提取AJAX加载到网页上的任何其他数据,则需要配置Content Grabber以等待AJAX​​完成对新内容的处理,然后再开始提取它。

Content Grabber擅长自动检测动态变化。但是,有时JavaScript的行为异常,您可能需要进行调整以正确提取动态内容。例如,Content Grabber可以检测JavaScript何时完成动态内容的AJAX加载。但是它无法准确检测JavaScript何时完成,因此仅需等待几毫秒。如果JavaScript花费了异常长的时间来显示动态内容,则可能需要使用Content Grabber的超时功能为JavaScript显示动态内容插入较短的时间间隔(通常为几毫秒)。

当Content Grabber无法自动配置代理时,熟悉JavaScript可以使配置网络抓取代理以从动态网站提取数据变得更加容易。您可以从网上提供的各种JavaScript教程中了解更多信息,例如:

http://www.w3schools.com/js/