Content Grabber · 2019年11月30号 0

Content Grabber 基础:HTML内容

HTML代表超文本标记语言 -用于创建网页的标准标记语言。它包含在HTML文档中由括号中的标记(例如<html>)定义的内容。通常,这些标签是成对出现的,它们代表的内容的每一端都有一个(例如<h1></ h1 >)。一对中的第一个标签是开始标签,第二个标签是结束标签(也称为开始标签和结束标签)。某些表示空元素的标签不是成对出现的,例如<img>

Web浏览器的目的是读取HTML文档并将其组成可见的网页。浏览器不显示HTML标签,而是解释标签并在与该标签相对应的页面上显示内容。HTML 语义上描述了网页的结构,并带有提示的提示。这将其区别为标记语言而不是编程语言。

HTML元素是任何网站的组成部分,包括嵌入的图像和对象以及交互形式。它通过表示文本的结构语义(例如标题,段落,列表,链接,引号和其他项目)来提供页面的结构。它还可以包含用JavaScript等语言编写的脚本,该脚本控制HTML网页的行为。

Content Grabber使用XPath选择特定的HTML标签,然后从这些标签中提取内容。HTML标记可以同时包含文本和属性。例如,显示图像的HTML标记将包含scr 属性,该属性指定要显示的图像的URL。Content Grabber可以提取标签文本和标签属性,并且可以对其提取的内容执行某些操作。例如,它可以从<image> HTML标记提取scr属性,然后使用URL下载图像。