Content Grabber · 2019年11月30号 0

Content Grabber 基础：HTML内容

HTML代表超文本标记语言 -用于创建网页的标准标记语言。它包含在HTML文档中由括号中的标记（例如<html>）定义的内容。通常，这些标签是成对出现的，它们代表的内容的每一端都有一个（例如<h1>和</ h1 >）。一对中的第一个标签是开始标签，第二个标签是结束标签（也称为开始标签和结束标签）。某些表示空元素的标签不是成对出现的，例如<img>。

Web浏览器的目的是读取HTML文档并将其组成可见的网页。浏览器不显示HTML标签，而是解释标签并在与该标签相对应的页面上显示内容。HTML 语义上描述了网页的结构，并带有提示的提示。这将其区别为标记语言而不是编程语言。

HTML元素是任何网站的组成部分，包括嵌入的图像和对象以及交互形式。它通过表示文本的结构语义（例如标题，段落，列表，链接，引号和其他项目）来提供页面的结构。它还可以包含用JavaScript等语言编写的脚本，该脚本控制HTML网页的行为。

Content Grabber使用XPath选择特定的HTML标签，然后从这些标签中提取内容。HTML标记可以同时包含文本和属性。例如，显示图像的HTML标记将包含scr 属性，该属性指定要显示的图像的URL。Content Grabber可以提取标签文本和标签属性，并且可以对其提取的内容执行某些操作。例如，它可以从<image> HTML标记提取scr属性，然后使用URL下载图像。

发表回复取消回复