DC学院数据分析学习笔记(二):爬虫需要的HTML

简介: 简单记一下爬虫需要的HTML

关于html,之前也稍微了解过一些,又碰到了,那么就系统的学习一下

HTML

超文本标记语言(HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。

什么是 HTML?

HTML 是用来描述网页的一种语言。

  • HTML 指的是超文本标记语言 (Hyper Text Markup Language)
  • HTML 不是一种编程语言,而是一种标记语言 (markup language)
  • 标记语言是一套标记标签 (markup tag)
  • HTML 使用标记标签来描述网页
  • HTML 文档包含了HTML 标签及文本内容
  • HTML文档也叫做 web 页面

HTML代码的一般形式

一个基本的网页代码框架:

<!DOCTYPE html>
<html>

<head>
<title>文档标题</title>
</head>

<body>
文档内容......
</body>

</html>

标签基本格式:<标签名 属性名1=“属性值” 属性名2=“属性值” ……>文件内容标签名>

<! DOCTYPE html>:用于代码开头指定html版本等信息

<html></html>:告知浏览器这是一个 HTML 文档,是 HTML 文档中最外层的元素

<head></head>:所有头部元素的容器,必须包含文档的标题(title),可以包含脚本、样式、meta 信息以及其他

<title></title>:定义文档的标题,定义浏览器工具栏中的标题,显示在搜索引擎结果中的页面标题

<body></body>:定义文档的主体,包含文档的所有内容(比如文本、超链接、图像、表格和列表等)

<h1></h1>:定义 HTML 标题,从<h1>到<h6>标题的重要程度逐渐降低

<p></p>:定义段落,浏览器会自动在其前后创建一些空白

<br>:一个简单的换行符,是一个空标签,意味着它没有结束标签。

<div></div>:定义 HTML 文档中的一个分隔区块或者一个区域部分。经常与 CSS 一起使用,用来布局网页。

用菜鸟教程的HTML网页结构举个例子:

image

HTML链接语法

<a href="url">Link text</a>:href 属性规定链接的目标。
<a href="form.html">Fill Our Form</a>:指向同一服务器同一目录下的form.html
<a href="../parent.html">Parent</a>:指向同一服务器父目录下的parent.html
<a href="stuff/cat.html">Catalog</a> :指向同一服务器子目录stuff下的cat.html
<a href="https://baidu.com" target="_blank">baidu</a>:指向外部网站 。其中,使用了 Target 属性,可以定义被链接的文档在何处显示,这里的会在新窗口打开网页

特别的,在HTML链接中有个id属性

id属性可用于创建在一个HTML文档书签标记

提示: 书签是不以任何特殊的方式显示,在HTML文档中是不显示的,所以对于读者来说是隐藏的

引用菜鸟教程中的例子:

HTML图像

<img src="url" alt="some_text">:src 指 "source",即图像的 URL 地址。alt属性是在图片无法显示时,替换上去的文本。
和超链接结合起来,可以为插入的图片添加超链接:

<a href="test.html"><img src="test.jpg" /></a>

还可以设置图像的高度于宽度:

<img src="pulpit.jpg" alt="Pulpit rock" width="304" height="228">:最好设置一下,因为没有指定图片的大小,加载页面时有可能破坏HTML的整体布局

列表

无序列表(unordered list,ul)

例如:

<ul>
<li>Coffee</li>
<li>Milk</li>
</ul>

显示:

  • Coffee
  • Milk

有序列表(ordered list,ol)

例如:

<ol>
<li>Coffee</li>
<li>Milk</li>
</ol>

显示:

  1. Coffee
  2. Milk

表格

<table></table> :表格的开始和结束
<tr></tr> :创建表格的一行
<td></td> :创建表格中普通单元格
<th></th>:创建表格中标题栏单元格

表单

表单元素是允许用户在表单中输入内容,比如:文本域(textarea)、下拉列表、单选框(radio-buttons)、复选框(checkboxes)等等。

引用一个DC学院课堂中的例子:

image

OK !HTML内容还是很多的,说是系统学习一下,其实只学了一下爬虫会可能用到的。

目录
相关文章
|
2月前
|
数据采集 存储 数据挖掘
Python 爬虫实战之爬拼多多商品并做数据分析
Python爬虫可以用来抓取拼多多商品数据,并对这些数据进行数据分析。以下是一个简单的示例,演示如何使用Python爬取拼多多商品数据并进行数据分析。
|
2月前
|
数据采集 数据挖掘 API
主流电商平台数据采集API接口|【Python爬虫+数据分析】采集电商平台数据信息采集
随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序,抓取电商平台的商品信息、价格、评论等数据。 当然,如果是电商企业,跨境电商企业,ERP系统搭建,我们经常需要采集的平台多,数据量大,要求数据稳定供应,有并发需求,那就需要通过接入电商API数据采集接口,封装好的数据采集接口更方便稳定高效数据采集。
|
1月前
|
数据采集 存储 JavaScript
PHP爬虫技术:利用simple_html_dom库分析汽车之家电动车参数
本文旨在介绍如何利用PHP中的simple_html_dom库结合爬虫代理IP技术来高效采集和分析汽车之家网站的电动车参数。通过实际示例和详细说明,读者将了解如何实现数据分析和爬虫技术的结合应用,从而更好地理解和应用相关技术。
PHP爬虫技术:利用simple_html_dom库分析汽车之家电动车参数
|
2月前
|
数据采集 存储 数据挖掘
Python 爬虫实战之爬拼多多商品并做数据分析
在上面的代码中,我们使用pandas库创建DataFrame存储商品数据,并计算平均价格和平均销量。最后,我们将计算结果打印出来。此外,我们还可以使用pandas库提供的其他函数和方法来进行更复杂的数据分析和处理。 需要注意的是,爬取拼多多商品数据需要遵守拼多多的使用协议和规定,避免过度请求和滥用数据。
|
6月前
|
数据采集 存储 数据挖掘
Python 爬虫实战之爬拼多多商品并做数据分析
在上面的代码中,我们使用pandas库创建DataFrame存储商品数据,并计算平均价格和平均销量。最后,我们将计算结果打印出来。此外,我们还可以使用pandas库提供的其他函数和方法来进行更复杂的数据分析和处理。 需要注意的是,爬取拼多多商品数据需要遵守拼多多的使用协议和规定,避免过度请求和滥用数据。
|
2月前
|
Web App开发
某教程学习笔记(一):04、HTML基础
某教程学习笔记(一):04、HTML基础
14 0
|
5月前
|
数据采集 JSON JavaScript
网络爬虫的实战项目:使用JavaScript和Axios爬取Reddit视频并进行数据分析
网络爬虫是一种程序或脚本,用于自动从网页中提取数据。网络爬虫的应用场景非常广泛,例如搜索引擎、数据挖掘、舆情分析等。本文将介绍如何使用JavaScript和Axios这两个工具,实现一个网络爬虫的实战项目,即从Reddit这个社交媒体平台上爬取视频,并进行数据分析。本文的目的是帮助读者了解网络爬虫的基本原理和步骤,以及如何使用代理IP技术,避免被目标网站封禁。
101 0
网络爬虫的实战项目:使用JavaScript和Axios爬取Reddit视频并进行数据分析
|
5月前
|
机器学习/深度学习 自然语言处理 算法
Python预测 数据分析与算法 学习笔记(特征工程、时间序列)2
Python预测 数据分析与算法 学习笔记(特征工程、时间序列)
111 0
|
5月前
|
机器学习/深度学习 算法 数据可视化
Python预测 数据分析与算法 学习笔记(特征工程、时间序列)1
Python预测 数据分析与算法 学习笔记(特征工程、时间序列)
72 0
|
7月前
|
前端开发 JavaScript 算法
网络结构与HTML学习笔记
网络结构与HTML学习笔记
149 0
网络结构与HTML学习笔记