第十二章 http协议

本文涉及的产品
密钥管理服务KMS,1000个密钥,100个凭据,1个月
简介:

12.1 http协议简介

  http(HyperText Transfer Protocol,超文本传输协议)是互联网上应用最为广泛的一种网络协议。所有的www文件都必须遵守这个标准。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。1960年美国人Ted Nelson构思了一种通过计算机处理文本信息的方法,并称之为超文本(hypertext)。这成为HTTP超文本传输协议标准架构的发展根基。

  超文本就是带有超链接的文本,超链接就是基于一些链接实现文档间跳转的文本。


  http协议是一种无状态的协议(stateless):

  服务器无法持续追踪访问者来源,为了解决此问题引入了cookie和session,实现追踪与保存用户的行为


12.2 http技术架构

  http是一个客户端和服务器端请求和应答的标准(TCP)。客户端是终端用户,服务器端是网站。

  通过使用web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTTP请求。

  这个客户端被称作用户代理(User Agent)。

  应答的服务器上存储着一些资源,比如HTML文件和图像,这个应答服务器被称作源服务器(Origin Server)。


  在用户代理和源服务器中间可能存在多个中间层,比如代理,网关,或者隧道。尽管TCP/IP协议是互联网上最流行的应用,HTTP协议并没有规定必须使用它和基于它支持的层。事实上,HTTP可在任何其他互联网协议上,或者在其他网络上实现。HTTP只假定其下层协议提供可靠的传输,任何能够提供这种保证的协议都可以被其使用。


  通常,由HTTP客户端发起一个请求,建立一个到服务器指定端口的TCP连接。HTTP服务器则在那个端口监听客户端发送过来的请求。一旦收到请求,服务器向客户端发回一个状态行,比如“HTTP/1.1 200 OK”和响应的消息,消息的消息团体可能是请求的文件、错误消息或者其它一些信息。HTTP使用TCP而不是UDP的原因在于打开一个网页必须传送很多数据,而TCP协议提供传输控制,按顺序组织数据和错误纠正。


  通过HTTP或者HTTPS协议请求的资源由统一资源标示符(Uniform Resource Identifiers)来标识。


12.3 http协议功能

  http协议是用于从www服务器传输超文本到本地浏览器的传输协议。它可以使浏览器更加高效,使网络传输减少。它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分以及哪些部分内容首先显示(如文本先于图形)等。


  http是客户端浏览器或其他程序与web服务器之间的应用层通信协议。在internet上的web服务器上存放的都是超文本信息,客户机需要通过http协议传输所要访问的超文本信息。http包含命令和传输信息,不仅可用于web访问,也可以用于其他因特网/内联网应用系统之间的通信,从而实现各类应用资源超媒体访问的集成。


  我们在浏览器的地址栏里输入的网站地址叫做URL(Uniform Resource Locator,统一资源定位符)。就像每家每户都有一个门牌地址一样,每个网页也都有一个internet地址。当你在浏览器的地址框中输入一个URL或是单击一个超链接时,URL就确定了林浏览的地址。浏览器通过HTTP将web服务器上站点的网页代码提取出来,并翻译成漂亮的网页。


12.4 http协议版本

  超文本传输协议已经演化出了很多版本,它们中的大部分都是向下兼容的。在RFC 2145中描述了HTTP版本号的用法。客户端在请求的开始告诉服务器它采用的协议版本号,而后者则在响应中采用相同或者更早的协议版本。

  http协议的版本主要有以下这些:

  HTTP/0.9:最原始版本,功能简陋。只接受GET一种请求方法,没有在通讯中指定版本号,且不支持请求头。由于该版本不支持POST方法,所以客户端无法向服务器传递太多信息。

  HTTP/1.0:这是第一个在通讯中指定版本号的HTTP协议版本,至今仍被广泛采用,特别是在代理服务器中。支持MIME。

  HTTP/1.1:增加了缓存功能,引入了长连接(默认采用),能很好的配合代理服务器工作 ,支持以管理方式同时发送多个请求,以便降低线路负载,提高传输速度。

  HTTP/2.0:大幅度提升了web性能,减少网络延迟,通常用于https


  HTTP/1.1相较于 HTTP/1.0 协议的区别主要体现在:

  a) 缓存处理

  b) 带宽优化及网络连接的使用

  c) 错误通知的管理

  d) 消息在网络中的发送

  e) 互联网地址的维护

  f) 安全性及完整性


12.5 名词解释

  HTML:HyperText Mark Language,超文本标记语言


  URI:Uniform Resource Indentifier,统一资源标识符。用于定义全局范围内(包括但不仅限于互联网)去标记唯一的、定位一种资源访问路径的方式,或者命名方式,被称作统一资源标识符。这里的统一指的是路径格式上的统一。


  URL:Uniform Resource Location,统一资源定位符,是URI的一个子集,用于描述在互联网上互联网资源的统一表示格式(protocol://host:port/path/to/file)

  URL基本语法:

1
<scheme>: // <user>:<password>@<host>:<port>/<path>;<params>?<query> #<frag>

    params:参数,如http://www.idfsoft.com/bbs/index.html;gender=f,这里的gender=f就是一个参数

    query:传递给关系型数据库页面的特定行为。如http://www.idfsoft.com/bbs/item.php?username=tom&title=abc,这个URL表示要查询的是username=name并且title=abc的条目

    frag:用来定义一个较大页面中的某一个位置,而不是页面的开始处。说白点就是位置锚定


  URN:Uniform Resource Naming,统一资源命名符,也是URI的一个子集


  MIME:Multipurpose Internet Mail Extension,多用途互联网邮件扩展。

  MIME可以将非文本数据在传输前重新编码为文本格式再传输给对方,接收方能够用相反的方式将其重新还原为原来的格式,还能够调用相应的程序来打开此文件


  http事务:http协议的一次请求(request)和响应(response)的过程就称之为http事务


  动态网页:包含静态内容和动态内容(动态内容需要执行) 

  服务器端存储的不是HTML文档,而是编程语言开发的脚本,脚本接受参数之后在服务器端运行一次,运行完成之后会生成HTML格式的文档,并把生成好的HTML文档传给客户端


  Web资源:web resource。

    静态文件:.jpg,.gif,.html,.txt,.js,.css,.mp3,.avi

    动态文件:.php,.jsp


  PV:Page View,打开了多少页面

  UV:User View,独立IP量


12.6 http协议报文

  http协议采用了请求/响应模型。客户端向服务器发送一个请求,请求头包含请求的方法、URL、协议版本以及包含请求修饰符、客户信息和内容的类似于MIME的消息结构。服务器以一个状态行作为响应,响应的内容包括消息协议的版本,成功或者错误编码加上包含服务器信息、实体元信息以及可能的实体内容。


  http协议的报文有请求报文和响应报文2种,其语法样式如下:

    请求报文语法:

1
2
3
4
<method> <request-URL> <version>
<headers>
 
<entity-body>

    响应报文语法:

1
2
3
4
<version> <status> <reason-phrass>
<headers>
 
<entity-body>

  报文的第一行通常称作报文“起始行(start line)”,后面的标签格式的内容称作首部域(Header Field),每个首部域由名称(name)和值(value)组成,中间用逗号分隔。

  另外,响应报文通常还有一个称作Body的信息主体,即响应给客户端的内容。


  method:请求方法,标明客户端希望服务器对资源执行的动作,常见的有以下几种:

    GET:从服务器获取一个资源

    HEAD:只从服务器获取文档的响应首部,而不会发送响应内容。当我们只需要查看某个页面的状态的时候,使用HEAD是非常高效的

    POST:向服务器发送要处理的数据。服务器端通常通过提供一个表单,客户端填入数据时会把内容放入entity-body中提交提交给服务器端

    PUT:将请求的主体部分存储在服务器上。说白点就是上传数据

    DELETE:请求删除服务器上指定的文档

    TRACE:追踪请求到达服务器中间经过的代理服务器

    OPTIONS:请求服务器返回对指定资源支持使用的请求方法

  version:http的协议版本,格式如HTTP/<major>.<minor>

  status:响应状态码,用于标记请求处理过程中发生的情况,常见的响应状态码有以下几种:

    1xx:100-101,纯信息提示

      100:服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求,响应状态码为"Continue"

      101:服务器转换协议,服务器将遵从客户的请求转换到另外一种协议,响应状态码为"Switching Protocols"

    2XX:200-206,“成功”类的信息

      200:请求资源正常。请求的所有数据通过响应报文的entity-body部分发送,响应状态码为“OK”

      201:请求被创建完成,同时新的资源被创建,响应状态码为"Created"

      202:供处理的请求已被接受,但处理未完成,响应状态码为"Accepted"

      203:文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝,响应状态码为"Non-authoritative information"

      204:没有新文档。浏览器应该继续显示原来的文档。响应状态码为"No Content"

      205:没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容,响应状态码为"Reset Content"

      206:客户发送了一个带有Range头的GET请求,服务器完成了它

    3XX:300-305,“重定向”类的信息

      301:永久重定向,响应状态码为“Moved Permanently”

        请求的URL指向的资源已经被删除,但在响应报文中通过首部Location指明了资源现在所处的新位置,客户端需要请求新位置的资源

      302:临时重定向,我这里正忙,你要的资源在另一个地方也有,你先去那里要,响应状态码为“Found”

        与301相似,但在响应报文中通过Location指明资源现在所处的临时新位置

      304:客户端发出了条件式请求,但服务器端发现客户端请求的资源已被客户端缓存过且未发生改变,让客户端直接到缓存里去取。响应状态码为“Not Modified”

    4XX:400-415,“客户端错误”类的信息

      400:由于客户端请求有语法错误,不能被服务器所理解,响应状态码为“Bad Request”

      401:需要输入帐号和密码认证方能访问资源,响应状态码为“Unauthorized”

      403:请求被禁止,响应状态码为“Forbidden”

      404:服务器无法找到客户端请求的资源,响应状态码为“Not Found”

    5XX:500-505,“服务端错误”类的信息

      500:服务器内部错误,响应状态码为“Internal Server Error”

      502:代理服务器从后端服务器收到了一条伪响应,响应状态码为“Bad Gateway”

      503:服务器当前不能够处理客户端的请求,在一段时间之后,响应状态码为“Service”

  reason-phrass:解释status状态码的情况,你成功了,是什么成功了,你失败了,是什么失败了,是获取文件成功/失败还是上传文件成功/失败等等。

  headers:用来标记请求或响应的属性

    每个请求或响应报文可包含任意个首部;

    每个首部都有首部名称,后面跟一个冒号,而后跟上一个可选空格,接着是一个值


    格式:Name: Value


    首部的分类

      通用首部:可用在请求报文和响应报文中,常见的内容如下:

        Date:报文的创建时间

        Connection:连接状态,如keep-alive,close等

        Via:显示报文经过的中间节点

        Cache-Control:控制缓存的生效方法和机制

      请求首部:只能在请求报文中使用,常见的内容如下:

        Accept:通知服务器客户端可以接受的媒体类型

        Accept-Charset:通知服务器客户端可以接受的字符集

        Accept-Encoding:通知服务器客户端可以接受的内容编码格式,如gzip

        Accept-Language:通知服务器客户端可以接受的语言

        Client-IP:客户端的IP

        Host:请求的服务器名称和端口号

        Referer:包含当前正在请求的资源的上一级资源

        User-Agent:客户端代理


        条件式请求首部

          Expect:期望服务器端发什么信息

          If-Modified-Since:自从此处指定的时间之后请求的资源是否发生修改

          If-Unmodified-Since:自从此处指定的时间之后请求的资源是否未发生修改

          If-None-Match:本地缓存中存储的文档的ETag标签是否与服务器文档的ETag不匹配

         If-Match:本地缓存中存储的文档的Etag是否与服务器文档的Etag匹配

        安全请求首部

          Authorization:向服务器发送认证信息,如帐号和密码

          Cookie/Cookie2:客户端向服务器发送cookie

        代理请求首部:

          Proxy-Authorization:向代理服务器认证

      响应首部:只能在响应报文中使用

        信息性:

          Age:响应持续时长

          Server:服务器程序软件名称和版本

        协商首部:某资源有多种表示方法时使用

          Accept-Ranges:服务器可接受的请求范围类型

          Vary:服务器查看的其它首部列表

        安全响应首部:

          Set-Cookie:向客户端设置cookie

          Set-Cookie2:向客户端设置cookie2

          WWW-Authenticate:来自服务器的对客户端的质询认证表单

      实体首部:标识实体的相关信息

        Allow:列出对此实体可使用的请求方法

        Location:告诉客户端真正的实体位于何处

        Content-Encoding:内容的编码格式

        Content-Language:内容使用的语言

        Content-Length:主体的长度

        Content-Location:实体真正所处的位置

        Content-Type:主体的对象类型

        缓存相关:

          ETag:实体的扩展标签

          Expires:实体的过期时间

          Last-Modified:最后一次修改的时间

      扩展首部

  entity-body:请求时附加的数据或响应时附加的数据,有可能为空


  请求报文示例:

1
2
3
GET / HTTP /1 .1
HOST:www.baidu.com
Connection:keep-alive

  

  响应报文示例:

1
2
3
4
5
6
HTTP /1 .1 200 OK
X-Powered-By:PHP /5 .2.17
Vary:Accept-Encoding,Cookie,User-Agent
Cache-Control:max-age=3,must-revalidate
Content-Encoding: gzip
Content-Length:6931


12.7 http周边

  常见的协议查看、分析的工具:

    tcpdump

    tshark

    wireshark


  常见的http服务器程序:

    httpd(apache)

    nginx

    lighttpd

    应用程序服务器:可以处理动态文件

      IIS

      tomcat,jetty,jboss,resin

      webshpere,weblogic,oc4j


  常用的http压力测试工具:

    ab:

      语法:ab [options] URL

      -n:总的请求数

      -c:模拟的并发数

      -k:以持久连接模式测试

    webbench

    http_load

    jmeter

    loadrunner

    tcpcopy


  ulimit -n #:调整当前用户所能够同时打开的文件数


 web服务器资源路径映射方式:

    docroot

    alias

    虚拟主机docroot

    用户家目录docroot


  并发访问响应模型(Web I/O):此处假定每个进程内只有一个线程

    单进程I/O结构:启动一个进程处理请求,而且一次只处理一个,多个请求被串行响应

    多进程I/O结构:并行启动多个进程,每个进程响应一个请求

    复用I/O结构:一个进程响应多个请求

      多线程模型:一个进程生成多个线程,每个线程响应一个用户请求

      事件驱动

    复用的多进程I/O结构:启动多个(m)进程,每个进程响应n个请求


12.8 https

  https其实就是将ssl或tls应用于http协议的结果,https监听于tcp/443端口


  ssl会话的简化过程如下:

  (1)客户端发送可供选择的加密方式,并向服务器请求证书

  (2)服务器端发送证书以及选定的加密方式给客户端

  (3)客户端取得证书并进行证书验证

    如果信任给其发证书的CA:

    a) 验证证书来源的合法性:用CA的公钥解密证书上的数字签名

    b) 验证证书内容的合法性:完整性验证

    c) 检查证书的有效期限

    d) 检查证书是否被吊销

    e) 证书中拥有者的名字,与访问的目标主机要一致

  (4)客户端生成临时会话密钥(对称密钥),并使用服务器端的公钥加密此数据发送给服务器,完成密钥交换

  (5)服务器用密钥加密用户请求的资源,响应给客户端

  注意:SSL会话是基于IP地址创建,所以单IP的主机上,仅可以使用一个https虚拟主机


  WEB服务器的主要操作:

    建立连接——接受或拒绝客户端连接请求;

    接收请求——通过网络读取HTTP请求报文;

    处理请求——解析请求报文并做出相应的动作;

    访问资源——访问请求报文中相应的资源;

    构建响应——使用正确的首部生成HTTP响应报文;

    发送响应——向客户端发送生成的响应报文;

    记录日志——当已经完成的HTTP事务记录进日志文件










本文转自 忘情OK  51CTO博客,原文链接:http://blog.51cto.com/itchentao/1931364,如需转载请自行联系原作者
目录
打赏
0
0
0
0
234
分享
相关文章
Nginx中配置HTTP2协议的方法
Nginx中配置HTTP2协议的方法
136 7
Web基础与HTTP协议
通过掌握这些基础知识和技术,开发者可以更加高效地构建和优化Web应用,提供更好的用户体验和系统性能。
66 15
【网络原理】——HTTP协议、fiddler抓包
HTTP超文本传输,HTML,fiddler抓包,URL,urlencode,HTTP首行方法,GET方法,POST方法
从零开始掌握HTTP协议
本文介绍HTTP协议的演变,从HTTP1.0到HTTP2.0。HTTP1.0为无状态连接,每次请求独立;HTTP1.1引入持久连接、管道化请求和更多状态码;HTTP2.0采用二进制分帧、多路复用、头部压缩及服务器主动推送,大幅提升性能与用户体验。了解这些区别有助于开发者优化应用和服务。
探索网络模型与协议:从OSI到HTTPs的原理解析
OSI七层网络模型和TCP/IP四层模型是理解和设计计算机网络的框架。OSI模型包括物理层、数据链路层、网络层、传输层、会话层、表示层和应用层,而TCP/IP模型则简化为链路层、网络层、传输层和 HTTPS协议基于HTTP并通过TLS/SSL加密数据,确保安全传输。其连接过程涉及TCP三次握手、SSL证书验证、对称密钥交换等步骤,以保障通信的安全性和完整性。数字信封技术使用非对称加密和数字证书确保数据的机密性和身份认证。 浏览器通过Https访问网站的过程包括输入网址、DNS解析、建立TCP连接、发送HTTPS请求、接收响应、验证证书和解析网页内容等步骤,确保用户与服务器之间的安全通信。
66 1
Apache Dubbo 正式发布 HTTP/3 版本 RPC 协议,弱网效率提升 6 倍
在 Apache Dubbo 3.3.0 版本之后,官方推出了全新升级的 Triple X 协议,全面支持 HTTP/1、HTTP/2 和 HTTP/3 协议。本文将围绕 Triple 协议对 HTTP/3 的支持进行详细阐述,包括其设计目标、实际应用案例、性能测试结果以及源码架构分析等内容。
HTTPS协议是**一种通过计算机网络进行安全通信的传输协议
HTTPS协议是**一种通过计算机网络进行安全通信的传输协议
75 11
HTTPS协议的历史发展
HTTPS协议的历史发展
50 8
判断一个网站是否使用HTTPS协议
判断一个网站是否使用HTTPS协议
102 4
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等