透视 HTTP 协议
罗剑锋(Chrono)
前奇虎 360 技术专家,Nginx/OpenResty 开源项目贡献者
63942 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 48 讲
开篇词 (1讲)
透视 HTTP 协议
15
15
1.0x
00:00/00:00
登录|注册

09 | HTTP报文是什么样子的?

原因
状态码
版本号
版本号
请求目标
请求方法
头部字段
状态行
头部字段
请求行
多个空格的使用情况
多加空行的影响
Host字段的重要性
头部字段的格式
请求行和状态行
请求头和响应头
HTTP报文结构
Content-Length
Server
Date
User-Agent
Host
实体字段
响应字段
请求字段
通用字段
响应报文
请求报文
大头儿子比喻
课下作业
小结
常用头字段
头部字段
HTTP报文结构

该思维导图由 AI 生成,仅供参考

在上一讲里,我们在本机的最小化环境了做了两个 HTTP 协议的实验,使用 Wireshark 抓包,弄清楚了 HTTP 协议基本工作流程,也就是“请求 - 应答”“一发一收”的模式。
可以看到,HTTP 的工作模式是非常简单的,由于 TCP/IP 协议负责底层的具体传输工作,HTTP 协议基本上不用在这方面操心太多。单从这一点上来看,所谓的“超文本传输协议”其实并不怎么管“传输”的事情,有点“名不副实”。
那么 HTTP 协议的核心部分是什么呢?
答案就是它传输的报文内容。
HTTP 协议在规范文档里详细定义了报文的格式,规定了组成部分,解析规则,还有处理策略,所以可以在 TCP/IP 层之上实现更灵活丰富的功能,例如连接控制,缓存管理、数据编码、内容协商等等。

报文结构

你也许对 TCP/UDP 的报文格式有所了解,拿 TCP 报文来举例,它在实际要传输的数据之前附加了一个 20 字节的头部数据,存储 TCP 协议必须的额外信息,例如发送方的端口号、接收方的端口号、包序号、标志位等等。
有了这个附加的 TCP 头,数据包才能够正确传输,到了目的地后把头部去掉,就可以拿到真正的数据。
HTTP 协议也是与 TCP/UDP 类似,同样也需要在实际传输的数据前附加一些头数据,不过与 TCP/UDP 不同的是,它是一个“纯文本”的协议,所以头数据都是 ASCII 码的文本,可以很容易地用肉眼阅读,不用借助程序解析也能够看懂。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

HTTP报文是HTTP协议的核心部分,它在规范文档里详细定义了报文的格式,规定了组成部分、解析规则和处理策略。HTTP报文的结构包括起始行、头部字段集合和消息正文。请求报文的起始行包括请求方法、请求目标和版本号,而响应报文的起始行则包括版本号、状态码和原因。头部字段以key-value形式呈现,具有灵活的扩展性,但需要遵循一定的规范。报文必须有头部,但可以没有消息正文,且在头部之后必须有一个“空行”。 HTTP报文的解析和处理主要涉及头字段的处理,理解了头字段也就理解了HTTP报文。常用头字段包括Host字段、User-Agent字段、Date字段、Server字段和Content-Length字段等。这些字段在请求和响应中扮演不同的角色,用于指示请求的处理主机、描述客户端信息、标记报文创建时间、提供服务器软件信息以及表示报文body的长度。 总之,HTTP报文结构简单明了,但其中的细节却是非常讲究的,对请求方法和请求目标的组合变化多端。了解其结构和规范对于理解HTTP协议的工作原理至关重要。在实际应用中,对头字段的理解和使用至关重要,它们可以实现各种功能,如连接管理、缓存控制等。通过学习HTTP报文的结构和常用头字段,读者可以更好地理解和处理HTTP协议,为网络通信提供更有效的支持。 在课下作业中,读者可以思考HTTP报文中头字段的使用,如多加一个空行会导致什么问题,以及为什么大多数情况下头字段后只使用一个空格。这些问题有助于加深对HTTP报文结构和头字段的理解。 通过本文的总结,读者可以快速了解HTTP报文的重要性、结构和常用头字段的作用,为进一步深入学习和应用HTTP协议奠定基础。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《透视 HTTP 协议》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(110)

  • 最新
  • 精选
  • 1:如果拼 HTTP 报文的时候,在头字段后多加了一个 CRLF,导致出现了一个空行,会发生什么? 在header 下面第一个空行以后都会被当作body 体 2:讲头字段时说“:”后的空格可以有多个,那为什么绝大多数情况下都只使用一个空格呢? 头部多一个空格就会多一个传输的字节,去掉无用的信息,保证传输的头部字节数尽量小

    作者回复: 回答的很好。

    2019-06-17
    5
    150
  • 壹笙☞漂泊
    答题: 1、头字段后多了一个CRLF,会被当做body处理 2、节省资源 总结: HTTP协议的请求报文和相应报文的结构基本相同: 1、起始行(start line):描述请求或响应的基本信息 2、头部字段集合(header):使用key-value形式更详细的说明报文 3、消息正文(entity):实际传输的数据,它不一定是纯文本,可以是图片、视频等二进制数据 HTTP协议必须有header,可以没有body。而且header之后必须要有一个空行,也就是 “CRLF”,十六进制的“0D0A” 请求行(请求报文里的起始行): 描述了客户端想要如何操作服务器端的资源 起始行由三部分构成: 1、请求方法:标识对资源的操作:GET/POST/PUT 2、请求目标:通常是一个URI,标记了请求方法要操作的资源 3、版本号:标识报文使用的HTTP协议版本 以上三部分,通常使用空格分隔,最后用CRLF换行 状态行:(响应报文里的起始行): 服务器响应的状态 状态行也是由三部分构成: 1、版本号:标识报文使用的HTTP协议版本 2、状态码:三位数,用代码形式标识处理的结果,比如200是成功,500是服务器错误 3、原因:作为数字状态码补充,是更详细的解释文字,帮助人理解原因 以上三部分,通常也使用空格分隔,最后用CRLF换行 头部字段: 请求行或状态行再加上头部字段集合就构成了HTTP报文里完整的请求头或响应头。 头部字段是key-value的形式,用“:”分隔,最后用CRLF换行标识字段结束 头字段,不仅可以使用标准的Host等已有开头,也可以任意添加自定义头 注意: 1.字段名不区分大小写,例如“Host"也可以写成“host”,但首字母大写的可读性更好; 2.字段名里不允许出现空格,可以使用连字符“一”,但不能使用下划线“”。例 如,“test-name”是合法的字段名,而“test name""test_ name' 是不正确的字段名; 3.字段名后面必须紧接着“:”,不能有空格,而“:” 后的字段值前可以有多个空格; 4.字段的顺序是没有意义的,可以任意排列不影响语义; 5.字段原则上不能重复,除非这个字段本身的语义允许,例如Set-Cookie。 常用头字段 基本分为四类: 1.通用字段:在请求头和响应头里都可以出现; 2.请求字段:仅能出现在请求头里,进一步说明请求信息或者额外的附加条件; 3.响应字段:仅能出现在响应头里,补充说明响应报文的信息; 4.实体字段:它实际上属于通用字段,但专门描述body的额外信息。 Host:请求字段,只能出现在请求头。是必须出现的字段 User-Agent:是请求字段,只能出现在请求头里。 Date:是通用字段,通常出现在响应头,标识HTTP报文创建的时间,客户端可以使用这个时间再搭配其他字段决定缓存策略 Server字段是响应字段,只能出现在响应头里。告诉客户端当前正在提供Web服务的软件名称和版本号。 Content-Length:标识报文里body的长度。

    作者回复: 总结的非常好,赞!

    2019-06-17
    47
  • Mèow
    请问Host虽然是规定必须的,但是不加的话也没问题吗?我看掘金的主页就没有host,而是用的几个私有字段 :authority: juejin.cn :method: GET :path: / :scheme: https

    作者回复: Host是必须要有的字段,你贴的这几个实际上是http/2的字段(前面有冒号,全小写),而:authority就相当于http/1里的host。

    2021-02-04
    27
  • xing.org1^
    老师,请问为什么请求头太大会占用服务器资源呢?

    作者回复: 因为服务器必须分配内存存储请求头,然后才能处理,如果头很大,比如说16k,那么几万个请求就会占用非常多的内存。 Nginx里限制头不超过4k,就是为了节约内存资源。

    2019-06-19
    5
    25
  • 隰有荷
    为啥老师懂的这么多!唉,何时能学成你的一半水平,我也就满意了😂

    作者回复: 学业有先后,术业有专攻,一起努力。

    2019-06-21
    14
  • 10
    我也遇到了前面2个同学提到的遗失对主机的连接的问题,但老师您的回答貌似没解决问题,我再确认一下,在浏览器可以顺利访问www.chrono.com的情况下: 1. Win+R打开Telnet后,输入 “open www.chrono.com 80”,点击回车,然后界面显示“正在连接open www.chrono.com 80” 2. 上一步漫长的等待后,界面显示“按任意键继续” 3. 我按了空格,界面上新增一行“遗失对主机的连接” 另外老师您说的“按Ctrl+]键,然后回车”我在上面1步和第3步都试过 每次都显示“无效指令” 请问我是哪一步出的问题呢

    作者回复: 不需要等待,在显示“正在连接”的时候按按Ctrl+]键,然后回车。 “正在连接”的意思是已经连上了。 可以再搜索一下Windows上Telnet的用法。

    2019-06-19
    4
    10
  • qzmone
    我也不是很理解这个host字段,比如一个网站的域名解析后的IP是负载均衡的IP,负载均衡后面对应的是web主机集群,那么这个host是什么,浏览器怎么知道虚拟主机的真实IP呢

    作者回复: host字段是给Web服务器(Apache,Nginx)用的。 解析出ip后,请求到达Nginx,因为上面运行了很多的虚拟主机,比如a.com/b.com/c.com,那么应该进那个呢? 这个时候就要用到host字段了。如果host=b.com,那么Nginx就会使用b.com的配置提供服务。 你最后的问题其实是反了,浏览器解析域名得到ip地址,它不知道域名对应的是不是虚拟主机,也可能是真实主机。

    2019-06-17
    2
    10
  • 文華
    使用Telnet遇到问题的同学请注意,“Escape Character is 'Ctrl+]'"这提示的意思是已经连接到了服务器,按Ctrl+]就结束连接退出了,所以看到提示时直接将HTTP请求内容贴上去,再按回车加入空行,就能得到响应了。

    作者回复: 欢迎同学们互相交流学习经验。

    2019-10-23
    8
  • -W.LI-
    支持老师原声。赞一个

    作者回复: 理解万岁。

    2019-06-17
    8
  • 面罩
    说一下老师所说的 telnet 怎么用: 1. win + r,输入 telnet,确定后就打开了 2. 在界面中输入 open www.chrono.com 80,并回车 3. 接下来会显示 “正在连接 www.chrono.com....”,就已经表示连接上了 4. 接下来先 ctrl + ],然后再 enter,即可进入黑乎乎的编辑页面 5. 在编辑页面输入老师给的请求信息(我是手敲的,我复制过去貌似直接发请求了,应该是复制的格式不对,导致失败了) 6. 输入请求信息后,连续点击两次 enter,即可发送请求

    作者回复: great

    2021-09-01
    4
    7
收起评论
显示
设置
留言
99+
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部