Clay 的技术空间

Linux 使用内存缓存减少磁盘 I/O

2025-11-30T11:50:21.000Z

前言

在 Linux 系统中，磁盘 I/O 往往是性能瓶颈。当应用程序频繁读取大文件（例如多媒体文件、数据库文件、日志文件）时，系统可能因为 I/O 等待而变得非常卡顿。为了减少磁盘压力、提升性能，Linux 提供了多种利用内存作为缓存的机制，例如：tmpfs、ramfs、Page Cache（页缓存）。本文将详细介绍这些机制的使用方法及区别，并给出常见的实践方案。

tmpfs

tmpfs 的概述

tmpfs 是一种基于内存的文件系统：
- 文件实际存储在内存 + 交换分区（Swap）中
- 支持容量限制（挂载时可指定大小）
- 内存不足时，tmpfs 文件可以被交换到 Swap
- tmpfs 的文件内容本质上就是 Page Cache
- 不会导致 OOM（Out of Memory）
- 适合存放临时文件、缓存数据
- 典型的挂载点：/dev/shm、/run
tmpfs 的主要特点
- 支持创建目录（无限层级）
- 支持普通文件
- 支持符号链接、硬链接
- 支持权限、UID/GID
- 支持文件删除（立即释放内存）
- 支持调整大小（动态扩缩）
- 系统重启后会丢失所有数据
tmpfs 的适用场景
- 程序临时文件
- 加速频繁读写的小文件
- 构建系统（make、npm、cargo 等）
- OBS、FFmpeg 等读取多媒体文件减少磁盘压力

tmpfs 的使用

创建挂载点

1	sudo mkdir -p /mnt/ramdisk

挂载 tmpfs

1 2	# 比如限制 4GB 容量 sudo mount -t tmpfs -o size=4G tmpfs /mnt/ramdisk

验证挂载

1	df -h /mnt/ramdisk

开机自动挂载（可选）

# 编辑 fstab 系统配置文件，添加以下配置内容
sudo vim /etc/fstab

# 挂载 fstab 中所有自动挂载的文件系统，并检测配置是否正确
sudo mount -a

1	tmpfs /mnt/ramdisk tmpfs defaults,size=4G 0 0

卸载挂载（可选）

1	sudo umount /mnt/ramdisk

ramfs

ramfs 的概述

ramfs 是最简单的内存文件系统：
- 数据存储在纯内存中
- 没有容量限制
- 内存写满后系统不会阻止继续写入，会持续占用内存
- 内存耗尽就会 OOM，最终导致系统宕机
- 更像一个危险，但读写速度极快的文件系统
ramfs 的主要特点
- 支持创建目录（无限层级）
- 支持普通文件
- 支持符号链接、硬链接
- 支持权限、UID/GID
- 支持文件删除（立即释放内存）
- 不支持大小限制（不能设置 Size，容量可无限增长）
- 数据页不可回收（不会被内核回收）
- 不支持 Swap Out（永远驻留物理内存中）
- 容易导致系统 OOM（写入越多，内存占用越多）
- 系统重启后会丢失所有数据
ramfs 的适用场景
- 极端场景下的高性能缓存
- 只用于开发 / 研究，不建议生产环境使用

ramfs 的挂载

创建挂载点

1	sudo mkdir -p /mnt/ramdisk

挂载 ramfs

1	sudo mount -t ramfs ramfs /mnt/ramdisk

开机自动挂载（可选）

# 编辑 fstab 系统配置文件，添加以下配置内容
sudo vim /etc/fstab

# 挂载 fstab 中所有自动挂载的文件系统，并检测配置是否正确
sudo mount -a

1	ramfs /mnt/ramdisk ramfs defaults 0 0

卸载挂载（可选）

1	sudo umount /mnt/ramdisk

特别注意

由于 ramfs 没有容量限制，如果程序写入大量数据会导致系统 OOM。

Page Cache

Page Cache 的概述

即使用户不主动使用 tmpfs 或 ramfs 文件系统，Linux 内核本身也会自动利用内存作为 “磁盘缓存”。当用户读取一个文件时：

内核将数据加载到操作系统的 Page Cache（页缓存）
下次读取同一个文件时，不再触发磁盘 I/O，直接从内存返回结果

Page Cache 的使用

将文件写入 Page Cache

1	cat video.mp4 > /dev/null

上述命令会：
- 强制把 `video.mp4` 文件从磁盘加载进内存
- 但不输出任何内容
- 后续程序读取 `video.mp4` 文件会命中缓存，不再产生磁盘 I/O

查看缓存使用情况

1 2	# 查看内存使用情况，会看到 buff/cache 部分增大 free -h

清除缓存（慎用，仅测试使用）

# 将所有文件系统的缓存数据写回磁盘
sudo sync

# 清理页缓存、目录缓存和 inode 缓存
sudo sh -c 'echo 3 > /proc/sys/vm/drop_caches'

特别注意

在 Linux 生产环境中，不建议随意清缓存，否则会影响系统性能。

总结说明

tmpfs、ramfs、Page Cache 的优缺点

技术	优点	缺点	适用场景
tmpfs	快、可限制容量、安全	占用系统内存	缓存文件、临时空间、多媒体文件读取
ramfs	极快	不限容量，OOM 风险高	测试、高速缓存（不推荐生产环境使用）
Page Cache	自动、透明、无需修改程序	缓存不可控、可能被挤掉	文件预加载（热加载）

tmpfs 与 ramfs 的主要区别

特性	tmpfs	ramfs
存储位置	内存 + Swap	纯内存（永远不使用 Swap）
内存限制	可限制大小（推荐）	不可限制，体积可无限增长
系统内存压力大时	会将部分数据 Swap 出去	继续占用内存，最终导致系统 OOM
默认缓存行为	文件内容存放在 Page Cache 中，这些页是可回收的，内核在内存压力大时可以回收或 Swap Out	文件内容同样存放在 Page Cache 中，但被标记为不可回收，不会 Swap Out，也不会被回收，因此会永久占用物理内存
OOM 风险	低（可回收）	极高（不可回收）
性能	与 ramfs 速度差异极小，几乎相同	比如 tmpfs 略快，但差距可以忽略
适用场景	安全缓存、高性能临时存储	特殊场景、嵌入式、需要可预测行为

DevOps 的技术选型介绍

2025-11-13T13:12:19.000Z

主流 DevOps 技术栈

GitHub + Jenkins + Docker

GitLab + Jenkins + Harbor + Kubernetes + Docker

基于 Kubernetes 的微服务部署与监控运维架构

Jenkins 作为 CD / DevOps 生态的核心

基于 C++ 手写 Muduo 高性能网络库

2025-11-01T13:55:33.000Z

大纲

前言

本文将基于 C++ 开发一个类似 Muduo 的高性能网络库，项目代码大部分都是从 Muduo 移值过来，同时去掉 Boost 依赖，并使用 C++ 11 进行代码重构，重点是学习 Muduo 的底层设计思想（尤其是 Multiple Reactors 模型）。

学习目标

1、理解阻塞、非阻塞、同步、异步
2、理解 Unix/Linux 上的五种 I/O 模型
3、epoll 的原理以及优势
4、深刻理解 Reactor 模型（基于 I/O 的事件驱动模型）
5、从开源 C++ 网络库 Muduo 的源码中，学习优秀的代码设计
6、掌握基于事件驱动和事件回调的 epoll + 线程池的面向对象编程
7、通过深入理解 Muduo 源码，加深对于网络相关项目的深刻理解
8、改造 Muduo，不依赖 Boost，使用 C++ 11 进行代码重构

知识储备

在使用 C++ 开发高性能的网路库之前，要求先掌握以下前置知识：

1、TCP 协议和 UDP 协议
2、Linux 的 TCP 网络编程和 UDP 网络编程
3、I/O 多路复用编程，包括 select、poll、epoll 库的使用
4、Linux 的多线程编程（pthread）、进程和线程模型
5、C++ 20 标准新加入的协程支持

推荐阅读的书籍

《UNIX 环境高级编程》、《Linux 高性能服务器编程》、《 Linux 多线程服务端编程 - 使用 Muduo C++ 网络库》《鸟哥的 Linux 私房菜》

开发工具

软件	版本	说明
C++ 标准	`11`	C++ 标准的版本
G++（GCC）	`12.2.0`	建议使用 `9` 版本的 G++（GCC）编译器
CMake	`3.25.1`	C/C++ 项目构建工具
Linux	`Debian 12`	Muduo 库不支持 Windows 平台
Visual Studio Code	`1.100.2`	使用 VSCode 远程开发特性

基础概念

阻塞、非阻塞、同步、异步

提示

下面提到的 "I/O 操作" 并不局限于网络 I/O，而是一个广义的 I/O 概念，它既包含网络 I/O（Socket 读写），也包含磁盘 I/O（文件读写）等所有涉及内核态与用户态之间数据交换的操作。
I/O 模型（如阻塞、非阻塞、同步、异步）更多用于讨论网络 I/O，原因是磁盘 I/O 的异步化由操作系统内核自动管理（页缓存 + 异步调度），应用层很少直接干预。

同步与异步的区别
- 同步：
  - 请求方 A 发起 I/O 调用后，由 A 自身完成数据的读写；
  - 无论阻塞与否，A 都要亲自执行数据的读写，将数据从内核缓冲区拷贝到用户空间（或反之）。
- 异步：
  - 请求方 A 发起 I/O 调用后，仅仅发出请求，并由操作系统内核来完成数据的读写；
  - A 不需要等待操作完成，可以继续做其他事情；当操作系统内核完成读写操作后，会通过回调、事件通知等机制通知 A 结果。
阻塞与非阻塞的区别
- 阻塞：
  - 调用未完成前，调用线程会一直等待；
- 非阻塞：
  - 调用立即返回，即使操作未完成，也会返回错误码或状态提示（例如 EAGAIN）。
典型的一次 I/O 操作可以分为两个阶段
- 数据准备（阶段一）：该阶段取决于系统 I/O 操作的就绪状态，即数据是否已经可以被读写
  - 阻塞：调用会等待数据准备好后再继续执行。
  - 非阻塞：调用会立即返回，无论数据是否就绪。
- 数据读写（阶段二）：该阶段取决于应用程序与操作系统内核之间的交互方式
  - 同步：由应用程序主动完成数据的读写，将数据从内核缓冲区拷贝到用户空间（或反之）。
  - 异步：由操作系统内核完成数据的读写，并在操作完成后通知应用程序。

总结

同步 / 异步区分的是谁来完成 I/O 读写（调用方自己还是操作系统内核来完成数据读写）。
阻塞 / 非阻塞区分的是调用方等待的方式（是否挂起等待处理结果）。

常见的四种 I/O 模型

I/O 模型	数据准备阶段	数据读写阶段	调用方行为	示例说明
同步阻塞	阻塞等待数据准备好	调用方执行读写	整个过程会阻塞当前线程	`int size = recv(fd, buf, 1024, 0);`（若无数据则阻塞等待）
同步非阻塞	非阻塞轮询数据准备好	调用方执行读写	调用立即返回，但需要反复尝试调用	设置 `O_NONBLOCK`，多次调用 `recv()` 检查是否有数据可读
异步阻塞	阻塞等待事件完成	操作系统内核完成读写	等待通知，但数据读写由操作系统内核完成	例如 Windows `OVERLAPPED` I/O + `GetOverlappedResult` 阻塞等待
异步非阻塞	非阻塞提交请求	操作系统内核完成读写并通知	完全不阻塞，结果通过回调 / 事件返回	例如 Linux `aio_read()` 或 `io_uring` 提交请求后立即返回

陈硕大神的原话：在处理 I/O 的时候，阻塞和非阻塞都是同步 I/O，只有使用了特殊的 API 才是异步 I/O（如下图所示）。

特别注意

select / poll / epoll 本身只是事件就绪通知机制，它们并不直接完成数据读写，调用它们的线程仍然需要自己去 read() 或 write() 数据。
因此，从严格意义上看，它们属于同步 I/O 实现方式，因为最终的 I/O 读写（即数据读写）是由调用线程自己完成的。
但它们提供了非阻塞的事件等待，使得一个线程可以同时监听多个 fd，而不用一个线程阻塞在一个 fd 上。
真正的异步 I/O 实现，在 Linux 上需要使用 aio_* 系列系统函数或者使用 io_uring。

Unix/Linux 的五种 I/O 模型

Unix/Linux 支持以下五种 I/O 模型：

I/O 模型	阻塞 / 非阻塞	事件通知方式	适用场景
阻塞 I/O	阻塞	同步返回	简单程序，低并发
非阻塞 I/O	非阻塞	轮询	少量 I/O，CPU 可支撑
I/O 多路复用	阻塞或非阻塞	操作系统内核返回就绪事件列表	高并发网络服务器
信号驱动 I/O	非阻塞	信号	小规模异步通知
异步 I/O	非阻塞	回调 / 事件	高并发、对延迟敏感场景

阻塞 I/O（Blocking I/O）

特征：应用程序调用 I/O 函数后，如果数据未就绪，调用线程会被阻塞，直到数据准备完成。
优点：编程实现简单、逻辑直观。
缺点：线程无法同时处理多个 I/O，吞吐量受限。

非阻塞 I/O（Non-Blocking I/O）

特征：I/O 调用立即返回，即使数据未就绪也不会阻塞。应用程序需要通过轮询（Polling）或循环检查，目的是不断检测数据是否已经就绪，以便及时进行数据读写操作。
优点：单线程可以处理多个 I/O。
缺点：轮询会浪费 CPU 资源，逻辑较复杂。

I/O 多路复用（I/O Multiplexing）

典型机制：select、poll、epoll。
特征：单个线程可以同时监听多个 fd，通过操作系统内核返回就绪事件列表，再进行读写操作。
优点：高效管理大量并发连接，避免轮询浪费。
缺点：处理非常大量 fd 时，某些实现（如 select、poll）效率有限。
注意：在 I/O 多路复用中，复用的线程而不是 TCP 连接。由于最终的 I/O 读写（即数据读写）是由调用线程自己完成的，因此从严格意义上看，I/O 多路复用属于同步 I/O 实现方式。

信号驱动 I/O（Signal-Driven I/O）

特征：应用程序注册信号处理函数（如 SIGIO），当 fd 可读或可写时，操作系统内核发送信号通知。
优点：异步通知，无需轮询。
缺点：信号处理复杂，信号丢失或竞态问题较多，不易大规模使用。
注意：操作系统内核在第一个阶段（数据准备）是异步，在第二个阶段（数据读写）是同步；与非阻塞 I/O 的区别在于它提供了消息通知机制，不需要用户进程不断的轮询检查，减少了系统 API 的调用次数，提高了效率。

异步 I/O（Asynchronous I/O）

特征：应用程序发起 I/O 调用后，立即返回；当数据准备好后，由操作系统内核完成数据读写；当数据读写操作完成后，通过信号、回调函数或事件机制通知应用程序。
优点：真正的异步，高效利用 CPU，可处理大量并发 I/O。
缺点：编程复杂，Linux 支持有限（传统 AIO 对网络 I/O 支持不好，io_uring 是新方案）。
注意：这是真正的异步 I/O 实现，在 Linux 上需要使用 aio_* 系列系统函数或者使用 io_uring，Node.js 采用了该 I/O 模型。

优秀的网络服务器设计

在这个 CPU 多核时代，服务端网络编程如何选择线程模型呢？赞同 libev 作者的观点：”one loop perthread is usually a good model”，这样多线程服务端编程的问题就转换为如何设计一个高效且易于使用的 Event Loop，然后每个线程运行一个 Event Loop 就行了（当然，线程间的同步、互斥少不了，还有其它的耗时事件需要起另外的线程来做）。Event Loop 是 Non-Blocking 网络编程的核心，可以简单理解为 Non-Blocking + epoll + thread-pool 的结合。在实际应用中，Non-Blocking 几乎总是与 I/O Multiplexing 一起使用，原因有以下两点：

实际上没有人会采用轮询（Busy-Polling）方式不断检查某个 Non-Blocking I/O 操作是否完成，因为这会严重浪费 CPU 资源。
I/O Multiplexing 通常无法与 Blocking I/O 一起使用，因为在 Blocking I/O 中，accept()、connect()、read()、write() 等调用都有可能阻塞当前线程，从而导致线程无法继续处理其他 Socket 上的 I/O 事件。

所以，当日常提到 Non-Blocking I/O 时，实际上指的是 Non-Blocking + I/O Multiplexing（如 epoll + thread-pool）的组合，如何单独使用其中任意一种，都无法很好地实现高效的网络 I/O。

在网络编程领域中，主流的网络 I/O 模型有以下几种（不限于），Muduo 采用的是第四种（reactors in threads - one loop per thread）。

(1) accept + read/write
- 不适用于并发服务器
(2) accept + fork - process-pre-connection
- 适合并发连接数不大，计算任务工作量大于 Fork 的开销。
(3) accept + thread - thread-pre-connection
- 比第二种网络 I/O 模型的开销小了一点，但是并发造成的线程堆积过多。
(4) reactors in threads - one loop per thread
- 这是 Muduo 库的网络设计方案，底层实质上是基于 Linux 的 epoll + pthread 线程池实现，且依赖了 Boost 库，适用于并发连接数较大的场景。
- 有一个 Main Reactor 负载 Accept 连接，然后将连接分发给某个 SubReactor（采用轮询的方式来选择 SubReactor），该连接的所用操作都在那个 SubReactor 所处的线程中完成。多个连接可能被分派到多个线程中被处理，以充分利用 CPU。
- Main Reactor 中有一个 Base I/O Thread 负责 Accept 新的连接，接收到新的连接以后，使用轮询的方式在 Reactor Pool 中找到合适的 SubReactor 将这个连接挂载上去，这个连接上的所有任务都在这个 SubReactor 所处的线程中完成。
- Reactor Poll 的大小是固定的，根据 CPU 的核心数量来确定。如果有过多的耗费 CPU 资源的计算任务，可以提交到 ThreadPool 线程池中专门处理耗时的计算任务。
(5) reactors in process - one loop pre process
- 这是 Nginx 服务器的网络设计方案，基于进程设计，采用多个 Reactors 充当 I/O 进程和工作进程，通过一个 accept 锁，完美解决多个 Reactors 之间的 “惊群现象”。

reactors in process + fork 不如 reactors in threads 吗？

答案肯定是否定的，强大的 Nginx 服务器采用了 reactors in process 模型作为网络模块的架构设计，实现了简单好用的负载算法，使各个 fork 网络进程不会忙的越忙、闲的越闲，并且通过引入一把乐观锁解决了该模型导致的服务器惊群现象，功能十分强大。

Reactor 网络 I/O 模型

Reactor 模型的介绍

维基百科对 Reactor 的描述

The reactor design pattern is an event handling pattern for handling service requestsdelivered concurrently to a service handler by one or more inputs. The service handlerthen demultiplexes the incoming requests and dispatches them synchronously to theassociated request handlers. 翻译后：Reactor（反应器）设计模式是一种事件处理模式，用于处理由一个或多个输入并发传递到服务处理器的服务请求。然后，服务处理器对传入的请求进行多路分解，并同步地将它们分派给相应的请求处理器。

Reactor 是一种基于事件驱动（Event Driven）的网络 I/O 模型，核心思想是：
- 主线程（或 I/O 线程）通过 I/O 多路复用（I/O Multiplexing）机制（如 select、poll、epoll），监听多个连接的 I/O 事件。
- 当某个事件就绪后，再分发（Dispatch）给对应的事件处理器（EventHandler）进行处理。
Reactor 虽然是网络 I/O 模型，但它通常与线程模型结合使用：
- 单线程 Reactor：所有 I/O 事件的监听与处理都在同一个线程中完成。
- 多线程 Reactor：I/O 事件的监听与业务处理分离，通常用线程池来处理业务逻辑。
- 主从 Reactor：主 Reactor（即 MainReactor）负责连接建立，从 Reactor（即 SubReactor）负责 I/O 读写（即数据读写），结合多线程提升并发性能。

Reactor 的五大核心组件：

核心组件	作用	Muduo 网络库中对应的核心类
Event（事件）	表示 I/O 事件的抽象，如连接建立、可读、可写等，用于描述发生了什么类型的网络事件。	`Channel`
Demultiplexer（事件分离器）	负责监听并检测多个 I/O 事件的就绪状态（通常由 `select`、`poll`、`epoll` 等系统调用实现），并将已就绪的事件返回给 Reactor。	`Poller`、`EPollPoller`
Reactor（反应堆）	事件分发器，负责从 Demultiplexer 获取就绪事件，并将事件分发给对应的 EventHandler 处理。	`EventLoop`
EventHandler（事件处理器）	负责具体的事件处理逻辑，如读、写、连接、业务处理等，是应用层的回调逻辑。	回调函数 + `TcpConnection` 的 `handleRead()` / `handleWrite()` 等
Acceptor（连接接收器）	负责监听服务器端口并接收新的客户端连接，在多 Reactor 模型中通常独立运行，仅负责建立连接并将连接交给子 Reactor 处理。	`Acceptor`

Reactor 核心组件的工作流程：

Muduo 库的 Multiple Reactors 模型：

Reactor 模型与 Proactor 模型的区别

Reactor 模型与 Proactor 模型的主要区别

模型	内核通知的事件	谁负责实际 I/O 读写	用户线程需要做什么
Reactor	可以读 / 可以写	用户线程做读写	用户线程收到可读 / 可写通知后，调用 `read` / `write`，并处理数据
Proactor	读完了 / 写完了	内核做读写（异步完成读 / 写后，再通知用户线程）	用户线程收到读 / 写完成通知后，直接处理已读 / 已写的数据

常见库 / 系统采用模型对比

库 / 系统	模型	平台
Muduo	Reactor	Linux
Netty（NIO）	Reactor	Linux
libevent / libev	Reactor	Linux
Boost.Asio（Linux）	Reactor	Linux
IOCP	Proactor	Windows
Boost.Asio（Windows）	Proactor	Windows

为什么 Linux 基本用不到 Proactor？
- 因为 Linux 的 aio 不是真正意义上的内核异步 I/O：
  - 文件 I/O 是异步的
  - 网络 I/O 仍然是阻塞式的（内核不自动读取）
- 所以 Linux 上的高性能网络库几乎都是：
  - epoll（Reactor）
  - epoll + thread pool（高级 Reactor）

I/O 多路复用技术概述

跨平台特性的对比

技术	是否支持跨平台	支持的平台	特点
`select`	✅ 广泛跨平台	Linux / macOS / BSD / Windows / Unix	最老的接口，POSIX 标准定义
`poll`	⚠️ 支持类 Unix 跨平台（不支持 Windows）	Linux /macOS/ BSD / Solaris 等	`select` 的改进版，无 `fd` 数量限制
`epoll`	❌ Linux 独有	仅 Linux（2.6+）	高性能 I/O 多路复用技术
`kqueue`	❌ BSD /macOS 独有	FreeBSD / macOS / NetBSD / OpenBSD	`epoll` 的 BSD 平台对应物

select 与 poll 的缺点

I/O 多路复用技术 select 有以下缺点：

(1) 文件描述符数量限制：
- 单个进程可监视的文件描述符数量存在上限，通常为 1024（可修改）。但由于 select 采用轮询扫描方式检查文件描述符，随着监视数量的增加，性能会明显下降。
- 在 Linux 内核头文件中有如下定义：#define __FD_SETSIZE 1024。
(2) 内核与用户空间的数据拷贝开销大：
- 每次调用 select 都需要在内核空间与用户空间之间复制大量的文件描述符集合，这会造成显著的性能开销。
(3) 结果集遍历效率低：
- select 返回的是一个包含所有文件描述符的数组，应用程序需要遍历整个数组才能判断哪些描述符处于就绪状态，效率较低。
(4) 水平触发机制（Level Trigger）：
- select 采用水平触发方式，如果应用程序没有及时处理已就绪的文件描述符，那么在后续的每次 select 调用中，这些描述符仍会被重复通知。

I/O 多路复用技术 poll 跟 select 相比，使用链表来保存文件描述符，不再受文件描述符数量上限的限制，但仍然存在与 select 相同的其他三个缺点（数据拷贝开销大、结果集遍历效率低、水平触发），这里不再累述。

select 无法支持高并发连接

以 select 为例，若服务器需支持 100 万并发连接，在 __FD_SETSIZE 为 1024 的情况下，至少需要创建约 1000 个进程才能满足要求。如此不仅会带来大量的进程上下文切换开销，还会因频繁的内核空间 / 用户空间句柄拷贝与数组遍历操作，导致系统性能急剧下降。因此，基于 select 模型的服务器要实现百万级并发几乎是不可能的。

epoll 的原理以及优势

设想这样一个场景：有 100 万个客户端同时与一个服务器进程保持 TCP 连接，但在任意时刻，通常只有几百到上千个连接是活跃的（这也是现实中最常见的情况）。如何高效地支撑如此庞大的并发连接呢？在 select / poll 时代，服务器每次调用都需要将这 100 万个连接的文件描述符从用户态复制到内核态，让内核轮询这些套接字上是否有事件发生；轮询完成后，再将结果从内核态复制回用户态，供应用程序继续遍历处理。这种方式带来了巨大的内存拷贝和遍历开销，因此基于 select / poll 通常只能处理几千个并发连接。

epoll 的设计思想与 select 完全不同，因此它们的缺点在 epoll 中已不复存在。epoll 在 Linux 内核中引入了一种专用的事件管理机制，通过红黑树（用于管理所有已注册的文件描述符）和就绪链表（用于管理已触发事件的文件描述符）来组织事件，大幅降低了事件查找和分发的开销，使大规模并发连接的事件管理更加高效。

(1) epoll_create()：创建一个 epoll 对象（内核在 epoll 文件系统中为该对象分配资源）。
(2) epoll_ctl()：向 epoll 对象中添加、修改或删除需要监听的套接字（例如 100 万个 TCP 连接）。
(3) epoll_wait()：等待并收集有事件发生的文件描述符。

其中 epoll_create() 在内核上创建的 eventpoll 结构如下：

struct eventpoll {
    ....(省略)

    /* 红黑树的根节点，这颗树中存储着所有添加到 epoll 中的需要监控的事件 */
    struct rb_root  rbr;

    /* 双链表中则存放着将要通过 epoll_wait() 返回给用户的满足条件的事件 */
    struct list_head rdlist;

    ....(省略)
}

得益于这种设计，只需在服务器启动时创建一次 epoll 对象，然后在连接建立或关闭时动态地添加或移除对应的套接字即可。更重要的是，epoll_wait() 的调用效率极高：

它不需要在每次调用时复制所有文件描述符。
内核也无需遍历全部连接，而是通过回调机制主动将就绪的文件描述符加入到就绪队列中。

因此，epoll 能够在单进程中轻松支撑数十万甚至上百万级的并发连接，这正是它区别于 select / poll 的根本优势所在。

epoll 的 LT 模式与 ET 模式

epoll 支持 LT（水平触发）与 ET（边缘触发），而 select、poll 在设计上只支持 LT（水平触发），没有 ET（边缘触发）的概念。

LT 模式（Level Triggered，水平触发）
- 语义：只要 fd 上有数据未被读取完，就会一直被 epoll 通知。
- 特点：更 “宽松”，即使一次没读完，下次还会被提醒。
- 行为示例：
  - 缓冲区有 100 字节可读；
  - 应用程序只读了 60 字节；
  - 下次 epoll_wait() 还会再次返回该 fd。
- 优点：编程简单、不易漏数据。
- 缺点：频繁触发，效率略低。
ET 模式（Edge Triggered，边缘触发）
- 语义：只有当状态发生变化（从无到有）时才触发一次事件。
- 特点：仅在 “边缘” 通知，比如缓冲区从空变为非空。
- 行为示例：
  - 缓冲区变为可读时触发；
  - 应用程序必须一次性读完所有数据（直到返回 EAGAIN）；
  - 如果应用程序没读完，下次不会再收到通知。
- 优点：减少系统调用次数，效率高。
- 缺点：编程复杂，稍有疏忽就可能会 “丢事件”。
Muduo 采用的是 LT（水平触发）模式
- 不会丢失数据或者消息
  - 应用程序没有读取完数据，内核是会不断上报数据的
- 低延迟处理
  - 每次读数据只需要一次系统调用，照顾了多个连接的公平性，不会因为某个连接上的数据量过大而影响其他连接处理消息
- 跨平台处理
  - 像 select 一样可以跨平台使用

项目介绍

项目结构

c++-project-mymuduo
├── autobuild.sh
├── bin
├── build
├── CMakeLists.txt
├── example
│   ├── CMakeLists.txt
│   ├── epoll
│   │   ├── CMakeLists.txt
│   │   └── main.cc
│   └── mymuduo
│       ├── ChatClient.cc
│       ├── ChatClient.h
│       ├── ChatServer.cc
│       ├── ChatServer.h
│       ├── CMakeLists.txt
│       └── main.cc
├── lib
├── README.md
├── src
│   ├── include
│   │   ├── Acceptor.h
│   │   ├── Buffer.h
│   │   ├── Callbacks.h
│   │   ├── Channel.h
│   │   ├── Connector.h
│   │   ├── copyable.h
│   │   ├── CurrentThread.h
│   │   ├── EPollPoller.h
│   │   ├── EventLoop.h
│   │   ├── EventLoopThread.h
│   │   ├── EventLoopThreadPool.h
│   │   ├── InetAddress.h
│   │   ├── Logger.h
│   │   ├── noncopyable.h
│   │   ├── Poller.h
│   │   ├── Socket.h
│   │   ├── SocketsOps.h
│   │   ├── TcpClient.h
│   │   ├── TcpConnection.h
│   │   ├── TcpServer.h
│   │   ├── Thread.h
│   │   └── Timestamp.h
│   ├── Acceptor.cc
│   ├── Buffer.cc
│   ├── Channel.cc
│   ├── CMakeLists.txt
│   ├── Connector.cc
│   ├── CurrentThread.cc
│   ├── DefaultPoller.cc
│   ├── EPollPoller.cc
│   ├── EventLoop.cc
│   ├── EventLoopThread.cc
│   ├── EventLoopThreadPool.cc
│   ├── InetAddress.cc
│   ├── Logger.cc
│   ├── Poller.cc
│   ├── Socket.cc
│   ├── SocketsOps.cc
│   ├── TcpClient.cc
│   ├── TcpConnection.cc
│   ├── TcpServer.cc
│   ├── Thread.cc
│   └── Timestamp.cc
└── test
    ├── CMakeLists.txt
    └── main.cc

目录名称	目录说明
`build`	CMake 编译构建项目的目录（项目首次编译后才会有）
`bin`	存放项目编译生成的可执行文件的目录（项目首次编译后才会有）
`lib`	存放项目编译生成的 MyMuduo 动态链接库的目录（项目首次编译后才会有）
`src`	MyMuduo 网络库的源码
`src/include`	MyMuduo 网络库的头文件
`test`	MyMuduo 网络库的的测试代码
`example`	各种案例代码
`example/epoll`	epoll 的使用案例代码
`example/mymuduo`	MyMuduo 网络库的使用案例代码
`autobuild.sh`	项目一键编译构建的脚本文件

项目技术栈

基于 C++ 开发网络库时，使用到以下技术：

单例设计模式
epoll 等 I/O 多路复用技术
Linux 网络编程基础（socket()、bind()、listen()、accept()、readv()、write() 等）
C++ 11 多线程编程（std::thread、std::unique_lock、std::mutex、std::condition_variable 等）
使用 CMake 构建与集成项目的编译环境

项目整体架构

架构图说明

在上述的架构图中，mainLoop 运行在主线程，负责监听新 TCP 连接并分发给 subLoop；而 subLoop（也称 ioLoop）运行在子线程，负责处理 TCP 连接的具体 I/O 事件（比如，读和写等）。mainLoop 与 subLoop 通过 pendingFunctors 异步任务队列进行线程间通信，禁止直接跨线程操作，这是为了保证某个 TCP 连接的所有 I/O 事件和连接状态操作都在同一个线程中执行，从而保证线程安全。在 Muduo 库的 Multiple Reactors 模型，mainLoop 对应的就是 mainReactor（主 Reactor），而 subLoop 对应的就是 subReactor（子 Reactor）。

项目代码

代码下载

本文开发的 MyMuduo 网络库只实现了 Muduo 的核心功能，并不支持 Muduo 的定时事件机制（TimerQueue）、IPV6 / DNS / HTTP / RPC 协议等，完整的项目代码可以在这里下载得到。

copyable

copyable.h

#pragma once

/**
 * copyable 类被继承以后，派生类对象可以正常地执行构造和析构操作，同时派生类对象还可以进行拷贝构造和赋值操作
 */
class copyable {
protected:
    copyable() = default;
    ~copyable() = default;
};

noncopyable

noncopyable.h

#pragma once

/**
 * noncopyable 类被继承以后，派生类对象可以正常地执行构造和析构操作，但是派生类对象不能进行拷贝构造和赋值操作
 */
class noncopyable {
public:
    noncopyable(const noncopyable&) = delete;
    void operator=(const noncopyable&) = delete;

protected:
    noncopyable() = default;
    ~noncopyable() = default;
};

Logger

Logger.h

#pragma once

#include 
#include 

#include "CurrentThread.h"
#include "noncopyable.h"

// 定义宏
#define LOG_DEBUG(logmsgformat, ...)                        \
    do {                                                    \
        Logger& logger = Logger::instance();                \
        if (logger.getLogLevel() <= DEBUG) {                \
            char c[1024] = {0};                             \
            snprintf(c, 1024, logmsgformat, ##__VA_ARGS__); \
            int tid = CurrentThread::tid();                 \
            LogMessage msg = {DEBUG, c, tid};               \
            logger.log(msg);                                \
        }                                                   \
    } while (0)

#define LOG_INFO(logmsgformat, ...)                         \
    do {                                                    \
        Logger& logger = Logger::instance();                \
        if (logger.getLogLevel() <= INFO) {                 \
            char c[1024] = {0};                             \
            snprintf(c, 1024, logmsgformat, ##__VA_ARGS__); \
            int tid = CurrentThread::tid();                 \
            LogMessage msg = {INFO, c, tid};                \
            logger.log(msg);                                \
        }                                                   \
    } while (0)

#define LOG_WARN(logmsgformat, ...)                         \
    do {                                                    \
        Logger& logger = Logger::instance();                \
        if (logger.getLogLevel() <= WARN) {                 \
            char c[1024] = {0};                             \
            snprintf(c, 1024, logmsgformat, ##__VA_ARGS__); \
            int tid = CurrentThread::tid();                 \
            LogMessage msg = {WARN, c, tid};                \
            logger.log(msg);                                \
        }                                                   \
    } while (0)

#define LOG_ERROR(logmsgformat, ...)                        \
    do {                                                    \
        Logger& logger = Logger::instance();                \
        if (logger.getLogLevel() <= ERROR) {                \
            char c[1024] = {0};                             \
            snprintf(c, 1024, logmsgformat, ##__VA_ARGS__); \
            int tid = CurrentThread::tid();                 \
            LogMessage msg = {ERROR, c, tid};               \
            logger.log(msg);                                \
        }                                                   \
    } while (0)

#define LOG_FATAL(logmsgformat, ...)                              \
    do {                                                          \
        Logger& logger = Logger::instance();                      \
        if (logger.getLogLevel() <= FATAL) {                      \
            char c[1024] = {0};                                   \
            snprintf(c, 1024, logmsgformat, ##__VA_ARGS__);       \
            int tid = CurrentThread::tid();                       \
            LogMessage msg = {FATAL, c, tid};                     \
            logger.log(msg);                                      \
            std::this_thread::sleep_for(std::chrono::seconds(1)); \
            exit(-1);                                             \
        }                                                         \
    } while (0)

// 日志级别（DEBUG < INFO < WARN < ERROR < FATAL）
enum LogLevel {
    DEBUG,  // 调试日志信息
    INFO,   // 普通日志信息
    WARN,   // 警告日志信息
    ERROR,  // 错误日志信息
    FATAL   // 致命错误信息
};

// 日志信息
struct LogMessage {
    LogLevel logLevel_;       // 日志级别
    std::string logContent_;  // 日志内容
    int threadId_;            // 打印日志的线程的 ID
};

// 日志类（单例模式）
class Logger : noncopyable {
public:
    // 获取单例对象
    static Logger& instance();

    // 输出日志信息
    void log(const LogMessage& message);

    // 获取日志级别
    LogLevel getLogLevel();

    // 设置日志级别
    void setLogLevel(LogLevel level);

private:
    // 私有构造函数
    Logger();

    // 私有析构函数
    ~Logger();

    // 获取日志级别的名称
    std::string logLevelToString(LogLevel level);

    LogLevel logLevel_;  // 记录日志级别
};

Logger.cc

#include "Logger.h"

#include 

#include "Timestamp.h"

// 定义宏（设置 Debug 模式）
#ifdef MYMUDUO_DEBUG
    constexpr bool kIsDebugMode = true;
#else
    constexpr bool kIsDebugMode = false;
#endif

// 定义宏（跨平台获取当前调用的函数名称）
#if defined(__GNUC__) || defined(__clang__)
    #define FUNC_NAME __PRETTY_FUNCTION__
#elif defined(_MSC_VER)
    #define FUNC_NAME __FUNCSIG__
#else
    #define FUNC_NAME __func__
#endif

// 构造函数
Logger::Logger() {
    // 设置默认的日志级别
    this->logLevel_ = !kIsDebugMode ? INFO : DEBUG;
}

// 析构函数
Logger::~Logger() {
}

// 获取单例对象
Logger& Logger::instance() {
    // 局部静态变量（线程安全）
    static Logger logger;
    return logger;
}

// 输出日志信息
void Logger::log(const LogMessage& message) {
    // 首先在外面构建好完整的字符串（避免多次 << 竞争）
    std::ostringstream oss;
    oss << Timestamp::now().toString() << " => " << message.threadId_ << " [" << logLevelToString(message.logLevel_)
        << "] " << message.logContent_ << '\n';

    std::string s = oss.str();

    // 然后一次性写入，不使用 std::endl（避免隐式 flush）
    std::fwrite(s.data(), 1, s.size(), stdout);
}

// 设置日志级别
void Logger::setLogLevel(LogLevel level) {
    this->logLevel_ = level;
}

// 获取日志级别
LogLevel Logger::getLogLevel() {
    return this->logLevel_;
}

// 获取日志级别的名称
std::string Logger::logLevelToString(LogLevel level) {
    switch (level) {
        case DEBUG:
            return "DEBUG";
        case INFO:
            return "INFO";
        case WARN:
            return "WARN";
        case ERROR:
            return "ERROR";
        case FATAL:
            return "FATAL";
        default:
            return "UNKNOWN";
    }
}

Timestamp

Timestamp.h

#pragma once

#include 

#include "copyable.h"

// 时间戳类
class Timestamp : public copyable {
public:
    // 默认构造函数，初始化为 0 微秒
    Timestamp();

    // 构造函数，使用微秒数进行初始化
    explicit Timestamp(int64_t microSecondsSinceEpochArg);

    // 将时间戳转换为字符串表示（比如 2025-11-16 17:45:30）
    std::string toString() const;

    // 获取当前时间戳
    static Timestamp now();

private:
    int64_t microSecondsSinceEpoch_;  // 自纪元（1970年1月1日）以来的微秒数
};

Timestamp.cc

#include "Timestamp.h"

#include 

// 默认构造函数，初始化为 0 微秒
Timestamp::Timestamp()
    : microSecondsSinceEpoch_(0){

      };

// 构造函数，使用微秒数进行初始化
Timestamp::Timestamp(int64_t microSecondsSinceEpochArg)
    : microSecondsSinceEpoch_(microSecondsSinceEpochArg){

      };

// 将时间戳转换为字符串表示（比如 2025-11-16 17:45:30）
std::string Timestamp::toString() const {
    char buf[128] = {0};
    tm *tm_time = localtime(µSecondsSinceEpoch_);
    snprintf(buf, 128, "%4d-%02d-%02d %02d:%02d:%02d", tm_time->tm_year + 1900, tm_time->tm_mon + 1, tm_time->tm_mday,
             tm_time->tm_hour, tm_time->tm_min, tm_time->tm_sec);
    return buf;
}

// 获取当前时间戳
Timestamp Timestamp::now() {
    return Timestamp(time(NULL));
}

InetAddress

InetAddress.h

#pragma once

#include 

#include 

#include "copyable.h"

// 网络地址类
class InetAddress : public copyable {
public:
    // 构造函数
    explicit InetAddress(uint16_t port = 0, std::string ip = "127.0.0.1");

    // 构造函数
    explicit InetAddress(const sockaddr_in& addr);

    // 获取 IP 地址字符串
    std::string toIp() const;

    // 获取 IP 地址和端口号字符串（比如 127.0.0.1:8080）
    std::string toIpPort() const;

    // 获取端口号
    uint16_t toPort() const;

    // 获取底层的 sockaddr_in 结构体指针
    const sockaddr_in* getSockAddr() const;

    // 设置底层的 sockaddr_in 结构体
    void setSockAddr(const sockaddr_in& addr);

private:
    sockaddr_in addr_;  // 底层的 sockaddr_in 结构体
};

InetAddress.cc

#include "InetAddress.h"

#include 
#include 
#include 

// 构造函数
InetAddress::InetAddress(uint16_t port, std::string ip) {
    bzero(&addr_, sizeof addr_);
    addr_.sin_family = AF_INET;
    addr_.sin_port = htons(port);
    addr_.sin_addr.s_addr = inet_addr(ip.c_str());
}

// 构造函数
InetAddress::InetAddress(const sockaddr_in& addr) {
    this->addr_ = addr;
}

// 获取 IP 地址字符串
std::string InetAddress::toIp() const {
    char buf[64] = {0};
    ::inet_ntop(AF_INET, &addr_.sin_addr, buf, sizeof buf);
    return buf;
}

// 获取 IP 地址和端口号字符串（比如 127.0.0.1:8080）
std::string InetAddress::toIpPort() const {
    char buf[64] = {0};
    ::inet_ntop(AF_INET, &addr_.sin_addr, buf, sizeof buf);
    size_t end = strlen(buf);
    uint16_t port = ntohs(addr_.sin_port);
    sprintf(buf + end, ":%u", port);
    return buf;
}

// 获取端口号
uint16_t InetAddress::toPort() const {
    return ntohs(addr_.sin_port);
}

// 获取底层的 sockaddr_in 结构体指针
const sockaddr_in* InetAddress::getSockAddr() const {
    return &addr_;
}

// 设置底层的 sockaddr_in 结构体
void InetAddress::setSockAddr(const sockaddr_in& addr) {
    addr_ = addr;
}

SocketsOps

SocketsOps.h

#pragma once

#include 
#include 
#include 

#include "Logger.h"

// 创建非阻塞的 Socket
int createNonblockingSocket();

// 获取 Socket 错误码
int getSocketError(int sockfd);

// 判断是否为自连接
bool isSelfConnect(int sockfd);

// 获取本端地址
sockaddr_in getLocalAddr(int sockfd);

// 获取对端地址
sockaddr_in getPeerAddr(int sockfd);

SocketsOps.cc

#include "SocketsOps.h"

#include 

#include "Logger.h"

// 创建非阻塞的 Socket
int createNonblockingSocket() {
    int sockfd = ::socket(AF_INET, SOCK_STREAM | SOCK_NONBLOCK | SOCK_CLOEXEC, IPPROTO_TCP);
    if (sockfd < 0) {
        LOG_FATAL("%s => create nonblock sockfd failed, errno:%d", __PRETTY_FUNCTION__, errno);
    }
    return sockfd;
}

// 获取 Socket 错误码
int getSocketError(int sockfd) {
    int optval;
    socklen_t optlen = sizeof optval;
    if (::getsockopt(sockfd, SOL_SOCKET, SO_ERROR, &optval, &optlen) < 0) {
        return errno;
    } else {
        return optval;
    }
}

// 获取本端地址
sockaddr_in getLocalAddr(int sockfd) {
    sockaddr_in localaddr;
    bzero(&localaddr, sizeof(localaddr));
    socklen_t addrlen = sizeof(localaddr);
    if (::getsockname(sockfd, (sockaddr*)(&localaddr), &addrlen) < 0) {
        LOG_ERROR("%s => get socket name failed, errno:%d", __PRETTY_FUNCTION__, errno);
    }
    return localaddr;
}

// 获取对端地址
sockaddr_in getPeerAddr(int sockfd) {
    sockaddr_in peeraddr;
    bzero(&peeraddr, sizeof(peeraddr));
    socklen_t addrlen = sizeof(peeraddr);
    if (::getpeername(sockfd, (sockaddr*)(&peeraddr), &addrlen) < 0) {
        LOG_ERROR("%s => get peer name failed, errno:%d", __PRETTY_FUNCTION__, errno);
    }
    return peeraddr;
}

// 判断是否为自连接
bool isSelfConnect(int sockfd) {
    sockaddr_in localaddr;
    sockaddr_in peeraddr;
    socklen_t addrlen = sizeof(sockaddr_in);

    // 获取本端地址
    if (getsockname(sockfd, (sockaddr*)&localaddr, &addrlen) < 0) {
        return false;
    }

    // 获取对端地址
    if (getpeername(sockfd, (sockaddr*)&peeraddr, &addrlen) < 0) {
        return false;
    }

    // 必须都是 IPv4
    if (localaddr.sin_family != AF_INET || peeraddr.sin_family != AF_INET) {
        return false;
    }

    // 检查 IP + 端口是否完全相同
    return (localaddr.sin_port == peeraddr.sin_port) && (localaddr.sin_addr.s_addr == peeraddr.sin_addr.s_addr);
}

Channel

Channel.h

#pragma once

#include 
#include 
#include 

#include "Timestamp.h"
#include "noncopyable.h"

// 类前置声明
class EventLoop;

/**
 * Channel 可以理解为通道，封装了 socket fd 和其感兴趣的 event（事件），比如 EPOLLIN、EPOLLOUT 事件，还绑定了 Poller，返回的具体事件
 */
class Channel : noncopyable {
public:
    // 事件回调函数类型定义
    using EventCallback = std::function<void()>;

    // 读事件的回调函数类型定义
    using ReadEventCallback = std::function<void(Timestamp)>;

    // 构造函数
    Channel(EventLoop* loop, int fd);

    // 析构函数
    ~Channel();

    // fd 得到 poller 通知以后，处理事件的函数
    void handleEvent(Timestamp receiveTime);

    /********** 设置事件的回调操作 **********/

    void setReadCallback(ReadEventCallback cb) {
        readCallback_ = std::move(cb);
    }

    void setWriteCallback(EventCallback cb) {
        writeCallback_ = std::move(cb);
    }

    void setCloseCallback(EventCallback cb) {
        closeCallback_ = std::move(cb);
    }

    void setErrorCallback(EventCallback cb) {
        errorCallback_ = std::move(cb);
    }

    /********** 获取和设置 fd 和 events **********/

    // 获取 socket 的 fd
    int fd() const {
        return fd_;
    }

    // 获取 fd 感兴趣的事件
    int events() {
        return events_;
    }

    // 设置 fd 上发生的具体事件
    void set_revents(int revent) {
        revents_ = revent;
    }

    /********** 设置 fd 相应的事件状态 **********/

    // 开启监听 fd 上的读事件
    void enableReading() {
        events_ |= kReadEvent;
        update();
    }

    // 关闭监听 fd 上的读事件
    void disableReading() {
        events_ &= ~kReadEvent;
        update();
    }

    // 开启监听 fd 上的写事件
    void enableWriting() {
        events_ |= kWriteEvent;
        update();
    }

    // 关闭监听 fd 上的写事件
    void disableWriting() {
        events_ &= ~kWriteEvent;
        update();
    }

    // 禁止监听 fd 上的所有事件（读 + 写）
    void disableAll() {
        events_ = kNoneEvent;
        update();
    }

    /********** 获取 fd 当前的事件状态 **********/

    // 判断当前是否没有监听任何事件（既不读也不写）
    bool isNoneEvent() const {
        return events_ == kNoneEvent;
    }

    // 判断当前是否正在监听写事件
    bool isWriting() const {
        return events_ & kWriteEvent;
    }

    // 判断当前是否正在监听读事件
    bool isReading() const {
        return events_ & kReadEvent;
    }

    // 返回当前 Channel 在 Poller 中的状态
    int index() {
        return index_;
    }

    // 设置当前 Channel 在 Poller 中的状态
    void set_index(int index) {
        index_ = index;
    }

    // 防止当 Channel 被手动 remove 掉后，Channel 还在执行事件的回调操作
    void tie(const std::shared_ptr<void>& obj);

    // 从 Poller 中删除当前 Channel
    void remove();

private:
    // 更新 Channel 状态到 Poller 中
    void update();

    // 处理事件，有了 guard 之后，Channel 就不会在被手动 remove 掉后还继续执行事件的回调操作
    void handleEventWithGuard(Timestamp receiveTime);

    // 定义 Channel 支持的事件类型
    static const int kNoneEvent;   // 无事件
    static const int kReadEvent;   // 读事件
    static const int kWriteEvent;  // 写事件

    EventLoop* loop_;  // Channel 所属的事件循环
    const int fd_;     // fd，是 Poller 监听的对象
    int events_;       // 注册 fd 上感兴趣的事件
    int revents_;      // poller 返回的 fd 上具体发生的事件
    int index_;        // 标记 Channel 在 Poller 中的状态

    std::weak_ptr<void> tie_;  // 用于防止 Channel 被手动 remove 掉后，Channel 还在执行事件的回调操作
    bool tied_;                // 标记是否已绑定 tie_

    // Channel 里面能够获知 fd 上最终发生的具体事件（revents_），所以由它负责调用具体事件的回调操作（即事件分发）
    ReadEventCallback readCallback_;  // 读事件的回调函数
    EventCallback writeCallback_;     // 写事件的回调函数
    EventCallback closeCallback_;     // 关闭事件的回调函数
    EventCallback errorCallback_;     // 错误事件的回调函数
};

Channel.cc

#include "Channel.h"

#include 

#include "EventLoop.h"
#include "Logger.h"

// 定义 Channel 支持的事件类型（与 Epoll 兼容）
const int Channel::kNoneEvent = 0;
const int Channel::kReadEvent = EPOLLIN | EPOLLPRI;
const int Channel::kWriteEvent = EPOLLOUT;

// 构造函数
Channel::Channel(EventLoop* loop, int fd) : loop_(loop), fd_(fd), events_(0), revents_(0), index_(-1), tied_(false) {
}

// 析构函数
Channel::~Channel() {
}

// 防止当 Channel 被手动 remove 掉后，Channel 还在执行事件的回调操作
void Channel::tie(const std::shared_ptr<void>& obj) {
    tie_ = obj;
    tied_ = true;
}

// 从 Poller 中删除当前 Channel
void Channel::remove() {
    // 通过 Channel 所属的 EventLoop，将当前的 Channel 删除掉
    loop_->removeChannel(this);
}

// 更新 Channel 状态到 Poller 中
void Channel::update() {
    // 通过 Channel 所属的 EventLoop，调用 Poller 相应的方法，注册 fd 的感兴趣的事件（events_）
    loop_->updateChannel(this);
}

// fd 得到 poller 通知以后，处理事件的函数
void Channel::handleEvent(Timestamp receiveTime) {
    if (tied_) {
        std::shared_ptr<void> guad = tie_.lock();
        if (guad) {
            handleEventWithGuard(receiveTime);
        }
    } else {
        handleEventWithGuard(receiveTime);
    }
}

/**
 * 处理事件，有了 guard 之后，Channel 就不会在被手动 remove 掉后还继续执行事件的回调操作了
 *
 * EPOLLIN：可读，文件描述符有数据可读且读取不会阻塞（如 socket 或 pipe 有数据）。
 * EPOLLOUT：可写，文件描述符可以写入且不会阻塞（如 socket 可发送数据、pipe 可写入）。
 * EPOLLERR：错误，文件描述符发生错误，无法正常读写（如 TCP reset、I/O 错误）。
 * EPOLLHUP：挂断，文件描述符被挂断（如对端关闭连接）。注意：通常与 EPOLLIN 一起出现。
 * EPOLLPRI：紧急数据，文件描述符有优先数据（TCP OOB 或特殊设备的紧急数据）。
 */
void Channel::handleEventWithGuard(Timestamp receiveTime) {
    LOG_DEBUG("channel handle event, revents: %d", revents_);

    // 发生挂断事件且没有读事件发生
    if ((revents_ & EPOLLHUP) && !(revents_ & EPOLLIN)) {
        if (closeCallback_) {
            closeCallback_();
        }
    }

    // 发生错误事件
    if (revents_ & EPOLLERR) {
        if (errorCallback_) {
            errorCallback_();
        }
    }

    // 发生读事件
    if (revents_ & (EPOLLIN | EPOLLPRI | EPOLLHUP)) {
        if (readCallback_) {
            readCallback_(receiveTime);
        }
    }

    // 发生写事件
    if (revents_ & EPOLLOUT) {
        if (writeCallback_) {
            writeCallback_();
        }
    }
}

Poller

Poller.h

#pragma once

#include 
#include 
#include 

#include "Timestamp.h"
#include "noncopyable.h"

// 类前置声明
class Channel;
class EventLoop;

/**
 * I/O 多路复用器抽象类
 */
class Poller : noncopyable {
public:
    // Channel 列表类型定义
    using ChannelList = std::vector;

    // 构造函数
    Poller(EventLoop* loop);

    // 虚析构函数
    virtual ~Poller();

    /********** 统一定义所有 I/O 多路复用器的接口 **********/

    // 监听就绪事件，返回活跃的 Channel 列表
    virtual Timestamp poll(int timeoutMs, ChannelList* activeChannels) = 0;

    // 更新 Channel
    virtual void updateChannel(Channel* channel) = 0;

    // 移除 Channel
    virtual void removeChannel(Channel* channel) = 0;

    // 判断 Poller 中是否存在某个 Channel
    virtual bool hasChannel(Channel* channel) const;

    /********** 创建 I/O 多路复用器实例 **********/

    static Poller* newDefaultPoller(EventLoop* loop);

protected:
    // Channel 集合的类型定义，key 是 fd，而 value 是 fd 所属的 Channel
    using ChannelMap = std::unordered_map<int, Channel*>;

    ChannelMap channels_;  // 保存所有的 Channel

private:
    EventLoop* owerLoop_;  // Poller 所属的事件循环
};

Poller.cc

#include "Poller.h"

#include "Channel.h"

// 构造函数
Poller::Poller(EventLoop* loop) : owerLoop_(loop) {
}

// 虚析构函数
Poller::~Poller() {
}

// 判断 Poller 中是否存在某个 Channel
bool Poller::hasChannel(Channel* channel) const {
    auto iterator = channels_.find(channel->fd());
    return iterator != channels_.end() && iterator->second == channel;
}

DefaultPoller.cc

#include 

#include "EPollPoller.h"
#include "Logger.h"
#include "Poller.h"

// 创建默认的 I/O 多路复用器
Poller* Poller::newDefaultPoller(EventLoop* loop) {
    if (::getenv("MYMUDUO_USE_POLL")) {
        // 创建 Poll 的实例
        LOG_FATAL("not support poll, only support epoll");
        return nullptr;
    } else {
        // 创建 Epoll 的实例
        return new EPollPoller(loop);
    }
}

Epoller

EPollPoller.h

#pragma once

#include 

#include 

#include "EventLoop.h"
#include "Poller.h"
#include "Timestamp.h"

// 基于 Epoll 的 I/O 多路复用器
class EPollPoller : public Poller {
public:
    // 构造函数
    EPollPoller(EventLoop* loop);

    // 析构函数
    ~EPollPoller() override;

    // 监听就绪事件，返回活跃的 Channel 列表
    Timestamp poll(int timeoutMs, ChannelList* activeChannels) override;

    // 更新 Channel
    void updateChannel(Channel* channel) override;

    // 移除 Channel
    void removeChannel(Channel* channel) override;

private:
    // Epoll 事件列表的初始大小
    static const int kInitEventListSize;

    // 填充活跃的 Channel 列表
    void fillActiveChannels(int numEvents, ChannelList* activeChannels) const;

    /**
     * 更新 Channel，其中 operation 参数的值有以下几种
     * EPOLL_CTL_ADD   添加 fd 到 Epoll 实例
     * EPOLL_CTL_DEL   从 Epoll 实例中删除 fd
     * EPOLL_CTL_MOD   修改 fd 的监听事件
     */
    void update(int operation, Channel* channel);

    // Epoll 事件列表类型定义
    using EventList = std::vector<::epoll_event>;

    int epollfd_;       // Epoll 文件描述符（Epoll 监听的对象）
    EventList events_;  // Epoll 事件列表
};

EPollPoller.cc

#include "EPollPoller.h"

#include 

#include "Channel.h"
#include "Logger.h"
#include "error.h"
#include "unistd.h"

// 定义 Epoll 事件列表的初始大小
const int EPollPoller::kInitEventListSize = 16;

// 定义 Channel 在 Epoll 中的状态
const int kNew = -1;     // 新创建的 Channel
const int kAdded = 1;    // 已经添加到 Epoll 中的 Channel
const int kDeleted = 2;  // 已经从 Epoll 中移除的 Channel

// 构造函数
EPollPoller::EPollPoller(EventLoop* loop)
    : Poller(loop), epollfd_(::epoll_create1(EPOLL_CLOEXEC)), events_(kInitEventListSize) {
    // 如果创建 Epoll 文件描述符失败，则记录日志并终止程序
    if (epollfd_ < 0) {
        LOG_FATAL("%s => epoll_create1() error:%d", __PRETTY_FUNCTION__, errno);
    }
}

// 析构函数
EPollPoller::~EPollPoller() {
    // 关闭 Epoll 文件描述符
    ::close(epollfd_);
}

// 监听就绪事件，返回活跃的 Channel 列表
Timestamp EPollPoller::poll(int timeoutMs, ChannelList* activeChannels) {
    // 打印日志信息
    LOG_DEBUG("%s => fd total count:%lu", __PRETTY_FUNCTION__, channels_.size());

    // 监听就绪事件，会阻塞当前线程，超时等待返回 0（表示本次等待期间没有任何就绪事件发生）
    int numEvents = ::epoll_wait(epollfd_, &*events_.begin(), static_cast<int>(events_.size()), timeoutMs);

    // 保存错误码
    int savedErrno = errno;

    // 获取当前时间戳
    Timestamp now(Timestamp::now());

    // 如果有就绪事件发生
    if (numEvents > 0) {
        // 打印日志信息
        LOG_DEBUG("%s => epoll happend %d events", __PRETTY_FUNCTION__, numEvents);

        // 填充活跃的 Channel 列表
        fillActiveChannels(numEvents, activeChannels);

        // 如果本次监听返回的就绪事件数量等于当前 Epoll 事件列表的大小，则将 Epoll 事件列表的容量扩大一倍
        if (numEvents == events_.size()) {
            events_.resize(events_.size() * 2);
        }
    }
    // 如果监听超时没有任何就绪事件发生
    else if (numEvents == 0) {
        LOG_DEBUG("%s => epoll wait timeout, nothing happened", __PRETTY_FUNCTION__);
    }
    // 如果监听出错
    else {
        // 只有在错误码不是 EINTR（系统调用被中断）时，才记录错误日志
        if (savedErrno != EINTR) {
            // 恢复错误码
            errno = savedErrno;
            // 打印日志信息
            LOG_ERROR("%s => epoll wait error", __PRETTY_FUNCTION__);
        }
    }

    return now;
}

// 填充活跃的 Channel 列表
void EPollPoller::fillActiveChannels(int numEvents, ChannelList* activeChannels) const {
    // 遍历所有就绪的事件
    for (int i = 0; i < numEvents; ++i) {
        // 获取就绪的 Channel
        Channel* channel = static_cast(events_[i].data.ptr);
        // 设置 Channel 上发生的具体事件
        channel->set_revents(events_[i].events);
        // 将就绪的 Channel 添加到活跃的 Channel 列表中
        activeChannels->push_back(channel);
    }
}

// 更新 Channel
void EPollPoller::updateChannel(Channel* channel) {
    // 获取 Channel 在 Epoll 中的状态
    const int index = channel->index();

    // 打印日志信息
    LOG_DEBUG("%s => fd=%d events=%d index=%d", __PRETTY_FUNCTION__, channel->fd(), channel->events(), index);

    if (index == kNew || index == kDeleted) {
        if (index == kNew) {
            // 获取 socket 的 fd
            int fd = channel->fd();
            // 将 Channel 添加到 Channel 集合中
            channels_[fd] = channel;
        }
        // 更新 Channel 在 Epoll 中的状态
        channel->set_index(kAdded);
        update(EPOLL_CTL_ADD, channel);
    } else {
        // 获取 socket 的 fd
        int fd = channel->fd();
        // 如果当前没有任何事件感兴趣，则将 Channel 从 Epoll 中删除
        if (channel->isNoneEvent()) {
            update(EPOLL_CTL_DEL, channel);
            channel->set_index(kDeleted);
        }
        // 否则，更新 Channel 的状态
        else {
            update(EPOLL_CTL_MOD, channel);
        }
    }
}

// 更新 Channel
void EPollPoller::update(int operation, Channel* channel) {
    // 获取 socket 的 fd
    int fd = channel->fd();

    // Epoll 事件
    ::epoll_event event;
    bzero(&event, sizeof event);
    event.data.ptr = channel;
    event.events = channel->events();

    // 设置 fd 相应的 Epoll 事件（使用 Channel 中记录的 interests）
    if (::epoll_ctl(epollfd_, operation, fd, &event) < 0) {
        if (operation == EPOLL_CTL_DEL) {
            LOG_ERROR("epoll_ctl delete error:%d", errno);
        } else {
            LOG_FATAL("epoll_ctl add or mod error:%d", errno);
        }
    }
}

// 移除 Channel
void EPollPoller::removeChannel(Channel* channel) {
    // 获取 socket 的 fd
    int fd = channel->fd();

    // 从 Channel 集合中将 fd 对应的 Channel 移除掉
    channels_.erase(fd);

    // 打印日志信息
    LOG_DEBUG("%s => fd=%d", __PRETTY_FUNCTION__, fd);

    // 获取 Channel 在 Epoll 中的状态
    int index = channel->index();
    if (index == kAdded) {
        // 更新 Channel
        update(EPOLL_CTL_DEL, channel);
    }

    // 更新 Channel 在 Epoll 中的状态
    channel->set_index(kNew);
}

EventLoop

EventLoop.h

#pragma once

#include 
#include 
#include 
#include 
#include 
#include 

#include "Timestamp.h"
#include "noncopyable.h"

// 类前置声明
class Channel;
class Poller;

// 事件循环类
class EventLoop : noncopyable {
public:
    // 回调函数类型定义
    using Functor = std::function<void()>;

    // 构造函数
    EventLoop();

    // 析构函数
    ~EventLoop();

    // 开启事件循环
    void loop();

    // 退出事件循环
    void quit();

    // 获取 Poller 返回发生事件的时间点
    Timestamp pollReturnTime() const;

    // 在当前 EventLoop 所在的线程执行回调操作
    void runInLoop(Functor cb);

    // 将回调操作添加到队列中，唤醒 EventLoop 所在的线程执行回调操作
    void queueInLoop(Functor cb);

    // 唤醒 EventLoop 所在的线程
    void wakeup();

    // 更新 Channel
    void updateChannel(Channel* channel);

    // 移除 Channel
    void removeChannel(Channel* channel);

    // 判断 EventLoop 中是否存在某个 Channel
    bool hasChannel(Channel* channel);

    // 判断当前线程是否是 EventLoop 所在的线程
    bool isInLoopThread() const;

    // 如果当前线程不是 EventLoop 所在的线程，则触发断言失败
    void assertInLoopThread();

    // 如果当前线程不是 EventLoop 所在的线程，则中止程序运行
    void abortNotInLoopThread();

private:
    // 处理 Wakeup Channel 的读事件
    void handleRead();

    // 执行当前 EventLoop 需要执行的回调操作
    void doPendingFunctors();

    // Channel 列表的类型定义
    using ChannelList = std::vector;

    std::atomic_bool looping_;  // 事件循环状态
    std::atomic_bool quit_;     // 标识退出 EventLoop 循环

    const pid_t threadId_;            // 记录当前 EventLoop 所在的线程的 ID
    Timestamp pollReturnTime_;        // 记录 Poller 返回发生事件的时间点
    std::unique_ptr poller_;  // EventLoop 使用的 Poller（I/O 多路复用器）

    int wakeupFd_;                            // 用于唤醒 EventLoop 所在的线程的 fd
    std::unique_ptr wakeupChannel_;  // 用于唤醒 EventLoop 所在的线程的 Channel

    ChannelList activeChannels_;  // 保存 Poller 返回的活跃的 Channel 列表

    std::atomic_bool callingPendingFunctors_;  // 标识当前 EventLoop 是否正在执行回调操作
    std::vector pendingFunctors_;     // 保存当前 EventLoop 需要执行的所有回调操作
    std::mutex mutex_;                         // 保证 pendingFunctors_ 容器线程安全的互斥锁
};

EventLoop.cc

#include "EventLoop.h"

#include 
#include 

#include 

#include "Channel.h"
#include "CurrentThread.h"
#include "Logger.h"
#include "Poller.h"

// 定义线程局部变量（thread-local），用于防止一个线程创建多个 EventLoop
__thread EventLoop* t_loopInThisThread = nullptr;

// 定义 Poller（I/O 多路复用器）的默认超时时间，比如 10 秒
const int kPollTimeMs = 10000;

// 创建 wakeupFd，用来 Notify（唤醒）SubReactor 处理新来的 Channel
int createEventFd() {
    int evtfd = ::eventfd(0, EFD_NONBLOCK | EFD_CLOEXEC);
    if (evtfd < 0) {
        LOG_FATAL("%s => eventfd error:%d", __PRETTY_FUNCTION__, errno);
    }
    return evtfd;
}

// 构造函数
EventLoop::EventLoop()
    : looping_(false),
      quit_(false),
      callingPendingFunctors_(false),
      threadId_(CurrentThread::tid()),
      poller_(Poller::newDefaultPoller(this)),
      wakeupFd_(createEventFd()),
      wakeupChannel_(new Channel(this, wakeupFd_)) {
    // 打印日志信息
    LOG_DEBUG("%s => EventLoop created %p in thread %d", __PRETTY_FUNCTION__, this, threadId_);

    // 防止一个线程创建多个 EventLoop
    if (t_loopInThisThread) {
        LOG_FATAL("%s => Another EventLoop existed in this thread %d", __PRETTY_FUNCTION__, threadId_);
    } else {
        // 将当前 EventLoop 对象赋值给线程局部变量
        t_loopInThisThread = this;
    }

    // 设置 Wakeup Channel 的读事件回调函数
    wakeupChannel_->setReadCallback(std::bind(&EventLoop::handleRead, this));

    // 启用 Wakeup Channel 的读事件监听
    wakeupChannel_->enableReading();
}

// 析构函数
EventLoop::~EventLoop() {
    LOG_DEBUG("%s => EventLoop %p of thread %d destructs in thread", __PRETTY_FUNCTION__, this, CurrentThread::tid());
    // 关闭 Wakeup Channel
    wakeupChannel_->disableAll();
    // 移除 Wakeup Channel
    wakeupChannel_->remove();
    // 关闭 wakeupFd_
    ::close(wakeupFd_);
    // 重置线程局部变量
    t_loopInThisThread = nullptr;
}

// 开启事件循环
void EventLoop::loop() {
    // 标记事件循环开始
    looping_ = true;

    // 标记退出事件循环的状态
    quit_ = false;

    // 打印日志信息
    LOG_DEBUG("%s => EventLoop %p start looping", __PRETTY_FUNCTION__, this);

    while (!quit_) {
        activeChannels_.clear();
        // Poller 会阻塞监听有哪些 Channel 发生了事件，然后上报给 EventLoop，通知 Channel 处理相应的事件
        pollReturnTime_ = poller_->poll(kPollTimeMs, &activeChannels_);
        for (Channel* channel : activeChannels_) {
            channel->handleEvent(pollReturnTime_);
        }
        // 执行当前 EventLoop 需要处理的回调操作
        doPendingFunctors();
    }

    // 打印日志信息
    LOG_DEBUG("%s => EventLoop %p stop looping", __PRETTY_FUNCTION__, this);

    // 标记事件循环结束
    looping_ = false;
}

// 退出事件循环
void EventLoop::quit() {
    // 标记退出事件循环的状态
    quit_ = true;

    // 如果不是在当前 EventLoop 所在的线程上调用的 quit() 方法，则需要唤醒 EventLoop 所在的线程
    if (!isInLoopThread()) {
        wakeup();
    }
}

// 唤醒 EventLoop 所在的线程
void EventLoop::wakeup() {
    uint64_t one = 1;
    // 向 wakeupFd_ 写一个数据，wakeupChannel_ 就会发生读事件，当前的 EventLoop 就会被唤醒
    ssize_t n = ::write(wakeupFd_, &one, sizeof one);
    if (n != sizeof one) {
        LOG_ERROR("%s write %zd bytes instead of 8", __PRETTY_FUNCTION__, n);
    }
}

// 获取 Poller 返回发生事件的时间点
Timestamp EventLoop::pollReturnTime() const {
    return pollReturnTime_;
}

// 判断当前线程是否是 EventLoop 所在的线程
bool EventLoop::isInLoopThread() const {
    return threadId_ == CurrentThread::tid();
}

// 如果当前线程不是 EventLoop 所在的线程，则触发断言失败
void EventLoop::assertInLoopThread() {
    if (!isInLoopThread()) {
        abortNotInLoopThread();
    }
}

// 如果当前线程不是 EventLoop 所在的线程，则中止程序运行
void EventLoop::abortNotInLoopThread() {
    LOG_FATAL("%s => EventLoop %p was created in threadId_ = %d, current thread id = %d", __PRETTY_FUNCTION__, this,
              threadId_, CurrentThread::tid());
}

// 在当前 EventLoop 所在的线程上执行回调操作
void EventLoop::runInLoop(Functor cb) {
    // 如果在 EventLoop 所在的线程上执行回调操作
    if (isInLoopThread()) {
        // 则直接执行回调操作
        cb();
    } else {
        // 否则，将回调操作添加到队列中，并唤醒 EventLoop 所在的线程执行回调操作
        queueInLoop(std::move(cb));
    }
}

// 将回调操作添加到队列中，并唤醒 EventLoop 所在的线程执行回调操作
void EventLoop::queueInLoop(Functor cb) {
    {
        // 将回调操作添加到队列中（需要保证线程安全）
        std::unique_lock lock(mutex_);
        pendingFunctors_.emplace_back(cb);
    }

    // 如果不是在当前 EventLoop 所在的线程上执行回调操作，或者当前 EventLoop 正在执行回调操作
    if (!isInLoopThread() || callingPendingFunctors_) {
        // 则唤醒当前 EventLoop 所在的线程去执行回调操作
        wakeup();
    }
}

// 更新 Channel
void EventLoop::updateChannel(Channel* channel) {
    poller_->updateChannel(channel);
}

// 移除 Channel
void EventLoop::removeChannel(Channel* channel) {
    poller_->removeChannel(channel);
}

// 判断 EventLoop 中是否存在某个 Channel
bool EventLoop::hasChannel(Channel* channel) {
    return poller_->hasChannel(channel);
}

// 处理 Wakeup Channel 的读事件
void EventLoop::handleRead() {
    uint64_t one = 1;
    ssize_t n = ::read(wakeupFd_, &one, sizeof one);
    if (n != sizeof one) {
        LOG_ERROR("%s reads %zd bytes instead of 8", __PRETTY_FUNCTION__, n);
    }
}

// 执行当前 EventLoop 需要执行的回调操作
void EventLoop::doPendingFunctors() {
    std::vector functors;

    // 标记当前 EventLoop 正在执行回调操作
    callingPendingFunctors_ = true;

    {
        std::unique_lock lock(mutex_);
        // 将需要执行的回调操作交换到局部变量 functors 中，以减少锁的持有时间，提高运行效率
        functors.swap(pendingFunctors_);
    }

    // 执行当前 EventLoop 需要执行的回调操作
    for (const Functor& functor : functors) {
        functor();
    }

    // 标记当前 EventLoop 已经执行完回调操作
    callingPendingFunctors_ = false;
}

Thread

Thread.h

#pragma once

#include 
#include 
#include 
#include 
#include 

#include "noncopyable.h"

// 线程类
class Thread : noncopyable {
public:
    // 线程执行函数的类型定义
    using ThreadFunc = std::function<void()>;

    // 构造函数
    explicit Thread(ThreadFunc func, const std::string& name = std::string());

    // 析构函数
    ~Thread();

    // 启动线程
    void start();

    // 等待线程执行结束
    void join();

    // 获取线程 ID
    pid_t tid();

    // 获取线程名称
    const std::string& name() const;

    // 获取已创建的线程数量
    static int numCreated();

private:
    // 设置线程的默认名称
    void setDefaultName();

    bool started_;                         // 标记线程是否已启动
    bool joined_;                          // 标记线程是否已经 join，防止重复 join 或析构时未 join
    std::shared_ptr thread_;  // 线程对象
    pid_t tid_;                            // 线程 ID
    ThreadFunc func_;                      // 线程执行函数
    std::string name_;                     // 线程名称
    static std::atomic_int numCreated_;    // 已创建的线程数量
};

Thread.cc

#include "Thread.h"

#include 

#include 

#include "CurrentThread.h"

std::atomic_int Thread::numCreated_(0);

// 构造函数
Thread::Thread(ThreadFunc func, const std::string& name)
    : started_(false), joined_(false), tid_(0), func_(std::move(func)), name_(name) {
}

// 析构函数
Thread::~Thread() {
    // 如果线程已启动且未被 join
    if (started_ && !joined_) {
        // 设置分离线程（避免资源泄露）
        thread_->detach();
    }
}

// 启动线程
void Thread::start() {
    // 标记线程为已启动
    started_ = true;

    // 声明信号量
    sem_t sem;

    // 初始化信号量
    sem_init(&sem, false, 0);

    // 启动新的线程
    thread_ = std::shared_ptr(new std::thread([&]() {
        // 获取新线程的 ID
        tid_ = CurrentThread::tid();

        // 通知主线程已获取新线程的 ID
        sem_post(&sem);

        // 新线程执行线程函数
        func_();
    }));

    // 阻塞等待新线程获取线程 ID
    sem_wait(&sem);
}

// 等待线程执行结束
void Thread::join() {
    // 如果线程已启动且未被 join
    if (started_ && !joined_) {
        // 标记线程已 join
        joined_ = true;
        // 等待线程执行结束
        thread_->join();
    }
}

// 获取线程 ID
pid_t Thread::tid() {
    return tid_;
}

// 获取线程名称
const std::string& Thread::name() const {
    return name_;
}

// 获取已创建的线程数量
int Thread::numCreated() {
    return numCreated_.load();
}

// 设置线程的默认名称
void Thread::setDefaultName() {
    int num = ++numCreated_;
    if (name_.empty()) {
        char buf[32] = {0};
        snprintf(buf, sizeof buf, "Thread%d", num);
        name_ = buf;
    }
}

CurrentThread

CurrentThread.h

#pragma once

namespace CurrentThread {

    // 声明线程局部变量（thread-local），用于缓存当前线程的 ID
    extern __thread int t_cachedTid;

    // 声明缓存当前线程的 ID 的函数
    void cacheTid();

    // 获取当前线程的 ID
    inline int tid() {
        if (__builtin_expect(t_cachedTid == 0, 0)) {
            cacheTid();
        }
        return t_cachedTid;
    }

}

CurrentThread.cc

#include "CurrentThread.h"

#include 
#include 

namespace CurrentThread {

    // 定义线程局部变量（thread-local），用于缓存当前线程的 ID
    __thread int t_cachedTid = 0;

    // 定义缓存当前线程的 ID 的函数
    void cacheTid() {
        if (t_cachedTid == 0) {
            // 通过 Linux 系统调用，获取当前线程的 ID
            t_cachedTid = static_cast<pid_t>(::syscall(SYS_gettid));
        }
    }

}

EventLoopThread

EventLoopThread.h

#pragma once

#include 
#include 
#include 

#include "Thread.h"
#include "noncopyable.h"

// 类前置声明
class EventLoop;

// 事件循环线程类，封装了 EventLoop 与 Thread
class EventLoopThread : noncopyable {
public:
    // 线程初始化回调操作的类型定义
    using ThreadInitCallback = std::function<void(EventLoop *)>;

    // 构造函数
    EventLoopThread(const ThreadInitCallback &cb = ThreadInitCallback(), const std::string &name = std::string());

    // 析构函数
    ~EventLoopThread();

    // 在对应的线程中启动事件循环
    EventLoop *startLoop();

private:
    // 线程执行函数
    void threadFunc();

    EventLoop *loop_;               // 事件循环
    bool exiting_;                  // 标记线程是否正在退出
    Thread thread_;                 // 线程对象（EventLoop 所在的线程）
    std::mutex mutex_;              // 互斥锁
    std::condition_variable cond_;  // 条件变量
    ThreadInitCallback callback_;   // 线程初始化回调操作
};

EventLoopThread.cc

#include "EventLoopThread.h"

#include 

#include 

// 构造函数
EventLoopThread::EventLoopThread(const ThreadInitCallback &cb, const std::string &name)
    : loop_(nullptr),
      exiting_(false),
      thread_(std::bind(&EventLoopThread::threadFunc, this), name),
      mutex_(),
      cond_(),
      callback_(cb) {
}

// 析构函数
EventLoopThread::~EventLoopThread() {
    // 标记线程正在退出
    exiting_ = true;

    if (loop_ != nullptr) {
        // 退出线程循环
        loop_->quit();
        // 等待线程执行结束
        thread_.join();
    }
}

// 在对应的线程中启动事件循环
EventLoop *EventLoopThread::startLoop() {
    // 启动底层新创建的线程
    thread_.start();

    EventLoop *loop = nullptr;
    {
        // 等待线程函数 threadFunc() 创建好 EventLoop 对象
        std::unique_lock lock(mutex_);
        while (loop_ == nullptr) {
            cond_.wait(lock);
        }
        loop = loop_;
    }

    return loop;
}

// 线程执行函数
void EventLoopThread::threadFunc() {
    // 新创建一个独立的事件循环，和上面底层新创建的线程一一对应
    EventLoop loop;

    // 执行线程初始化回调操作
    if (callback_) {
        callback_(&loop);
    }

    {
        // 将新创建的事件循环对象赋值给成员变量 loop_，需要保证线程安全
        std::unique_lock lock(mutex_);
        loop_ = &loop;

        // 通知 startLoop() 成员函数，成员变量 loop_ 已经赋值完毕
        cond_.notify_one();
    }

    // 开启事件循环
    loop.loop();

    // 事件循环退出后，重置成员变量 loop_
    std::unique_lock lock(mutex_);
    loop_ = nullptr;
}

EventLoopThreadPool

EventLoopThreadPool.h

#pragma once

#include 
#include 
#include 
#include 

#include "noncopyable.h"

// 类前置声明
class EventLoop;
class EventLoopThread;

// 事件循环线程池类
class EventLoopThreadPool : noncopyable {
public:
    // 线程初始化回调操作的类型定义
    using ThreadInitCallback = std::function<void(EventLoop*)>;

    // 构造函数
    EventLoopThreadPool(EventLoop* baseLoop, const std::string& nameArg);

    // 析构函数
    ~EventLoopThreadPool();

    // 设置线程池的线程数量
    void setThreadNum(int numThreads);

    // 启动线程池
    void start(const ThreadInitCallback& cb = ThreadInitCallback());

    // 获取下一个被选中的事件循环（如果工作在多线程中，baseLoop 默认以轮询的方式分配 Channel 给 subLoop）
    EventLoop* getNextLoop();

    // 返回所有事件循环
    std::vector getAllLoops();

    // 返回线程池是否已启动
    bool started() const;

    // 返回线程池的名称
    const std::string& name() const;

private:
    EventLoop* baseLoop_;  // 基础事件循环（通常是主线程上的事件循环，也称作 mainLoop）
    std::string name_;     // 线程池名称
    bool started_;         // 标记线程池是否已启动
    int numThreads_;       // 线程数量
    int next_;             // 下一个被选中的事件循环的索引
    std::vector> threads_;  // 事件循环线程对象的集合
    std::vector loops_;                          // 事件循环对象的集合
};

EventLoopThreadPool.cc

#include "EventLoopThreadPool.h"

#include "EventLoopThread.h"

// 构造函数
EventLoopThreadPool::EventLoopThreadPool(EventLoop* baseLoop, const std::string& nameArg)
    : baseLoop_(baseLoop), name_(nameArg), started_(false), numThreads_(0), next_(0) {
}

// 析构函数
EventLoopThreadPool::~EventLoopThreadPool() {
    // 析构时不需要删除 loop，因为它是栈变量
}

// 设置线程池的线程数量
void EventLoopThreadPool::setThreadNum(int numThreads) {
    numThreads_ = numThreads;
}

// 启动线程池
void EventLoopThreadPool::start(const ThreadInitCallback& cb) {
    // 标记线程池已启动
    started_ = true;

    // 当整个服务端有多个线程（负责运行一个 baseLoop 和多个 subLoop）
    for (int i = 0; i < numThreads_; ++i) {
        // 拼接线程的名称
        std::string tname = name_ + std::to_string(i);
        // 创建事件循环线程
        EventLoopThread* t = new EventLoopThread(cb, tname);
        // 将事件循环线程添加到线程池中
        threads_.push_back(std::unique_ptr(t));
        // 启动事件循环线程，并获取该线程对应的事件循环对象，将其添加到事件循环对象的集合中
        loops_.push_back(t->startLoop());
    }

    // 当整个服务端只有一个线程（负责运行 baseLoop），就执行初始化回调操作
    if (numThreads_ == 0 && cb) {
        cb(baseLoop_);
    }
}

// 获取下一个被选中的事件循环（如果工作在多线程中，baseLoop 默认以轮询的方式分配 Channel 给 subLoop）
EventLoop* EventLoopThreadPool::getNextLoop() {
    EventLoop* loop = baseLoop_;

    // 通过轮询方式获取一下个处理事件的 EventLoop
    if (!loops_.empty()) {
        loop = loops_[next_];
        ++next_;
        if (next_ >= loops_.size()) {
            next_ = 0;
        }
    }

    return loop;
}

// 返回所有事件循环
std::vector EventLoopThreadPool::getAllLoops() {
    if (loops_.empty()) {
        return std::vector(1, baseLoop_);
    } else {
        return loops_;
    }
}

// 返回线程池是否已启动
bool EventLoopThreadPool::started() const {
    return started_;
}

// 返回线程池的名称
const std::string& EventLoopThreadPool::name() const {
    return name_;
}

Socket

Socket.h

#pragma once

#include "noncopyable.h"

// 类前置声明
class InetAddress;

// 套接字类
class Socket : noncopyable {
public:
    // 构造函数
    explicit Socket(int sockFd);

    // 析构函数
    ~Socket();

    // 获取 socket 的文件描述符
    int fd() const;

    // 绑定地址
    void bindAddress(const InetAddress& localaddr);

    // 监听连接请求
    void listen();

    // 接受连接请求
    int accept(InetAddress* peeraddr);

    // 关闭写入
    void shutdownWrite();

    // 是否开启 TCP_NODELAY，开启后关闭 Nagle 算法，减少延迟
    void setTcpNoDelay(bool on);

    // 是否开启地址重用，允许端口在短时间内被重复绑定
    void setReuseAddr(bool on);

    // 是否开启端口重用，让多个进程/线程可以绑定同一端口
    void setReusePort(bool on);

    // 是否开启 TCP 保活，用于检测对端是否还存活
    void setKeepAlive(bool on);

private:
    const int sockFd_;  // socket 的文件描述符
};

Socket.cc

#include "Socket.h"

#include 
#include 
#include 
#include 
#include 

#include "InetAddress.h"
#include "Logger.h"

// 构造函数
Socket::Socket(int sockFd) : sockFd_(sockFd) {
}

// 析构函数
Socket::~Socket() {
    ::close(sockFd_);
}

// 获取 socket 的文件描述符
int Socket::fd() const {
    return sockFd_;
}

// 绑定地址
void Socket::bindAddress(const InetAddress& localaddr) {
    if (0 != ::bind(sockFd_, (sockaddr*)localaddr.getSockAddr(), sizeof(sockaddr_in))) {
        LOG_FATAL("%s => bind socketFd:%d failed, errno:%d", __PRETTY_FUNCTION__, sockFd_, errno);
    }
}

// 监听连接请求
void Socket::listen() {
    if (0 != ::listen(sockFd_, SOMAXCONN)) {
        LOG_FATAL("%s => listen socketFd:%d failed, errno:%d", __PRETTY_FUNCTION__, sockFd_, errno);
    }
}

// 接受连接请求
int Socket::accept(InetAddress* peeraddr) {
    sockaddr_in addr;
    socklen_t len = sizeof addr;
    bzero(&addr, sizeof addr);
    // 接受客户端新连接，返回新连接对应的 socket fd（非阻塞的），用来和客户端进行读写
    int connfd = ::accept4(sockFd_, (sockaddr*)&addr, &len, SOCK_NONBLOCK | SOCK_CLOEXEC);
    if (connfd >= 0) {
        peeraddr->setSockAddr(addr);
    }
    return connfd;
}

// 关闭写入
void Socket::shutdownWrite() {
    if (::shutdown(sockFd_, SHUT_WR) < 0) {
        LOG_FATAL("%s => shutdown write socketFd:%d failed, errno:%d", __PRETTY_FUNCTION__, sockFd_, errno);
    }
}

// 是否开启 TCP_NODELAY，开启后关闭 Nagle 算法，减少延迟
void Socket::setTcpNoDelay(bool on) {
    int optval = on ? 1 : 0;
    ::setsockopt(sockFd_, IPPROTO_TCP, TCP_NODELAY, &optval, static_cast<socklen_t>(sizeof optval));
}

// 是否开启地址重用，允许端口在短时间内被重复绑定
void Socket::setReuseAddr(bool on) {
    int optval = on ? 1 : 0;
    ::setsockopt(sockFd_, SOL_SOCKET, SO_REUSEADDR, &optval, static_cast<socklen_t>(sizeof optval));
}

// 是否开启端口重用，让多个进程/线程可以绑定同一端口
void Socket::setReusePort(bool on) {
    int optval = on ? 1 : 0;
    int ret = ::setsockopt(sockFd_, SOL_SOCKET, SO_REUSEPORT, &optval, static_cast<socklen_t>(sizeof optval));
    if (ret < 0 && on) {
        LOG_FATAL("%s => set reuse port failed, errno:%d", __PRETTY_FUNCTION__, sockFd_, errno);
    }
}

// 是否开启 TCP 保活，用于检测对端是否还存活
void Socket::setKeepAlive(bool on) {
    int optval = on ? 1 : 0;
    ::setsockopt(sockFd_, SOL_SOCKET, SO_KEEPALIVE, &optval, static_cast<socklen_t>(sizeof optval));
}

Buffer

Buffer.h

#pragma once

#include 
#include 
#include 

#include "copyable.h"

/// A buffer class modeled after org.jboss.netty.buffer.ChannelBuffer
///
/// @code
/// +-------------------+------------------+------------------+
/// | prependable bytes |  readable bytes  |  writable bytes  |
/// |                   |     (CONTENT)    |                  |
/// +-------------------+------------------+------------------+
/// |                   |                  |                  |
/// 0      <=      readerIndex   <=   writerIndex    <=     size
/// @endcode

class Buffer : public copyable {
public:
    static const size_t kCheapPrepend = 8;    // 预留空间大小
    static const size_t kInitialSize = 1024;  // 初始缓冲区大小

    // 构造函数
    explicit Buffer(size_t initialSize = kInitialSize);

    // 析构函数
    ~Buffer();

    // 获取缓冲区中可读的字节数
    size_t readableBytes() const;

    // 获取缓冲区中可写的字节数
    size_t writableBytes() const;

    // 获取缓冲区中可预留的字节数
    size_t prependableBtes() const;

    // 返回缓冲区中可读数据的起始地址
    const char* peek() const;

    // 移动读指针
    void retrieve(size_t len);

    // 重置读指针与写指针
    void retrieveAll();

    // 将缓冲区中所有可读数据以字符串形式返回
    std::string retrieveAllAsString();

    // 将缓冲区中指定长度的可读数据以字符串形式返回
    std::string retrieveAsString(size_t len);

    // 确保缓冲区有足够的可写空间
    void ensureWritableBytes(size_t len);

    // 扩容缓冲区以容纳更多数据
    void makeSpace(size_t len);

    // 向缓冲区追加数据
    void append(const char* data, size_t len);

    // 通知缓冲区已写入数据
    void hasWritten(size_t len);

    // 返回缓冲区中可写数据的起始地址
    char* beginWrite();

    // 返回缓冲区中可写数据的起始地址
    const char* beginWrite() const;

    // 从 fd 上读取数据，并写到缓冲区中（返回值：n > 0：读取成功；n == 0：连接关闭；n < 0：读取出错）
    ssize_t readFd(int fd, int* saveErrno);

    // 从缓冲区中读取数据，并写到 fd 上（返回值：n > 0：写入成功；n == 0：没有数据可写入；n < 0：写入出错）
    ssize_t writeFd(int fd, int* saveErrno);

private:
    // 返回 vector 底层数组的首元素地址（即数组的起始地址）
    char* begin();

    // 返回 vector 底层数组的首元素地址（即数组的起始地址）
    const char* begin() const;

    std::vector<char> buffer_;  // 底层缓冲区
    size_t readerIndex_;        // 读指针位置
    size_t writerIndex_;        // 写指针位置
};

Buffer.cc

#include "Buffer.h"

#include 
#include 
#include 
#include 

// 构造函数
Buffer::Buffer(size_t initialSize)
    : buffer_(kCheapPrepend + initialSize), readerIndex_(kCheapPrepend), writerIndex_(kCheapPrepend) {
}

// 析构函数
Buffer::~Buffer() {
}

// 获取缓冲区中可读的字节数
size_t Buffer::readableBytes() const {
    return writerIndex_ - readerIndex_;
}

// 获取缓冲区中可写的字节数
size_t Buffer::writableBytes() const {
    return buffer_.size() - writerIndex_;
}

// 获取缓冲区中可预留的字节数
size_t Buffer::prependableBtes() const {
    return readerIndex_;
}

// 返回缓冲区中可读数据的起始地址
const char* Buffer::peek() const {
    return begin() + readerIndex_;
}

// 移动读指针
void Buffer::retrieve(size_t len) {
    assert(len <= readableBytes());
    if (len < readableBytes()) {
        readerIndex_ += len;
    } else {
        retrieveAll();
    }
}

// 重置读指针与写指针
void Buffer::retrieveAll() {
    readerIndex_ = kCheapPrepend;
    writerIndex_ = kCheapPrepend;
}

// 将缓冲区中所有可读数据以字符串形式返回
std::string Buffer::retrieveAllAsString() {
    return retrieveAsString(readableBytes());
}

// 将缓冲区中指定长度的可读数据以字符串形式返回
std::string Buffer::retrieveAsString(size_t len) {
    assert(len <= readableBytes());
    // 构造字符串
    std::string result(peek(), len);
    // 移动读指针
    retrieve(len);
    return result;
}

// 确保缓冲区有足够的可写空间
void Buffer::ensureWritableBytes(size_t len) {
    if (writableBytes() < len) {
        // 缓冲区扩容
        makeSpace(len);
    }
    assert(writableBytes() >= len);
}

// 扩容缓冲区以容纳更多数据
void Buffer::makeSpace(size_t len) {
    // 判断是否需要通过移动数据来腾出空间
    if (writableBytes() + prependableBtes() < len + kCheapPrepend) {
        // 没有空闲的空间，直接扩容
        buffer_.resize(writerIndex_ + len);
    } else {
        // 有空闲的空间，通过移动数据来腾出空间
        assert(kCheapPrepend < readerIndex_);
        size_t readable = readableBytes();
        std::copy(begin() + readerIndex_, begin() + writerIndex_, begin() + kCheapPrepend);
        readerIndex_ = kCheapPrepend;
        writerIndex_ = readerIndex_ + readable;
        assert(readable == readableBytes());
    }
}

// 向缓冲区追加数据
void Buffer::append(const char* data, size_t len) {
    ensureWritableBytes(len);
    std::copy(data, data + len, beginWrite());
    hasWritten(len);
}

// 通知缓冲区已写入数据
void Buffer::hasWritten(size_t len) {
    assert(len <= writableBytes());
    writerIndex_ += len;
}

// 返回缓冲区中可写数据的起始地址
char* Buffer::beginWrite() {
    return begin() + writerIndex_;
}

// 返回缓冲区中可写数据的起始地址
const char* Buffer::beginWrite() const {
    return begin() + writerIndex_;
}

// 从 fd 上读取数据，并写到缓冲区中（返回值：n > 0：读取成功；n == 0：连接关闭；n < 0：读取出错）
ssize_t Buffer::readFd(int fd, int* saveErrno) {
    // 在栈上分配内存空间（64KB）
    char extrabuf[65536] = {0};

    // 主缓冲区可写的字节数
    const size_t writable = writableBytes();

    // 采用 scatter-gather 读技术，同时将数据读入主缓冲区和 extrabuf
    struct iovec vec[2];
    vec[0].iov_base = begin() + writerIndex_;
    vec[0].iov_len = writable;
    vec[1].iov_base = extrabuf;
    vec[1].iov_len = sizeof extrabuf;

    // 当主缓冲区 writable 小于 extrabuf（64KB）时，说明主缓冲区的空间可能不够装下数据，
    // 需要使用两个 iovec：第一个写入 buffer_，第二个写入 extrabuf，从而尽可能读完内核中的数据。
    // 否则，如果主缓冲区足够大，只需一个 iovec。
    const int iovcnt = (writable < sizeof extrabuf) ? 2 : 1;

    // 读取数据
    const ssize_t n = ::readv(fd, vec, iovcnt);

    // 如果发生错误
    if (n < 0) {
        *saveErrno = errno;
    }
    // 如果只写入了主缓冲区，没有写入了 extrabuf
    else if (n <= writable) {
        writerIndex_ += n;
    }
    // 如果不仅写入了主缓冲区，还写入了 extrabuf
    else {
        writerIndex_ = buffer_.size();
        append(extrabuf, n - writable);
    }

    return n;
}

// 从缓冲区中读取数据，并写到 fd 上（返回值：n > 0：写入成功；n == 0：没有数据可写入；n < 0：写入出错）
ssize_t Buffer::writeFd(int fd, int* saveErrno) {
    ssize_t n = ::write(fd, peek(), readableBytes());
    if (n < 0) {
        // 写入出错，记录错误码
        *saveErrno = errno;
    }
    return n;
}

// 返回 vector 底层数组的首元素地址（即数组的起始地址）
char* Buffer::begin() {
    return &*buffer_.begin();
}

// 返回 vector 底层数组的首元素地址（即数组的起始地址）
const char* Buffer::begin() const {
    return &*buffer_.begin();
}

TcpConnection

TcpConnection.h

#pragma once

#include 
#include 
#include 
#include 

#include "Buffer.h"
#include "Callbacks.h"
#include "InetAddress.h"
#include "noncopyable.h"

// 类前置声明
class EventLoop;
class Channel;
class Socket;

// TCP 连接类
class TcpConnection : noncopyable, public std::enable_shared_from_this {
public:
    // 构造函数
    TcpConnection(EventLoop* loop, const std::string& nameArg, int sockfd, const InetAddress& localAddr,
                  const InetAddress& peerAddr);

    // 析构函数
    ~TcpConnection();

    // 获取 TCP 连接所在的事件循环
    EventLoop* getLoop() const;

    // 获取 TCP 连接的名称
    const std::string& name() const;

    // 获取 TCP 连接的本地网络地址
    const InetAddress& localAddress() const;

    // 获取 TCP 连接的远程网络地址
    const InetAddress& peerAddress() const;

    // 判断 TCP 连接是否处于已连接状态
    bool connected() const;

    // 判断 TCP 连接是否处于断开状态
    bool disconnected() const;

    // 发送数据到输出缓冲区
    void send(const std::string& message);

    // 关闭 TCP 连接
    void shutdown();

    // 强制关闭连接
    void forceClose();

    // 设置连接建立/关闭时的回调操作
    void setConnectionCallback(const ConnectionCallback& cb);

    // 设置有数据到来时的回调操作
    void setMessageCallback(const MessageCallback& cb);

    // 设置数据发送完成时的回调操作
    void setWriteCompleteCallback(const WriteCompleteCallback& cb);

    // 设置触发高水位时的回调操作
    void setHighWaterMarkCallback(const HighWaterMarkCallback& cb, size_t highWaterMark);

    // 设置连接关闭时的回调操作
    void setCloseCallback(const CloseCallback& cb);

    // 获取输入缓冲区
    Buffer* inputBuffer();

    // 获取输出缓冲区
    Buffer* outputBuffer();

    // 连接建立
    void connectEstablished();

    // 连接销毁
    void connectDestroyed();

private:
    // TCP 连接的状态
    enum StateE { kDisconnected, kConnecting, kConnected, kDisconnecting };

    // 处理读事件
    void handleRead(Timestamp receiveTime);

    // 处理写事件
    void handleWrite();

    // 处理关闭事件
    void handleClose();

    // 处理错误事件
    void handleError();

    // 在事件循环（EventLoop）中发送数据到输出缓冲区
    void sendInLoop(const void* message, size_t len);

    // 在事件循环（EventLoop）中关闭 TCP 连接
    void shutdownInLoop();

    // 在事件循环（EventLoop）中强制关闭 TCP 连接
    void forceCloseInLoop();

    // 设置 TCP 连接的状态
    void setState(StateE state);

    // 将 TCP 连接的状态转换为字符串
    const char* stateToString() const;

    EventLoop* loop_;         // TCP 连接所在的事件循环，TCP 连接运行在 subLoop 中
    const std::string name_;  // TCP 连接的名称
    std::atomic_int state_;   // TCP 连接的状态
    bool reading_;            // 标记是否正在读数据

    std::unique_ptr socket_;    // TCP 连接对应的 Socket 对象
    std::unique_ptr channel_;  // TCP 连接对应的 Channel 对象

    const InetAddress localAddr_;  // TCP 连接的本地网络地址
    const InetAddress peerAddr_;   // TCP 连接的远程网络地址

    ConnectionCallback connectionCallback_;        // 连接建立/关闭时的回调操作
    MessageCallback messageCallback_;              // 有数据到来时的回调操作
    WriteCompleteCallback writeCompleteCallback_;  // 数据发送完成时的回调操作
    HighWaterMarkCallback highWaterMarkCallback_;  // 触发高水位时的回调操作
    CloseCallback closeCallback_;                  // 连接关闭时的回调操作

    size_t highWaterMark_;  // 高水位的大小（默认 64M）
    Buffer inputBuffer_;    // 输入缓冲区（用于接收数据的缓冲区）
    Buffer outputBuffer_;   // 输出缓冲区（用于发送数据的缓冲区）
};

TcpConnection.cc

#include "TcpConnection.h"

#include 
#include 
#include 

#include "Channel.h"
#include "EventLoop.h"
#include "Logger.h"
#include "Socket.h"
#include "SocketsOps.h"

// 检查 EventLoop 指针是否为空
static EventLoop* CheckLoopNotNull(EventLoop* loop) {
    if (loop == nullptr) {
        LOG_FATAL("%s => eventloop is null", __PRETTY_FUNCTION__);
    }
    return loop;
}

// 默认连接建立/关闭时的回调操作
void defaultConnectionCallback(const TcpConnectionPtr& conn) {
    LOG_DEBUG("%s => %s -> %s is %s", __PRETTY_FUNCTION__, conn->localAddress().toIpPort().c_str(),
              conn->peerAddress().toIpPort().c_str(), (conn->connected() ? "UP" : "DOWN"));
}

// 默认有数据到来时的回调操作
void defaultMessageCallback(const TcpConnectionPtr&, Buffer* buf, Timestamp) {
    buf->retrieveAll();
}

// 构造函数
TcpConnection::TcpConnection(EventLoop* loop, const std::string& nameArg, int sockfd, const InetAddress& localAddr,
                             const InetAddress& peerAddr)
    : loop_(CheckLoopNotNull(loop)),
      name_(nameArg),
      state_(kConnecting),
      socket_(new Socket(sockfd)),
      channel_(new Channel(loop, sockfd)),
      localAddr_(localAddr),
      peerAddr_(peerAddr),
      connectionCallback_(defaultConnectionCallback),
      messageCallback_(defaultMessageCallback),
      highWaterMark_(64 * 1024 * 1024) {
    // 给 Channel 设置相应的回调函数，Poller 会通知 Channel 它感兴趣的事件发生了，然后 Channel 会回调相应的操作函数
    channel_->setReadCallback(std::bind(&TcpConnection::handleRead, this, std::placeholders::_1));
    channel_->setWriteCallback(std::bind(&TcpConnection::handleWrite, this));
    channel_->setCloseCallback(std::bind(&TcpConnection::handleClose, this));
    channel_->setErrorCallback(std::bind(&TcpConnection::handleError, this));
    // 打印日志信息
    LOG_DEBUG("%s => create tcp connection [%s] at %p, fd=%d", __PRETTY_FUNCTION__, name_.c_str(), this, sockfd);
    // 开启 TCP 保活机制
    socket_->setKeepAlive(true);
}

// 析构函数
TcpConnection::~TcpConnection() {
    // 打印日志信息
    LOG_DEBUG("%s => destruct tcp connection [%s] at %p, fd=%d, state=%s", __PRETTY_FUNCTION__, name_.c_str(), this,
              channel_->fd(), stateToString());
}

// 获取 TCP 连接所在的事件循环
EventLoop* TcpConnection::getLoop() const {
    return loop_;
}

// 获取 TCP 连接的名称
const std::string& TcpConnection::name() const {
    return name_;
}

// 获取 TCP 连接的本地网络地址
const InetAddress& TcpConnection::localAddress() const {
    return localAddr_;
}

// 获取 TCP 连接的远程网络地址
const InetAddress& TcpConnection::peerAddress() const {
    return peerAddr_;
}

// 判断 TCP 连接是否处于已连接状态
bool TcpConnection::connected() const {
    return state_ == kConnected;
}

// 判断 TCP 连接是否处于断开状态
bool TcpConnection::disconnected() const {
    return state_ == kDisconnected;
}

// 发送数据到输出缓冲区
void TcpConnection::send(const std::string& message) {
    if (state_ == kConnected) {
        // 如果当前线程是 loop_ 所在的线程
        if (loop_->isInLoopThread()) {
            // 直接将数据发送到输出缓冲区
            sendInLoop(message.c_str(), message.size());
        } else {
            // 唤醒 loop_ 对应的线程将数据发送到输出缓冲区
            loop_->runInLoop(std::bind(&TcpConnection::sendInLoop, this, message.c_str(), message.size()));
        }
    }
}

// 关闭 TCP 连接
void TcpConnection::shutdown() {
    if (state_ == kConnected) {
        // 设置 TCP 连接的状态
        setState(kDisconnecting);
        // 唤醒 loop_ 对应的线程去关闭 TCP 连接
        loop_->runInLoop(std::bind(&TcpConnection::shutdownInLoop, this));
    }
}

// 强制关闭连接
void TcpConnection::forceClose() {
    // 判断 TCP 连接的状态
    if (state_ == kConnected || state_ == kDisconnecting) {
        // 设置连接状态
        setState(kDisconnecting);
        // 唤醒 loop_ 对应的线程去强制关闭 TCP 连接
        loop_->queueInLoop(std::bind(&TcpConnection::forceCloseInLoop, shared_from_this()));
    }
}

// 连接建立/关闭时的回调操作
void TcpConnection::setConnectionCallback(const ConnectionCallback& cb) {
    connectionCallback_ = cb;
}

// 设置有数据到来时的回调操作
void TcpConnection::setMessageCallback(const MessageCallback& cb) {
    messageCallback_ = cb;
}

// 设置数据发送完成时的回调操作
void TcpConnection::setWriteCompleteCallback(const WriteCompleteCallback& cb) {
    writeCompleteCallback_ = cb;
}

// 设置触发高水位时的回调操作
void TcpConnection::setHighWaterMarkCallback(const HighWaterMarkCallback& cb, size_t highWaterMark) {
    highWaterMarkCallback_ = cb;
    highWaterMark_ = highWaterMark;
}

// 设置连接关闭时的回调操作
void TcpConnection::setCloseCallback(const CloseCallback& cb) {
    closeCallback_ = cb;
}

// 获取输入缓冲区
Buffer* TcpConnection::inputBuffer() {
    return &inputBuffer_;
}

// 获取输出缓冲区
Buffer* TcpConnection::outputBuffer() {
    return &outputBuffer_;
}

// 连接建立
void TcpConnection::connectEstablished() {
    assert(state_ == kConnecting);
    // 设置 TCP 连接的状态
    setState(kConnected);
    // Channel 绑定 TCP 连接
    channel_->tie(shared_from_this());
    // Channel 开启监听 fd 上的读事件
    channel_->enableReading();
    // 调用用户设置的回调操作
    connectionCallback_(shared_from_this());
}

// 连接销毁
void TcpConnection::connectDestroyed() {
    if (state_ == kConnected) {
        // 设置 TCP 连接的状态
        setState(kDisconnected);
        // Channel 禁止监听 fd 上的所有事件
        channel_->disableAll();
        // 调用用户设置的回调操作
        connectionCallback_(shared_from_this());
    }
    // 从 Poller 中删除 Channel
    channel_->remove();
}

// 处理读事件
void TcpConnection::handleRead(Timestamp receiveTime) {
    // 临时错误码
    int saveErrno = 0;

    // 从 fd 上读取数据，并写入到输入缓冲区中
    ssize_t n = inputBuffer_.readFd(channel_->fd(), &saveErrno);

    if (n > 0) {
        // 已建立连接的客户端，有可读事件发生了，调用用户设置的回调操作
        messageCallback_(shared_from_this(), &inputBuffer_, receiveTime);
    } else if (n == 0) {
        // 处理连接关闭
        handleClose();
    } else {
        // 设置错误码
        errno = saveErrno;
        // 打印日志信息
        LOG_ERROR("%s => read fd error, fd=%d, errno=%d", __PRETTY_FUNCTION__, channel_->fd(), errno);
        // 处理连接错误
        handleError();
    }
}

// 处理写事件
void TcpConnection::handleWrite() {
    // 判断 Channel 是否正在监听写事件
    if (channel_->isWriting()) {
        // 临时错误码
        int saveErrno = 0;

        // 从输出缓冲区读取数据，并写入到 fd 上
        ssize_t n = outputBuffer_.writeFd(channel_->fd(), &saveErrno);

        if (n > 0) {
            // 移动输出缓冲区的读指针（标记有哪些数据被发送了）
            outputBuffer_.retrieve(n);

            // 如果输出缓冲区中的所有数据都发送完了
            if (outputBuffer_.readableBytes() == 0) {
                // 关闭监听 fd 上的写事件
                channel_->disableWriting();
                // 调用用户设置的回调操作
                if (writeCompleteCallback_) {
                    // 唤醒 loop_ 所在的线程去执行用户设置的回调操作
                    loop_->queueInLoop(std::bind(writeCompleteCallback_, shared_from_this()));
                }
                // 如果正在断开 TCP 连接，则关闭 TCP 连接
                if (state_ == kDisconnecting) {
                    shutdownInLoop();
                }
            }
        } else if (n < 0) {
            // 打印日志信息
            LOG_ERROR("%s => write fd error, fd=%d, errno=%d", __PRETTY_FUNCTION__, channel_->fd(), errno);
        }
    } else {
        // 打印日志信息
        LOG_DEBUG("%s => tcp connection [%s] is down, no more writing, fd=%d", __PRETTY_FUNCTION__, name_.c_str(),
                  channel_->fd());
    }
}

// 处理关闭事件
void TcpConnection::handleClose() {
    // 打印日志信息
    LOG_DEBUG("%s => tcp connection [%s] is close, fd=%d, state=%s", __PRETTY_FUNCTION__, name_.c_str(), channel_->fd(),
              stateToString());

    // 设置 TCP 连接的状态
    setState(kDisconnected);

    // 禁止 Channel 监听 fd 上的所有事件
    channel_->disableAll();

    // 获取当前的 TCP 连接
    TcpConnectionPtr guardThis(shared_from_this());

    // 调用用户设置的连接建立/关闭时的回调操作
    connectionCallback_(guardThis);

    // 调用用户设置的连接关闭时的回调操作
    if (closeCallback_) {
        closeCallback_(guardThis);
    }
}

// 处理错误事件
void TcpConnection::handleError() {
    // 获取 Socket 错误码
    int savedErrno = getSocketError(channel_->fd());

    // 打印日志信息
    LOG_ERROR("%s => tcp connection [%s] occurred error, fd=%d, SO_ERROR:%d", __PRETTY_FUNCTION__, name_.c_str(),
              channel_->fd(), savedErrno);
}

// 在事件循环（EventLoop）中发送数据到输出缓冲区
void TcpConnection::sendInLoop(const void* message, size_t len) {
    loop_->assertInLoopThread();

    // 已发送数据的字节数
    ssize_t nwrote = 0;

    // 剩下未发送数据的字节数
    size_t remaining = len;

    // 是否发生致命错误
    bool faultError = false;

    // 如果 TCP 连接已断开，则放弃发送数据
    if (state_ == kDisconnected) {
        LOG_ERROR("%s => tcp connection [%s] disconnected, give up writing", __PRETTY_FUNCTION__, name_.c_str());
        return;
    }

    // 如果 Channel 是第一次写入数据，且输出缓冲区里面没有待发送的数据
    if (!channel_->isWriting() && outputBuffer_.readableBytes() == 0) {
        // 直接发送数据（成功：返回已发送的字节数，失败：返回小于零的数字）
        nwrote = ::write(channel_->fd(), message, len);
        // 发送数据成功
        if (nwrote >= 0) {
            // 剩下未发送的字节数
            remaining = len - nwrote;
            // 如果所有数据都发送完
            if (remaining == 0 && writeCompleteCallback_) {
                // 唤醒 loop_ 所在的线程去执行用户设置的回调操作
                loop_->runInLoop(std::bind(writeCompleteCallback_, shared_from_this()));
            }
        }
        // 发送数据失败
        else {
            nwrote = 0;
            if (errno != EWOULDBLOCK) {
                LOG_ERROR("%s => occurred error", __PRETTY_FUNCTION__);
                if (errno == EPIPE || errno == ECONNRESET) {
                    faultError = true;
                }
            }
        }
    }

    assert(remaining <= len);

    // 如果发送数据没有发生致命错误，且有剩下的数据未发送
    if (!faultError && remaining > 0) {
        // 输出缓冲区中原先未发送数据的字节数
        size_t oldLen = outputBuffer_.readableBytes();
        // 判断所有未发送数据的大小是否触及了高水位线
        if (oldLen + remaining >= highWaterMark_ && oldLen < highWaterMark_ && highWaterMarkCallback_) {
            // 唤醒 loop_ 所在的线程去执行用户设置的回调操作
            loop_->runInLoop(std::bind(highWaterMarkCallback_, shared_from_this(), oldLen + remaining));
        }
        // 往输出缓冲区中写入上面未发送完的数据
        outputBuffer_.append(static_cast<const char*>(message) + nwrote, remaining);
        // 让 Channel 开启监听 fd 上的写事件
        if (!channel_->isWriting()) {
            channel_->enableWriting();
        }
    }
}

// 在事件循环（EventLoop）中关闭 TCP 连接
void TcpConnection::shutdownInLoop() {
    loop_->assertInLoopThread();
    // 如果输出缓冲区中的所有数据都发送完
    if (!channel_->isWriting()) {
        // Socket 关闭写入
        socket_->shutdownWrite();
    }
}

// 在事件循环（EventLoop）中强制关闭 TCP 连接
void TcpConnection::forceCloseInLoop() {
    loop_->assertInLoopThread();
    // 判断 TCP 连接的状态
    if (state_ == kConnected || state_ == kDisconnecting) {
        // 处理关闭事件
        handleClose();
    }
}

// 设置 TCP 连接的状态
void TcpConnection::setState(StateE state) {
    state_ = state;
}

// 将 TCP 连接的状态转换为字符串
const char* TcpConnection::stateToString() const {
    switch (state_) {
        case kDisconnected:
            return "kDisconnected";
        case kConnecting:
            return "kConnecting";
        case kConnected:
            return "kConnected";
        case kDisconnecting:
            return "kDisconnecting";
        default:
            return "unknown state";
    }
}

Acceptor

Acceptor.h

#pragma once

#include 

#include "Channel.h"
#include "Socket.h"
#include "noncopyable.h"

// 类前置声明
class EventLoop;
class InetAddress;

// TCP 连接接受器类
class Acceptor : noncopyable {
public:
    // 有新连接到来时的回调操作类型定义
    using NewConnectionCallback = std::function<void(int sockFd, const InetAddress&)>;

    // 构造函数
    Acceptor(EventLoop* loop, const InetAddress& listenAddr, bool reuseport);

    // 析构函数
    ~Acceptor();

    // 设置有新连接到来时的回调操作
    void setNewConnectionCallback(const NewConnectionCallback& cb);

    // 监听连接请求（即监听有新的客户端连接进来）
    void listen();

    // 获取是否正在监听连接请求
    bool listenning() const;

private:
    // 处理读事件（即处理有新客户端连接进来）
    void handleRead();

    EventLoop* loop_;        // Acceptor 使用的就是用户自定义的那个 baseLoop，也称作 mainLoop
    Socket acceptSocket_;    // 用于监听的 socket
    Channel acceptChannel_;  // 用于监听 acceptSocket_ 上的可读事件（即有新连接到来）
    NewConnectionCallback newConnectionCallback_;  // 有新连接到来时的回调操作
    bool listenning_;                              // 标记是否正在监听连接请求
};

Acceptor.cc

#include "Acceptor.h"

#include 
#include 
#include 

#include "InetAddress.h"
#include "Logger.h"
#include "SocketsOps.h"

// 构造函数
Acceptor::Acceptor(EventLoop* loop, const InetAddress& listenAddr, bool reuseport)
    : loop_(loop),
      acceptSocket_(createNonblockingSocket()),
      acceptChannel_(loop, acceptSocket_.fd()),
      listenning_(false) {
    acceptSocket_.setReuseAddr(true);
    acceptSocket_.setReusePort(reuseport);
    acceptSocket_.bindAddress(listenAddr);
    // 设置 acceptChannel_ 的读事件回调操作为 Acceptor::handleRead 方法
    acceptChannel_.setReadCallback(std::bind(&Acceptor::handleRead, this));
}

// 析构函数
Acceptor::~Acceptor() {
    // 关闭 acceptChannel_ 上的所有事件监听
    acceptChannel_.disableAll();
    // 从 Poller 中删除 acceptChannel_
    acceptChannel_.remove();
}

// 设置有新连接到来时的回调操作
void Acceptor::setNewConnectionCallback(const NewConnectionCallback& cb) {
    newConnectionCallback_ = cb;
}

// 监听连接请求（即监听有新的客户端连接进来）
void Acceptor::listen() {
    listenning_ = true;
    // 监听客户端的连接请求
    acceptSocket_.listen();
    // 启用 acceptChannel_ 的读事件监听（即监听有新连接到来）
    acceptChannel_.enableReading();
}

// 获取是否正在监听连接请求
bool Acceptor::listenning() const {
    return listenning_;
}

// 处理读事件（即处理有新客户端连接进来）
void Acceptor::handleRead() {
    InetAddress peerAddr;
    // 接受客户端新连接，返回新连接对应的 socket fd，用来和客户端进行读写
    int connfd = acceptSocket_.accept(&peerAddr);
    if (connfd >= 0) {
        // 有客户端新连接到来，执行回调操作（如果存在）
        if (newConnectionCallback_) {
            // 回调操作的职责：轮询找到 subLoop，将新客户端的 fd 分发给 subLoop，然后唤醒 subLoop 以处理该新客户端的连接
            newConnectionCallback_(connfd, peerAddr);
        } else {
            ::close(connfd);
        }
    } else {
        LOG_ERROR("%s => accept failed, errno:%d", __PRETTY_FUNCTION__, errno);
        if (errno == EMFILE) {
            LOG_ERROR("%s => sockfd reached limit", __PRETTY_FUNCTION__);
        }
    }
}

TcpServer

TcpServer.h

#pragma once

#include 
#include 
#include 
#include 

#include "Acceptor.h"
#include "Callbacks.h"
#include "EventLoop.h"
#include "EventLoopThreadPool.h"
#include "InetAddress.h"
#include "TcpConnection.h"
#include "atomic"
#include "noncopyable.h"
#include "unordered_map"

// TCP 服务器类
class TcpServer : noncopyable {
public:
    // 线程初始化回调操作类型定义
    using ThreadInitCallback = std::function<void(EventLoop*)>;

    // 端口复用选项枚举类型定义
    enum Option {
        kNoReusePort,
        kReusePort,
    };

    // 构造函数
    TcpServer(EventLoop* loop, const InetAddress& listenAddr, const std::string nameArg, Option option = kNoReusePort);

    // 析构函数
    ~TcpServer();

    // 获取服务器监听的 IP 和端口信息
    const std::string& ipPort() const;

    // 获取服务器名称
    const std::string& name() const;

    // 获取服务器的事件循环
    EventLoop* getLoop() const;

    // 设置线程池的线程数量（即底层 subLoop 的数量）
    void setThreadNum(int numThreads);

    // 启动服务器（线程安全）
    void start();

    // 设置线程初始化回调操作
    void setThreadInitCallback(const ThreadInitCallback& cb);

    // 设置有新连接到来时的回调操作
    void setConnectionCallback(const ConnectionCallback& cb);

    // 设置有数据到来时的回调操作
    void setMessageCallback(const MessageCallback& cb);

    // 设置数据发送完成时的回调操作
    void setWriteCompleteCallback(const WriteCompleteCallback& cb);

private:
    // TCP 连接集合类型定义
    using ConnectionMap = std::unordered_map;

    // 创建 TCP 连接（在 baseLoop 上执行）
    void newConnection(int sockfd, const InetAddress& peerAddr);

    // 移除 TCP 连接
    void removeConnection(const TcpConnectionPtr& conn);

    // 移除 TCP 连接（在 baseLoop 上执行）
    void removeConnectionInLoop(const TcpConnectionPtr& conn);

    EventLoop* loop_;  // 用户自定义的 EventLoop（即 baseLoop，也称作 mainLoop，运行在主线程上）

    const std::string name_;              // 服务器名称
    const std::string ipPort_;            // 服务器监听的 IP 和端口信息
    std::unique_ptr acceptor_;  // 用于监听新连接的 Acceptor 对象，运行在 baseLoop 上

    std::shared_ptr threadPool_;  // 事件循环线程池

    ConnectionCallback connectionCallback_;        // 有新连接到来时的回调操作
    MessageCallback messageCallback_;              // 有数据到来时的回调操作
    WriteCompleteCallback writeCompleteCallback_;  // 数据发送完成时的回调操作
    ThreadInitCallback threadInitCallback_;        // 线程初始化回调操作

    std::atomic_int started_;    // 标记服务器是否已经启动
    int nextConnId_;             // 下一个 TCP 连接的 ID
    ConnectionMap connections_;  // 保存所有的 TCP 连接
};

TcpServer.cc

#include "TcpServer.h"

#include 
#include 

#include "Logger.h"
#include "TcpConnection.h"

static EventLoop* CheckLoopNotNull(EventLoop* loop) {
    if (loop == nullptr) {
        LOG_FATAL("%s => baseLoop is null", __PRETTY_FUNCTION__);
    }
    return loop;
}

// 构造函数
TcpServer::TcpServer(EventLoop* loop, const InetAddress& listenAddr, const std::string nameArg, Option option)
    : loop_(CheckLoopNotNull(loop)),
      ipPort_(listenAddr.toIpPort()),
      name_(nameArg),
      acceptor_(new Acceptor(loop, listenAddr, option == kReusePort)),
      threadPool_(new EventLoopThreadPool(loop, name_)),
      connectionCallback_(defaultConnectionCallback),
      messageCallback_(defaultMessageCallback),
      nextConnId_(1),
      started_(0) {
    // 当有新客户端连接进来时，会调用 TcpServer::newConnection() 函数
    acceptor_->setNewConnectionCallback(
        std::bind(&TcpServer::newConnection, this, std::placeholders::_1, std::placeholders::_2));
}

// 析构函数
TcpServer::~TcpServer() {
    // 打印日志信息
    LOG_DEBUG("%s => tcp server [%s] destructing", __PRETTY_FUNCTION__, name_.c_str());

    // 遍历所有 TCP 连接
    for (auto& item : connections_) {
        // 这个局部的智能指针对象出了右括号后，会自动释放掉对应的 TcpConnection 资源
        TcpConnectionPtr conn(item.second);
        // 重置原有的智能指针
        item.second.reset();
        // 唤醒 TCP 连接所在的 EventLoop 去执行 TcpConnection::connectDestroyed() 函数
        conn->getLoop()->runInLoop(std::bind(&TcpConnection::connectDestroyed, conn));
    }
}

// 获取服务器监听的 IP 和端口信息
const std::string& TcpServer::ipPort() const {
    return ipPort_;
};

// 获取服务器名称
const std::string& TcpServer::name() const {
    return name_;
};

// 获取服务器的事件循环
EventLoop* TcpServer::getLoop() const {
    return loop_;
}

// 设置线程池的线程数量（即底层 subLoop 的数量）
void TcpServer::setThreadNum(int numThreads) {
    threadPool_->setThreadNum(numThreads);
}

// 启动服务器（线程安全）
void TcpServer::start() {
    // 防止 TcpServer 被多次启动
    if (started_++ == 0) {
        // 启动多个子线程，并各自运行一个 subLoop
        threadPool_->start(threadInitCallback_);
        // 在 baseLoop（运行在主线程）上监听连接请求（即监听有新的客户端连接进来）
        loop_->runInLoop(std::bind(&Acceptor::listen, acceptor_.get()));
    }
}

// 设置线程初始化回调操作
void TcpServer::setThreadInitCallback(const ThreadInitCallback& cb) {
    threadInitCallback_ = cb;
}

// 设置有新连接到来时的回调操作
void TcpServer::setConnectionCallback(const ConnectionCallback& cb) {
    connectionCallback_ = cb;
}

// 设置有数据到来时的回调操作
void TcpServer::setMessageCallback(const MessageCallback& cb) {
    messageCallback_ = cb;
}

// 设置数据发送完成时的回调操作
void TcpServer::setWriteCompleteCallback(const WriteCompleteCallback& cb) {
    writeCompleteCallback_ = cb;
}

// 创建 TCP 连接（在 baseLoop 上执行）
void TcpServer::newConnection(int sockfd, const InetAddress& peerAddr) {
    // 通过轮询算法，获取下一个 subLoop（也称作 ioLoop）
    EventLoop* ioLoop = threadPool_->getNextLoop();

    // 拼接 TCP 连接的名称
    char buf[64] = {0};
    snprintf(buf, sizeof buf, "-%s#%d", ipPort_.c_str(), nextConnId_);
    ++nextConnId_;
    std::string connName = name_ + buf;

    // 打印日志信息
    LOG_DEBUG("%s => tcp server [%s] new connection [%s] from %s", __PRETTY_FUNCTION__, name_.c_str(), connName.c_str(),
              ipPort_.c_str());

    // 获取本地网络地址
    sockaddr_in local;
    ::bzero(&local, sizeof local);
    socklen_t addrlen = sizeof local;
    if (::getsockname(sockfd, (sockaddr*)&local, &addrlen) < 0) {
        LOG_ERROR("%s => fail to get local internet address", __PRETTY_FUNCTION__);
    }
    InetAddress localAddr(local);

    // 根据连接成功的 sockfd，创建 TCP 连接对象
    TcpConnectionPtr conn(new TcpConnection(ioLoop, connName, sockfd, localAddr, peerAddr));

    // 将新创建的 TCP 连接对象放进集合中
    connections_[connName] = conn;

    // 设置 TCP 连接的回调操作（由用户自定义）
    conn->setConnectionCallback(connectionCallback_);
    conn->setMessageCallback(messageCallback_);
    conn->setWriteCompleteCallback(writeCompleteCallback_);
    conn->setCloseCallback(std::bind(&TcpServer::removeConnection, this, std::placeholders::_1));

    // 唤醒 ioLoop 所在的线程去执行 TcpConnection::connectEstablished() 函数
    ioLoop->runInLoop(std::bind(&TcpConnection::connectEstablished, conn));
}

// 移除 TCP 连接
void TcpServer::removeConnection(const TcpConnectionPtr& conn) {
    // 唤醒 baseLoop 所在的线程去执行 TcpServer::removeConnectionInLoop() 函数
    loop_->runInLoop(std::bind(&TcpServer::removeConnectionInLoop, this, conn));
}

// 移除 TCP 连接（在 baseLoop 上执行）
void TcpServer::removeConnectionInLoop(const TcpConnectionPtr& conn) {
    loop_->assertInLoopThread();
    // 打印日志信息
    LOG_DEBUG("%s => tcp server [%s] remove connection [%s]", __PRETTY_FUNCTION__, name_.c_str(), conn->name().c_str());

    // 移除 TCP 连接
    size_t n = connections_.erase(conn->name());

    // 唤醒 TCP 连接所在的 EventLoop 去执行 TcpConnection::connectDestroyed() 函数
    assert(n == 1);
    EventLoop* ioLoop = conn->getLoop();
    ioLoop->runInLoop(std::bind(&TcpConnection::connectDestroyed, conn));
}

Connector

Connector.h

#pragma once

#include 
#include 
#include 

#include "InetAddress.h"
#include "noncopyable.h"

// 类前置声明
class Channel;
class EventLoop;

// TCP 连接器类
class Connector : noncopyable, public std::enable_shared_from_this {
public:
    // 有新连接建立时的回调操作类型定义
    using NewConnectionCallback = std::function<void(int sockfd)>;

    // 构造函数
    Connector(EventLoop* loop, const InetAddress& serverAddr);

    // 析构函数
    ~Connector();

    // 设置有新连接建立时的回调操作类型定义
    void setNewConnectionCallback(const NewConnectionCallback& cb);

    // 启动连接器
    void start();

    // 重启连接器（必须在 EventLoop 所处的线程上执行）
    void restart();

    // 停止连接器
    void stop();

    // 获取服务器地址
    const InetAddress& serverAddress() const;

private:
    // 连接器的状态
    enum States { kDisconnected, kConnecting, kConnected };
    // 最大重试延迟时间（毫秒）
    static const int kMaxRetryDelayMs;
    // 初始重试延迟时间（毫秒）
    static const int kInitRetryDelayMs;

    // 设置连接状态
    void setState(States s);

    // 在 EventLoop 所处的线程上启动连接器
    void startInLoop();

    // 在 EventLoop 所处的线程上停止连接器
    void stopInLoop();

    // 发起连接操作
    void connect();

    // 处理正在连接的 Socket
    void connecting(int sockfd);

    // 处理写事件
    void handleWrite();

    // 处理错误事件
    void handleError();

    // 重试连接
    void retry(int sockfd);

    // 移除并重置 Channel
    int removeAndResetChannel();

    // 重置 Channel
    void resetChannel();

    EventLoop* loop_;                              // 连接器所在的事件循环
    InetAddress serverAddr_;                       // 服务器地址
    std::atomic_int connect_;                      // 标记是否需要连接
    States state_;                                 // 连接状态
    std::unique_ptr channel_;             // 连接器对应的 Channel
    NewConnectionCallback newConnectionCallback_;  // 新连接建立时的回调操作
    int retryDelayMs_;                             // 重试连接的延迟时间（毫秒）
};

Connector.cc

#include "Connector.h"

#include 
#include 
#include 
#include 

#include 
#include 

#include "Channel.h"
#include "EventLoop.h"
#include "Logger.h"
#include "SocketsOps.h"

// 定义初始重试延迟时间（毫秒）
const int Connector::kInitRetryDelayMs = 500;
// 定义最大重试延迟时间（毫秒）
const int Connector::kMaxRetryDelayMs = 30 * 1000;

// 构造函数
Connector::Connector(EventLoop* loop, const InetAddress& serverAddr)
    : loop_(loop), serverAddr_(serverAddr), connect_(false), state_(kDisconnected), retryDelayMs_(kInitRetryDelayMs) {
    // 打印日志信息
    LOG_DEBUG("%s => create connector at %p", __PRETTY_FUNCTION__, this);
}

// 析构函数
Connector::~Connector() {
    // 打印日志信息
    LOG_DEBUG("%s => destruct connector at %p", __PRETTY_FUNCTION__, this);
}

// 设置有新连接建立时的回调操作类型定义
void Connector::setNewConnectionCallback(const NewConnectionCallback& cb) {
    newConnectionCallback_ = cb;
}

// 启动连接器
void Connector::start() {
    // 标记需要连接
    connect_ = true;
    // 唤醒 loop_ 对应的线程去启动连接器
    loop_->runInLoop(std::bind(&Connector::startInLoop, this));
}

// 在 EventLoop 所处的线程上启动连接器
void Connector::startInLoop() {
    loop_->assertInLoopThread();
    assert(state_ == kDisconnected);
    // 判断是否需要连接
    if (connect_) {
        // 发起连接操作
        connect();
    } else {
        LOG_DEBUG("%s => do not connect");
    }
}

// 停止连接器
void Connector::stop() {
    // 标记不再连接
    connect_ = false;
    // 唤醒 loop_ 对应的线程去关闭连接器
    loop_->queueInLoop(std::bind(&Connector::stopInLoop, this));
}

// 在 EventLoop 所处的线程上停止连接器
void Connector::stopInLoop() {
    loop_->assertInLoopThread();
    if (state_ == kConnecting) {
        // 设置连接状态为已断开
        setState(kDisconnected);
        // 移除并重置 Channel
        int sockfd = removeAndResetChannel();
        // 重试连接
        retry(sockfd);
    }
}

// 重启连接器（必须在 EventLoop 所处的线程上执行）
void Connector::restart() {
    loop_->assertInLoopThread();
    // 设置连接状态
    setState(kDisconnected);
    // 重置重试延迟时间
    retryDelayMs_ = kInitRetryDelayMs;
    // 标记需要连接
    connect_ = true;
    // 启动连接器
    startInLoop();
}

// 获取服务器地址
const InetAddress& Connector::serverAddress() const {
    return serverAddr_;
}

// 设置连接状态
void Connector::setState(States s) {
    state_ = s;
}

// 发起连接操作
void Connector::connect() {
    // 创建非阻塞的 Socket
    int sockfd = createNonblockingSocket();
    // 连接 TCP 服务器
    int ret = ::connect(sockfd, (sockaddr*)serverAddr_.getSockAddr(), sizeof(sockaddr_in));
    // 处理连接结果
    int savedErrno = (ret == 0) ? 0 : errno;
    switch (savedErrno) {
        case 0:
        case EINPROGRESS:
        case EINTR:
        case EISCONN:
            // 处理正在连接的 Socket
            connecting(sockfd);
            break;

        case EAGAIN:
        case EADDRINUSE:
        case EADDRNOTAVAIL:
        case ECONNREFUSED:
        case ENETUNREACH:
            // 重新连接
            retry(sockfd);
            break;

        case EACCES:
        case EPERM:
        case EAFNOSUPPORT:
        case EALREADY:
        case EBADF:
        case EFAULT:
        case ENOTSOCK:
            // 打印日志信息
            LOG_ERROR("%s => connect error, errno:%d", __PRETTY_FUNCTION__, errno);
            // 关闭连接
            ::close(sockfd);
            break;

        default:
            // 打印日志信息
            LOG_ERROR("%s => unexpected error, errno:%d", __PRETTY_FUNCTION__, errno);
            // 关闭连接
            ::close(sockfd);
            break;
    }
}

// 处理正在连接的 Socket
void Connector::connecting(int sockfd) {
    // 设置连接状态为正在连接
    setState(kConnecting);
    // 创建 Channel 并注册写事件和错误事件的回调操作
    channel_.reset(new Channel(loop_, sockfd));
    channel_->setWriteCallback(std::bind(&Connector::handleWrite, this));
    channel_->setErrorCallback(std::bind(&Connector::handleError, this));
    // Channel 开启监听 fd 上的写事件
    channel_->enableWriting();
}

// 处理写事件
void Connector::handleWrite() {
    // 打印日志信息
    LOG_DEBUG("%s => state:%d", __PRETTY_FUNCTION__, state_);

    if (state_ == kConnecting) {
        // 移除并重置 Channel
        int sockfd = removeAndResetChannel();
        // 获取 Socket 错误码
        int savedErrno = getSocketError(sockfd);

        // 发生错误
        if (savedErrno) {
            // 打印日志信息
            LOG_WARN("%s => SO_ERROR=%d", __PRETTY_FUNCTION__, savedErrno);
            // 重新连接
            retry(sockfd);
        }
        // 发生自连接
        else if (isSelfConnect(sockfd)) {
            // 打印日志信息
            LOG_WARN("%s => self connect", __PRETTY_FUNCTION__);
            // 重新连接
            retry(sockfd);
        }
        // 连接成功
        else {
            // 设置连接状态为已连接
            setState(kConnected);
            // 判断是否需要连接
            if (connect_) {
                // 需要连接，执行有新连接建立时的回调操作
                newConnectionCallback_(sockfd);
            } else {
                // 不需要连接，关闭该连接
                ::close(sockfd);
            }
        }
    } else {
        assert(state_ == kDisconnected);
    }
}

// 处理错误事件
void Connector::handleError() {
    // 打印日志信息
    LOG_ERROR("%s => occurred error, state:%d", __PRETTY_FUNCTION__, state_);

    if (state_ == kConnecting) {
        // 移除并重置 Channel
        int sockfd = removeAndResetChannel();
        // 获取 Socket 错误码
        int savedErrno = getSocketError(sockfd);
        // 打印日志信息
        LOG_DEBUG("%s => SO_ERROR:%d", __PRETTY_FUNCTION__, savedErrno);
        // 重新连接
        retry(sockfd);
    }
}

// 重试连接
void Connector::retry(int sockfd) {
    // 关闭连接
    ::close(sockfd);

    // 设置连接状态
    setState(kDisconnected);

    // 判断是否需要连接
    if (connect_) {
        // 获取当前的重试延迟时间
        int delay = retryDelayMs_;

        // 获取 shared_ptr 指向的自身对象
        auto self = shared_from_this();

        // 打印日志信息
        LOG_INFO("%s => retry connecting to %s in %d milliseconds", __PRETTY_FUNCTION__, serverAddr_.toIpPort().c_str(),
                 delay);

        // 在一个独立的线程中等待一段时间后启动连接器
        std::thread([self, delay]() {
            // 等待一段时间
            std::this_thread::sleep_for(std::chrono::milliseconds(delay));
            // 唤醒 loop_ 对应的线程去启动连接器
            self->loop_->queueInLoop([self]() { self->startInLoop(); });
        }).detach();

        // 指数退避算法，增加重试延迟时间
        retryDelayMs_ = std::min(retryDelayMs_ * 2, kMaxRetryDelayMs);
    } else {
        LOG_DEBUG("%s => do not connect", __PRETTY_FUNCTION__);
    }
}

// 移除并重置 Channel
int Connector::removeAndResetChannel() {
    // 禁用 Channel 的所有事件监听
    channel_->disableAll();
    // 从 Poller 中删除 Channel
    channel_->remove();
    // 获取 Channel 对应的 sockfd
    int sockfd = channel_->fd();
    // 唤醒 loop_ 对应的线程去重置 Channel
    loop_->queueInLoop(std::bind(&Connector::resetChannel, this));
    return sockfd;
}

// 重置 Channel
void Connector::resetChannel() {
    channel_.reset();
}

TcpClient

TcpClient.h

#pragma once

#include 
#include 

#include "EventLoop.h"
#include "TcpConnection.h"
#include "noncopyable.h"

// 类前置声明
class Connector;

// TCP 连接器智能指针类型定义
using ConnectorPtr = std::shared_ptr;

// TCP 客户端
class TcpClient : noncopyable {
public:
    // 构造函数
    TcpClient(EventLoop* loop, const InetAddress& serverAddr, const std::string& nameArg);

    // 析构函数
    ~TcpClient();

    // 发起连接
    void connect();

    // 断开连接
    void disconnect();

    // 关闭客户端
    void stop();

    // 获取当前的 TCP 连接
    TcpConnectionPtr connection();

    // 获取事件循环
    EventLoop* getLoop() const;

    // 是否允许重试连接
    bool retry() const;

    // 允许重试连接
    void enableRetry();

    // 获取客户端名称
    const std::string& name() const;

    // 设置连接建立/关闭时的回调操作
    void setConnectionCallback(ConnectionCallback cb);

    // 设置有数据到来时的回调操作
    void setMessageCallback(MessageCallback cb);

    // 设置数据发送完成时的回调操作
    void setWriteCompleteCallback(WriteCompleteCallback cb);

private:
    // 创建新连接
    void newConnection(int sockfd);

    // 移除连接
    void removeConnection(const TcpConnectionPtr& conn);

    EventLoop* loop_;                              // 事件循环
    ConnectorPtr connector_;                       // 连接器
    const std::string name_;                       // 客户端名称
    ConnectionCallback connectionCallback_;        // 连接建立/关闭时的回调操作
    MessageCallback messageCallback_;              // 有数据到来时的回调操作
    WriteCompleteCallback writeCompleteCallback_;  // 数据发送完成时的回调操作
    std::atomic_bool retry_;                       // 是否允许重试连接（即断线重连）
    std::atomic_bool connect_;                     // 是否需要连接
    int nextConnId_;                               // 下一个 TCP 连接的 ID
    std::mutex mutex_;                             // 互斥锁
    TcpConnectionPtr connection_;                  // TCP 连接
};

TcpClient.cc

#include "TcpClient.h"

#include 

#include 
#include 
#include 
#include 

#include "Connector.h"
#include "EventLoop.h"
#include "Logger.h"
#include "SocketsOps.h"

// 检查 EventLoop 指针是否为空
static EventLoop* CheckLoopNotNull(EventLoop* loop) {
    if (loop == nullptr) {
        LOG_FATAL("%s => eventloop is null", __PRETTY_FUNCTION__);
    }
    return loop;
}

namespace detail {

    // 移除 TCP 连接
    void removeConnection(EventLoop* loop, const TcpConnectionPtr& conn) {
        loop->queueInLoop(std::bind(&TcpConnection::connectDestroyed, conn));
    }

    // 移除连接器
    void removeConnector(const ConnectorPtr& connector) {
    }

}  // namespace detail

// 构造函数
TcpClient::TcpClient(EventLoop* loop, const InetAddress& serverAddr, const std::string& nameArg)
    : loop_(CheckLoopNotNull(loop)),
      connector_(new Connector(loop_, serverAddr)),
      name_(nameArg),
      connectionCallback_(defaultConnectionCallback),
      messageCallback_(defaultMessageCallback),
      retry_(false),
      connect_(true),
      nextConnId_(1) {
    // 设置有新连接建立时的回调操作
    connector_->setNewConnectionCallback(std::bind(&TcpClient::newConnection, this, std::placeholders::_1));
    // 打印日志信息
    LOG_INFO("%s => crate tcp client [%s] - connector %p", __PRETTY_FUNCTION__, name_.c_str(), connector_.get());
}

// 析构函数
TcpClient::~TcpClient() {
    // 打印日志信息
    LOG_INFO("%s => destruct tcp client [%s] - connector %p", __PRETTY_FUNCTION__, name_.c_str(), connector_.get());

    // 获取当前 TcpConnection 的智能指针副本，并判断它是否是唯一拥有者
    TcpConnectionPtr conn;
    bool unique = true;
    {
        std::unique_lock lock(mutex_);
        unique = connection_.unique();
        conn = connection_;
    }

    if (conn) {
        assert(loop_ == conn->getLoop());
        // 设置 TCP 连接关闭时的回调操作
        CloseCallback cb = std::bind(&detail::removeConnection, loop_, std::placeholders::_1);
        loop_->runInLoop(std::bind(&TcpConnection::setCloseCallback, conn, cb));
        // 如果 TCP 连接唯一
        if (unique) {
            // 强制关闭 TCP 连接
            conn->forceClose();
        }
    } else {
        // 关闭连接器
        connector_->stop();
        // 获取当前的连接器
        auto connector = connector_;
        // 唤醒 loop_ 所在的线程去移除连接器
        loop_->runInLoop([connector]() { detail::removeConnector(connector); });
    }
}

// 发起连接
void TcpClient::connect() {
    // 打印日志信息
    LOG_INFO("%s => connect to %s", __PRETTY_FUNCTION__, connector_->serverAddress().toIpPort().c_str());
    // 标记需要连接
    connect_ = true;
    // 启动连接器
    connector_->start();
}

// 断开连接
void TcpClient::disconnect() {
    // 标记不需要连接
    connect_ = false;
    // 关闭当前 TCP 连接
    {
        std::unique_lock lock(mutex_);
        if (connection_) {
            connection_->shutdown();
        }
    }
}

// 关闭客户端
void TcpClient::stop() {
    // 标记不需要连接
    connect_ = false;
    // 关闭连接器
    connector_->stop();
}

// 获取当前的 TCP 连接
TcpConnectionPtr TcpClient::connection() {
    std::unique_lock lock(mutex_);
    return connection_;
}

// 获取事件循环
EventLoop* TcpClient::getLoop() const {
    return loop_;
}

// 是否允许重试连接
bool TcpClient::retry() const {
    return retry_;
}

// 允许重试连接
void TcpClient::enableRetry() {
    retry_ = true;
}

// 获取客户端名称
const std::string& TcpClient::name() const {
    return name_;
}

// 设置连接建立/关闭时的回调操作
void TcpClient::setConnectionCallback(ConnectionCallback cb) {
    connectionCallback_ = std::move(cb);
}

// 设置有数据到来时的回调操作
void TcpClient::setMessageCallback(MessageCallback cb) {
    messageCallback_ = std::move(cb);
}

// 设置数据发送完成时的回调操作
void TcpClient::setWriteCompleteCallback(WriteCompleteCallback cb) {
    writeCompleteCallback_ = std::move(cb);
}

// 创建新连接
void TcpClient::newConnection(int sockfd) {
    loop_->assertInLoopThread();

    // 远端地址
    InetAddress peerAddr(getPeerAddr(sockfd));

    // 拼接 TCP 连接的名称
    char buf[32] = {0};
    snprintf(buf, sizeof buf, ":%s#%d", peerAddr.toIpPort().c_str(), nextConnId_);
    ++nextConnId_;
    std::string connName = name_ + buf;

    // 本端地址
    InetAddress localAddr(getLocalAddr(sockfd));

    // 创建 TCP 连接对象
    TcpConnectionPtr conn(new TcpConnection(loop_, connName, sockfd, localAddr, peerAddr));

    // 设置 TCP 连接的回调操作
    conn->setConnectionCallback(connectionCallback_);
    conn->setMessageCallback(messageCallback_);
    conn->setWriteCompleteCallback(writeCompleteCallback_);
    conn->setCloseCallback(std::bind(&TcpClient::removeConnection, this, std::placeholders::_1));

    // 设置当前的 TCP 连接
    {
        std::unique_lock lock(mutex_);
        connection_ = conn;
    }

    // 建立连接
    conn->connectEstablished();
}

// 移除连接
void TcpClient::removeConnection(const TcpConnectionPtr& conn) {
    loop_->assertInLoopThread();
    assert(loop_ == conn->getLoop());

    // 重置当前的 TCP 连接
    {
        std::unique_lock lock(mutex_);
        assert(connection_ == conn);
        connection_.reset();
    }

    // 唤醒 loop_ 所在的线程去销毁 TCP 连接
    loop_->queueInLoop(std::bind(&TcpConnection::connectDestroyed, conn));

    // 如果允许重试连接，且需要连接
    if (retry_ && connect_) {
        // 打印日志信息
        LOG_INFO("%s => tcp client [%s] reconnecting to %s", __PRETTY_FUNCTION__, name_.c_str(),
                 connector_->serverAddress().toIpPort().c_str());
        // 重启连接器
        connector_->restart();
    }
}

项目测试

测试代码

ChatClient.h

/**
 * 基于 MyMuduo 网络库开发 TCP 客户端程序
 */

#pragma once

#include 

#include "TcpClient.h"

// 聊天客户端
class ChatClient {
public:
    // 构造函数
    ChatClient(EventLoop* loop, const InetAddress& serverAddr, const std::string& nameArg);

    // 析构函数
    ~ChatClient();

    // 连接服务器
    void connect();

private:
    // 客户端绑定连接回调函数，当连接或者断开服务器时调用
    void onConnection(const TcpConnectionPtr& conn);

    // 客户端绑定消息回调函数，当有数据接收时调用
    void onMessage(const TcpConnectionPtr& conn, Buffer* buf, Timestamp time);

    // TCP 客户端
    TcpClient client_;

    // EventLoop 事件循环
    EventLoop* loop_;
};

ChatClient.cc

/**
 * 基于 MyMuduo 网络库开发 TCP 客户端程序
 */

#include "ChatClient.h"

#include "Logger.h"

// 构造函数
ChatClient::ChatClient(EventLoop* loop, const InetAddress& serverAddr, const std::string& nameArg)
    : client_(loop, serverAddr, nameArg), loop_(loop) {
    // 允许重试连接
    client_.enableRetry();
    // 设置客户端TCP连接的回调
    client_.setConnectionCallback(std::bind(&ChatClient::onConnection, this, std::placeholders::_1));
    // 设置客户端接收数据的回调
    client_.setMessageCallback(
        std::bind(&ChatClient::onMessage, this, std::placeholders::_1, std::placeholders::_2, std::placeholders::_3));
}

// 析构函数
ChatClient::~ChatClient() {
    // 发起断开连接
    client_.disconnect();
    // 停止内部 Connector 的重连机制，避免异步行为
    client_.stop();
}

// 连接服务器
void ChatClient::connect() {
    client_.connect();
}

// 客户端绑定连接回调函数，当连接或者断开服务器时调用
void ChatClient::onConnection(const TcpConnectionPtr& conn) {
    // 连接创建
    if (conn->connected()) {
        // 打印日志信息
        LOG_INFO("ChatClient - new connection [%s] -> [%s], state: connected", conn->localAddress().toIpPort().c_str(),
                 conn->peerAddress().toIpPort().c_str());
        // 发送消息
        conn->send("I'm " + client_.name());
    }
    // 连接断开
    else {
        // 打印日志信息
        LOG_INFO("ChatClient - close connection [%s] -> [%s], state: disconnected",
                 conn->localAddress().toIpPort().c_str(), conn->peerAddress().toIpPort().c_str());
    }
}

// 客户端绑定消息回调函数，当有数据接收时调用
void ChatClient::onMessage(const TcpConnectionPtr& conn, Buffer* buf, Timestamp time) {
    // 获取服务器发送的消息
    std::string message = buf->retrieveAllAsString();

    // 去掉消息末尾的 '\r' 和 '\n' 字符（nc 命令会发送 CRLF）
    while (!message.empty() && (message.back() == '\n' || message.back() == '\r')) {
        message.pop_back();
    }

    LOG_INFO("ChatClient - receive message: [%s], time: %s", message.c_str(), time.toString().c_str());
}

ChatServer.h

/**
 * 基于 MyMuduo 网络库开发 TCP 服务器程序
 */

#pragma once

#include 

#include "TcpServer.h"

// 聊天服务器
class ChatServer {
public:
    // 构造函数
    ChatServer(EventLoop *loop, const InetAddress &listenAddr, const std::string &nameArg);

    // 析构函数
    ~ChatServer();

    // 启动服务器
    void start();

private:
    // 处理用户的连接创建和断开
    void onConnection(const TcpConnectionPtr &conn);

    // 服务器绑定消息回调函数，当有数据接收时调用
    void onMessage(const TcpConnectionPtr &conn, Buffer *buffer, Timestamp time);

    // TCP 服务器
    TcpServer server_;

    // EventLoop 事件循环
    EventLoop *loop_;
};

ChatServer.cc

/**
 * 基于 MyMuduo 网络库开发 TCP 服务器程序
 */

#include "ChatServer.h"

#include "Logger.h"

// 构造函数
ChatServer::ChatServer(EventLoop *loop, const InetAddress &listenAddr, const std::string &nameArg)
    : server_(loop, listenAddr, nameArg), loop_(loop) {
    // 设置服务器注册用户连接的创建和断开回调
    server_.setConnectionCallback(std::bind(&ChatServer::onConnection, this, std::placeholders::_1));

    // 设置服务器注册用户读写事件的回调
    server_.setMessageCallback(
        std::bind(&ChatServer::onMessage, this, std::placeholders::_1, std::placeholders::_2, std::placeholders::_3));

    // 设置线程池的线程数量（比如：1个I/O线程，3个Worker线程）
    server_.setThreadNum(4);
}

// 析构函数
ChatServer::~ChatServer() {
}

// 启动服务器
void ChatServer::start() {
    // 开启事件循环处理
    server_.start();
    // 打印日志信息
    LOG_INFO("ChatServer - start success, listening on %s", server_.ipPort().c_str());
}

// 处理用户的连接创建和断开
void ChatServer::onConnection(const TcpConnectionPtr &conn) {
    // 连接创建
    if (conn->connected()) {
        LOG_INFO("ChatServer - Connection UP : %s", conn->peerAddress().toIpPort().c_str());
    }
    // 连接断开
    else {
        LOG_INFO("ChatServer - Connection DOWN : %s", conn->peerAddress().toIpPort().c_str());
    }
}

// 处理用户读写事件（比如接收客户端发送的数据）
void ChatServer::onMessage(const TcpConnectionPtr &conn, Buffer *buffer, Timestamp time) {
    // 获取客户端发送的消息
    std::string message = buffer->retrieveAllAsString();

    // 去掉消息末尾的 '\r' 和 '\n' 字符（telnet 命令会发送 CRLF）
    while (!message.empty() && (message.back() == '\n' || message.back() == '\r')) {
        message.pop_back();
    }

    // 打印日志信息
    LOG_INFO("ChatServer - receive message: [%s], time: %s, ip: %s", message.c_str(), time.toString().c_str(),
             conn->peerAddress().toIpPort().c_str());

    // 发送数据给客户端
    conn->send("You just said: " + message + "\n");
}

main.cc

/**
 * MyMuduo 网络库的使用案例
 *
 * Linux 上运行程序：./bin/mymuduo_example
 */

#include 
#include 
#include 

#include "ChatClient.h"
#include "ChatServer.h"
#include "Logger.h"

// 启动聊天服务器
void startChatServer() {
    // 创建服务器
    EventLoop loop;
    InetAddress addr(6000, "127.0.0.1");
    ChatServer server(&loop, addr, "ChatServer");

    // 启动服务器
    server.start();

    // 以阻塞方式等待新客户端的连接、已连接客户端的读写事件等
    loop.loop();
}

// 启动聊天客户端
void startChatClient() {
    // 创建客户端
    EventLoop loop;
    InetAddress addr(6000, "127.0.0.1");
    ChatClient client(&loop, addr, "ChatClient");

    // 连接服务器
    client.connect();

    // 以阻塞方式等待服务器发送过来的数据
    loop.loop();
}

int main() {
    // 设置日志级别
    Logger::instance().setLogLevel(LogLevel::INFO);

    // 在独立的线程上启动聊天服务器
    std::thread serverThread([]() { startChatServer(); });
    serverThread.detach();

    // 等待一段时间，让聊天服务器先启动（可选，因为聊天客户端会自动重连）
    std::this_thread::sleep_for(std::chrono::milliseconds(200));

    // 在独立的线程上启动聊天客户端
    std::thread clientThrad([]() { startChatClient(); });
    clientThrad.detach();

    // 阻塞等待用户按下任意键，然后结束程序运行
    getchar();

    return 0;
}

测试步骤

编译项目代码

# 进入项目根目录
cd c++-project-mymuduo

# 执行项目自动构建脚本
./autobuild.sh

运行测试程序

# 执行 MyMuduo 网络库使用案例的可执行文件
./bin/mymuduo_example

# 执行 telnet 命令连接 TCP 服务器（成功连接后，输入任意字符，按回车键即可发送消息给服务器，之后服务器会返回相应的消息内容）
telnet 127.0.0.1 6000

测试程序输出的日志信息如下：

2025-11-15 22:10:01 => 6609 [INFO] ChatServer - start success, listening on 127.0.0.1:6000
2025-11-15 22:10:01 => 6614 [INFO] TcpClient::TcpClient(EventLoop*, const InetAddress&, const std::string&) => crate tcp client [ChatClient] - connector 0x7f52b8000e20
2025-11-15 22:10:01 => 6614 [INFO] void TcpClient::connect() => connect to 127.0.0.1:6000
2025-11-15 22:10:01 => 6614 [INFO] ChatClient - new connection [127.0.0.1:42170] -> [127.0.0.1:6000], state: connected
2025-11-15 22:10:01 => 6610 [INFO] ChatServer - Connection UP : 127.0.0.1:42170
2025-11-15 22:10:01 => 6610 [INFO] ChatServer - receive message: [I'm ChatClient], time: 2025-11-15 22:10:01, ip: 127.0.0.1:42170
2025-11-15 22:10:01 => 6614 [INFO] ChatClient - receive message: [You just said: I'm ChatClient], time: 2025-11-15 22:10:01

项目扩展

上面的 MyMuduo 网络库代码只实现了 Muduo 的核心功能，并不支持 Muduo 的定时事件机制（TimerQueue）、IPV6 / DNS / HTTP / RPC 协议等，日后可以从以下几方面继续对其进行扩展：

(1) 定时事件机制
- TimerQueue：支持 EventLoop 内的定时任务调度，常见实现方式包括：
  - 链表队列：实现简单，但不适合大量定时器场景（需要线性扫描）。
  - 红黑树（如 nginx）：按照到期时间排序，可快速找到最早到期的定时器，插入 / 删除的时间复杂度为 O(logN)。
  - 时间轮（如 libevent）：适合大量、定时精度要求不高的场景，插入 / 删除的时间复杂度为 O(1)，整体性能出色。
(2) IPV6 / DNS / HTTP / RPC 协议支持
- IPV6：支持 IPv6 套接字、地址解析与双栈接入，确保网络库的所有连接与事件处理流程均可透明兼容 IPv6。
- DNS：实现异步域名解析（如 getaddrinfo_a），将域名解析和网络事件循环结合，避免阻塞 I/O。
- HTTP：构建基础的 HTTP 请求解析、响应封装，可扩展为简单的 Web 服务器或客户端；需要支持 Keep-Alive、Chunked 等机制。
- RPC：在已有 TCP 框架上封装请求 / 响应协议，实现序列化、服务注册、方法调用、超时与重试等功能（可仿照 gRPC 实现）。
(3) 服务器性能测试
- 为了验证网络库的性能，需要进行专业的性能压测和系统配置优化：
- 系统性能优化
  - Linux 最大文件描述符数设置：包括
    - /proc/sys/fs/file-max（系统级限制）
    - /etc/security/limits.conf（用户 / 进程级限制）
    - ulimit -n（当前会话限制）
- 性能测试工具
  - JMeter：可压测 HTTP 服务与自定义 TCP 服务，能够生成聚合报告和可视化图表。
  - wrk：高性能 HTTP 压测工具，支持多线程 + epoll，需要手动编译安装，仅支持 HTTP 协议。

项目问答

新 TCP 连接的派发问题

在 Muduo 网络库中，mainLoop 是如何将新来的 TCP 连接派发给 subLoop 的，同时还让新 TCP 连接的所有 I/O 事件回调操作都在 subLoop 所在的线程上执行？

(1) Acceptor 在 mainLoop（运行在主线程）上监听 listenfd
(2) mainLoop 在收到新连接事件时，会调用 Acceptor::handleRead()，得到 connfd（新连接的文件描述符）
(3) mainLoop 选择一个 subLoop（通过 EventLoopThreadPool 的轮询）
(4) mainLoop 创建 TcpConnection，并把它的所有回调操作注册到 subLoop
(5) mainLoop 调用 subLoop->runInLoop()，将注册 connfd 读写事件到 subLoop 的 Poller 的任务丢给 subLoop
(6) subLoop 线程最终向自己的 Poller 注册事件，使得 connfd 的所有读写事件（包括 I/O 事件、回调处理等）永远在 subLoop 上执行

Acceptor::listen()
         |     |
         | 1-件 |
         v
Acceptor::handleRead()
         |     |
         | 2-) |
         v
TcpServer::newConnection(connfd)
         |     |
         | 3-) |
         v
选中一个 subLoop (ioLoop)
         |     |
         | 4-r |
         v
创建 TcpConnection(subLoop)
         |     |
         | 5-去 |
         v
subLoop->runInLoop(connectEstablished)
         |     |
         | 6-p |
         v
----------------------------------------------------
↓ subLoop (I/O 线程) 被唤醒后执行 connectEstablished()
----------------------------------------------------
         |     |
         | 7-行 |
         v
channel_->enableReading()
         |     |
         | 8-) |
         v
事件到来 → Poller 触发 → 执行 TcpConnection 的回调操作 (全部都会在 subLoop 线程上执行)

特别注意

在 Muduo 中，新连接的建立仅发生在 mainLoop：它负责监听 listenfd，并在有新连接到来时调用 accept()。mainLoop 只负责接受连接，不参与任何与该连接相关的后续 I/O 操作（读和写等）。在 mainLoop 完成 accept() 后，Muduo 会将得到的新连接文件描述符 connfd 分发给某个 subLoop（由 EventLoopThreadPool 按轮询算法选择）。之后，该新连接的所有读写事件（包括 I/O 事件、回调处理等）都由对应的 subLoop 独立处理，与 mainLoop 无关。

EventLoop 之间的通信问题

mainLoop 与 subLoop 分别运行在不同的线程上，它们之间是如何进行通信的，也就是说 mainLoop 是如何将新来的 TCP 连接派发给 subLoop 的，还有 mainLoop 是如何唤醒 subLoop 的？

(1) mainLoop 与 subLoop 分别运行在不同线程中，每个 EventLoop 拥有自己独立的线程与 Poller。
(2) 它们之间通过 EventLoop 的异步任务队列（pendingFunctors）进行通信，任何跨线程的操作，都会封装成回调函数投递到目标 EventLoop 的异步任务队列中。
(3) mainLoop 接收（accept()）到新连接后，调用 subLoop->runInLoop()，将 TcpConnection 的初始化任务（如 connectEstablished()）投递给指定的 subLoop 执行。
(4) mainLoop 向 subLoop 的任务队列中插入新任务后，会向 subLoop 的 wakeupFd 写入一个字节，目的是唤醒 subLoop 去执行 pendingFunctors 队列中的任务。
(5) 写入 wakeupFd 会触发 subLoop 的 wakeupChannel 可读事件，wakeupChannel 是注册在 subLoop 上的一个 Channel，用来专门处理 “被唤醒” 事件。
(6) 被唤醒的 subLoop 从阻塞的 epoll_wait() 中立即返回，然后执行 wakeupChannel 的读事件回调。
(7) subLoop 随后继续执行其 pendingFunctors 队列中的任务，包括由 mainLoop 投递过来的 TcpConnection 初始化操作。
(8) 从此以后，该 TcpConnection 的所有 I/O 事件都由该 subLoop 负责处理，包括读写事件回调、关闭回调、错误回调等全部在 subLoop 所在线程执行。

Acceptor::listen()  
        |     |
        | 1-件 |
        v  
Acceptor::handleRead()
        |     |
        | 2-) |
        v  
TcpServer::newConnection(connfd)  
        |     |
        | 3-p |
        v  
EventLoopThreadPool::getNextLoop()  
        |     |
        | 4-p |
        v  
new TcpConnection(subLoop, connfd)  
        |     |
        | 5-p |
        v  
subLoop->runInLoop(std::bind(&TcpConnection::connectEstablished, conn))  
        |     |
        | 6-) |
        v  
EventLoop::queueInLoop(cb)  
        |     |
        | 7-p |
        v  
EventLoop::wakeup()  
        |     |
        | 8-件 |
        v  
----------------------------------------------  
↓ subLoop 所在线程（I/O 线程）被唤醒执行  
----------------------------------------------  
        |     |
        | 9-件 |
        v  
wakeupChannel->handleEvent()  
        |     |
        | 1-) |
        v  
EventLoop::handleRead()  
        |     |
        | 1-务 |
        v  
EventLoop::doPendingFunctors()  
        |     |
        | 1-) |
        v  
TcpConnection::connectEstablished()  
        |     |
        | 1-r |
        v  
Channel::enableReading()  
        |     |
        | 1-r |
        v  
Poller::updateChannel(channel)  
        |     |
        | 1-发 |
        v  
事件到来 → Poller 触发 → 返回活跃事件 → 调用 channel->handleEvent() 处理活跃事件
        |     |
        | 1-） |
        v  
回调操作在 subLoop 线程执行，保证线程安全

参考资料

Java 与 Dubbo 的 SPI 机制介绍

2025-10-12T15:42:35.000Z

Java SPI 机制

概念介绍

Java 原生支持 SPI 机制，具体介绍如下：

核心概念
- SPI（Service Provider Interface）是一种服务发现机制。
- SPI 的核心思想是定义一个接口，由多个实现类提供不同的实现方式，在系统运行时根据配置或者默认策略，动态加载并使用具体的实现类。
- SPI 的本质是将接口实现类的全限定名配置在文件中，并由服务加载器读取配置文件，加载实现类。这样就可以在运行时，动态为接口替换实现类。

工作原理
- (1) 接口与实现类
  - 假设有一个接口 A，它有多个实现类：A -> A1、A2、A3。
- (2) 配置实现类
  - 可以在配置文件中指定接口 A 对应使用哪个实现类。
- (3) 运行时加载
  - 程序启动时，会读取配置文件，根据配置信息找到对应的实现类，实例化并使用该对象。
- (4) Java 原生 SPI 机制
  - Java 原生 SPI 机制的使用要求：
    - 在 resources/META-INF/services/ 目录下，创建一个与接口全限定名相同的文件，例如：resources/META-INF/services/com.example.service.A
    - 文件内容的格式是一行一个实现类的全限定名（可以有多行，即支持多个不同的实现类），例如：com.example.service.impl.A1。
    - 运行时通过 ServiceLoader 等工具扫描依赖的 Jar 包，在其中查找该文件，并加载指定的实现类，比如：ServiceLoader loader = ServiceLoader.load(HelloService.class);
应用场景
- SPI 机制常用于插件式扩展。
- 比如：如果你在开发一个框架，可以通过 SPI 让外部开发者编写插件，扩展框架的功能，而不必修改框架的源码。
典型案例
- JDBC
  - Java 标准库只定义了一套 JDBC 接口，并没有真正的实现。
  - 数据库厂商（如 MySQL、Oracle）会提供自己的实现，并通过 SPI 机制声明在 resources/META-INF/services/ 目录中。
  - 运行时，Java 会根据项目引入的数据库驱动 Jar 包，自动找到对应的 JDBC 实现类。

Dubbo SPI 机制

扩展阅读

Dubbo 深入理解 - SPI 扩展机制

概念介绍

Dubbo 借鉴了 SPI 思想，但没有直接使用 Java 原生的 SPI 机制，而是重新实现了一套功能更强的 SPI 机制。Dubbo SPI 的相关逻辑被封装在了 ExtensionLoader 类中，通过 ExtensionLoader 类可以加载指定的实现类。

工作原理

(1) 接口声明

在 Dubbo 中，如果某个接口需要支持 SPI 扩展，就会加上 @SPI 注解，比如 Protocol 接口：

// 接口定义
@SPI("dubbo")
public interface Protocol {

   int getDefaultPort();

   @Adaptive
    Exporter export(Invoker invoker) throws RpcException;

   @Adaptive
    Invoker refer(Class type, URL url) throws RpcException;

   void destroy();
}

// 加载实现类
Protocol protocol = ExtensionLoader.getExtensionLoader(Protocol.class).getAdaptiveExtension();

@SPI("dubbo") 表示默认实现是 dubbo。
@Adaptive 表示该方法会生成代理逻辑，运行时根据参数动态选择实现类。

(2) 实现类配置
- Dubbo 在自己 Jar 包中的 resources/META-INF/dubbo/internal/ 路径下提供了一个配置文件，文件名是接口的全限定名，比如：
  1
  resources/META-INF/dubbo/internal/com.alibaba.dubbo.rpc.Protocol
- 配置文件的内容是 key=实现类的全限定名，key 对应 @SPI 注解中的扩展名称，比如：
  1
  2
  3
  dubbo=com.alibaba.dubbo.rpc.protocol.dubbo.DubboProtocol
  http=com.alibaba.dubbo.rpc.protocol.http.HttpProtocol
  hessian=com.alibaba.dubbo.rpc.protocol.hessian.HessianProtocol
(3) 默认实现加载
- 如果用户没有配置扩展，Dubbo 会根据 @SPI("dubbo") 的默认值 dubbo，从配置文件中加载对应的实现类 DubboProtocol。
- 这也是 Dubbo 默认使用 Dubbo 协议作为 RPC 通信协议的原因。
(4) 动态切换实现类
- 在 Protocol 接口中，有两个方法加了 @Adaptive 注解。
- Dubbo 会在运行时生成代理类，在代理方法内部根据传入的 URL 参数的 protocol 值决定使用哪个实现类。
- 如果 URL 参数中没指定协议，就用默认的 dubbo；如果指定了其他值（如 http），则加载对应的实现类。

实现特点
- 微内核 + 可插拔：保留一个接口和多个实现，运行时可替换。
- 组件化：如 Protocol 负责 RPC 调用，可以替换为自定义的 RPC 组件。
- 动态扩展：可通过 URL 参数或配置文件，在运行时动态切换实现类。
- 增强的 SPI：相比 Java 原生的 SPI 机制，Dubbo 的实现支持：
  - 支持指定默认的实现类（@SPI 注解的默认值）
  - 运行时动态选择实现类（@Adaptive）
  - 接口定义（扩展点）自动生成代理类
使用总结
- Dubbo SPI 本质上是一个运行时可扩展、可替换的组件机制。
- Dubbo 大量核心组件（如 Protocol、Cluster、Registry 等）都是用这种 SPI 机制实现扩展的。
- 通过 @SPI 注解 + 配置文件来确定默认的实现类，通过 @Adaptive 注解 + URL 参数来实现动态切换实现类。
- Dubbo SPI 的扩展文件路径（点击查看源码定义）
  - 与 Java SPI 的不一样，Dubbo SPI 提供给开发者使用的扩展文件是 resources/META-INF/dubbo/接口全限定名，文件内容是 key=实现类的全限定名；
  - Dubbo 自己内部使用的扩展文件是 resources/META-INF/dubbo/internal/接口全限定名，文件内容是 key=实现类的全限定名；

加载流程

Dubbo SPI 机制加载扩展的核心步骤：

(1) 读取并解析配置文件
(2) 缓存所有扩展实现类
(3) 基于用户执行的扩展名，实例化对应的扩展实现类
(4) 执行扩展实例属性的 IOC 注入（基于 Setter 注入），以及实例化扩展的包装类，实现 AOP 特性

Dubbo SPI 机制加载扩展的整个流程：

核心注解

Dubbo SPI 机制有两个核心注解，分别是 @Adaptive 和 @Activate。

@Adaptive 注解（自适应）
- 主要作用
  - 表示该扩展类或接口方法需要自适应扩展，Dubbo 会在运行时根据 URL 或其他条件动态选择具体扩展实现。
- 常见使用方式
  - @Adaptive 标注在接口方法上（最常见）
    - 表示由 Dubbo 自动生成 Xxx$Adaptive 代理类
    - 方法内部会根据 URL 参数在运行时选择具体扩展实现
    - 使用例子：
      1
      2
      3
      4
      5
      6
      public interface Protocol {
      
      @Adaptive({"protocol", "defaultProtocol"})
      Exporter export(Invoker invoker);
      
      }
      - 当上面调用 export() 方法时，Dubbo 会根据 URL 的 protocol 或 defaultProtocol 参数决定使用哪个协议实现
  - @Adaptive 标注在扩展类上（较少使用）
    - 表示该扩展类是一个手工编写的自适应扩展类
    - Dubbo 将直接使用这个扩展类，而不会再自动生成代理类
    - 一般用于非常复杂的场景，比如需要手写逻辑替代 Dubbo 自动生成代理类
    - 目前 Dubbo 中仅有两个扩展类标注了 @Adaptive，分别是 AdaptiveCompiler 和 AdaptiveExtensionFactory，表示这些扩展类的加载逻辑由人工编码（静态编码）完成
    - 使用例子：
      1
      2
      3
      4
      5
      6
      7
      8
      9
      @Adaptive
      public class CustomAdaptiveCompiler implements Compiler {
      
      @Override
      public Class compile(String code, ClassLoader loader) {
      // 自定义代码编译逻辑
      }
      
      }
- 使用注意事项
  - 接口上不能标注 @Adaptive
  - 接口方法上可以标注 @Adaptive，表示使用 Dubbo 自动生成的代理类，适用大多数场景
  - 扩展类上可以标注 @Adaptive，表示使用手写的自适应逻辑，适用特殊复杂场景

@Activate 注解（自动激活）

主要作用
- 表示当扩展类被自动加载时，满足 group、value、order 等条件，该扩展会自动加入扩展链，无需手动在配置中指定扩展名。

常见使用方式

@Activate 标注在扩展类上（最常见）

扩展类在满足 Activate 条件时自动激活
一般用于 Filter、Router、ExporterListener、Registry 等扩展点

使用例子：

@Activate(group = {"provider"}, order = 10)
public class MyProviderFilter implements Filter {

    @Override
    public Result invoke(Invoker invoker, Invocation invocation) {
        // 自定义过滤逻辑
        return invoker.invoke(invocation);
    }

}

@Activate 标注在接口方法上（较少使用）
- 表示该接口方法返回的扩展类实例在调用时可自动激活
- 可结合 URL 参数或 group、value、order 条件进行动态控制
- 使用例子：
  1
  2
  3
  4
  5
  6
  public interface SomeFactory {
  
  @Activate(value = {"feature"}, group = "consumer")
  Extension create();
  
  }

典型使用 @Activate 自动激活的扩展点（最常见场景）
- Filter 自动生效（过滤器）
- Router 自动生效（路由）
- ExporterListener 自动生效（监听服务暴露）
- Registry（如注册中心相关监听、通知）自动生效
可使用 @Activate 激活，但通常是通过 URL 指定或者明确选择的的扩展点
- Cluster（有些装饰逻辑可能自动封装，但多数是由 Dubbo 主流程显式选择）
- Protocol（支持 @Activate，但较少用于自动激活，一般是 URL 或显式选择）
- ProxyFactory（可自动激活，但通常通过指定实现选择）
使用注意事项
- 接口上不能标注 @Activate

总结

@Adaptive（自适应）的作用：让扩展在运行时根据 URL 或条件动态选择具体扩展实现；标注在方法上，则表示由 Dubbo 自动生成代理类；标注在类上，则表示使用手写的自适应逻辑。
@Activate（自动激活）的作用：让扩展类在满足 Activate 条件时自动激活加入调用链；可以省略，但省略后不会自动激活，必须通过扩展名主动加载，例如： extensionLoader.getExtension("customizedProtocol");。

参考资料

Kubernetes 入门教程之八

2025-10-08T13:12:19.000Z

大纲

Kubernetes 核心技术

持久化存储

Volume

Volume 的概述

Volume（卷）是 Pod 中可被多个容器共同访问的共享目录。Kubernetes 的 Volume 定义在 Pod 上，并可由该 Pod 内的多个容器挂载到各自的文件路径下。Volume 的生命周期与 Pod 相同，但独立于容器的生命周期。当容器终止或重启时，Volume 中的数据不会丢失。在使用 Volume 时，Pod 需要指定 Volume 的类型和内容（volumes 字段），以及在容器中挂载的位置（volumeMounts 字段）。Kubernetes 支持多种类型的 Volume，包括：emptyDir、hostPath、gcePersistentDisk、awsElasticBlockStore、nfs、iscsi、flocker、glusterfs、rbd、cephfs、gitRepo、secret、persistentVolumeClaim、downwardAPI、azureFile、azureDisk、vsphereVolume、quobyte、portworxVolume、scaleIO 等。

特别注意

在 Kubernetes 中，Volume 是定义在 Pod 层级上的，而不是容器层级的。这意味着同一个 Pod 内的多个容器可以通过挂载同一个 Volume 来共享数据。几乎所有类型的 Volume（如 emptyDir、hostPath、nfs、configMap、secret 等）都支持在同一个 Pod 内被多个容器同时访问和使用。

emptyDir 的使用

emptyDir 类型的 Volume 会在 Pod 被调度到某个节点（宿主机）时创建，Pod 内的所有容器都可以读写该目录中的数据。一旦 Pod 被删除或从该节点（宿主机）迁移，emptyDir 中的数据会被永久清除。因此，emptyDir 可以理解为本地存储，通常用于存放临时数据，例如 Web 服务器的日志文件或应用运行时的临时目录。emptyDir 类型的 Volume 的配置示例如下：

apiVersion: v1
kind: Pod
metadata:
  name: test-pod
spec:
  containers:
    - name: test-container
      image: docker.io/nazarpc/webserver
      volumeMounts:
        - name: cache-volume
          mountPath: /cache
  volumes:
    - name: cache-volume
      emptyDir: {}

配置字段	说明
`volumeMounts`	用于将 Pod 中定义的 Volume 挂载到容器内的指定路径。
`emptyDir: {}`	表示创建一个临时目录，当 Pod 删除或迁移时，该目录中的数据会被永久清除。

hostPath 的使用

hostPath 类型的 Volume 允许容器访问所在宿主机上的指定目录。例如，当需要运行一个访问 Docker 系统目录的容器时，可以将宿主机的 /var/lib/docker 目录挂载为一个 hostPath 类型的 Volume；或者在容器中运行 cAdvisor 时，可以将 /dev/cgroups 目录挂载为 hostPath Volume。需要注意的是，当 Pod 从当前宿主机上删除或迁移时，hostPath 中的数据不会被删除，但也不会随 Pod 一同迁移到新的宿主机上。此外，由于不同宿主机的文件系统结构和内容可能存在差异，相同的 Pod 在不同宿主机上使用 hostPath 时，可能会出现不同的行为。hostPath 类型的 Volume 的配置示例如下：

apiVersion: v1
kind: Pod
metadata:
  name: test-pod
spec:
  containers:
    - name: test-container
      image: docker.io/nazarpc/webserver
      # 指定在容器中挂载路径
      volumeMounts:
        - name: test-volume
          mountPath: /test-data
  # 指定所提供的存储卷
  volumes:
    - name: test-volume
      # 宿主机上的目录
      hostPath:
        # 宿主机上的目录路径
        path: /data

配置字段	说明
`volumeMounts`	定义容器内部的挂载路径 `/test-data`。
`volumes.hostPath.path`	指定宿主机上对应的物理目录 `/data`。
`hostPath`	该类型的卷允许容器直接访问宿主机上的文件系统资源。

nfs 的使用

nfs 类型的 Volume 允许将已有的 NFS（Network File System，网络文件系统）存储挂载到 Pod 中，这样同一个 Pod 内的多个容器就可以共享使用。通过 NFS，可以让不同节点上的 Pod 访问同一个远程存储目录，从而实现跨主机的数据共享与持久化。与 emptyDir 或 hostPath 不同，nfs 的数据存储在远程服务器上，不会因 Pod 或节点的重建、迁移而丢失，非常适合需要共享存储或持久化数据的场景，比如数据库、缓存或日志存储。nfs 类型的 Volume 的配置示例如下：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: redis
spec:
  revisionHistoryLimit: 2
  selector:
    matchLabels:
      app: redis
  template:
    metadata:
      labels:
        app: redis
    spec:
      containers:
        - name: redis
          # 应用的镜像
          image: redis
          imagePullPolicy: IfNotPresent
          # 应用的内部端口
          ports:
            - name: redis-6379
              containerPort: 6379
          env:
            - name: ALLOW_EMPTY_PASSWORD
              value: "yes"
            - name: REDIS_PASSWORD
              value: "redis"
          # 持久化挂载位置（容器内路径）
          volumeMounts:
            - name: redis-persistent-storage
              mountPath: /data
      # 定义存储卷
      volumes:
        - name: redis-persistent-storage
          nfs:                             # 使用 NFS 网络存储
            server: 192.168.126.112        # NFS 服务器的 IP 地址
            path: /k8s-nfs/redis/data      # NFS 服务器上的共享目录

配置字段	说明
`revisionHistoryLimit: 2`	仅保留最近 2 个历史版本的 ReplicaSet。
`mountPath: /data`	容器内 Redis 的数据存储路径。
`nfs`	通过 NFS 网络存储提供持久化数据目录。

特别注意

在 Kubernetes 集群中，如果需要使用 nfs 类型的 Volume（卷），则需要先在所有集群节点上分别手动安装 NFS 客户端，否则 Volume（卷）会无法正常挂载。比如，CentOS 系统安装 NFS 客户端，可以使用命令 sudo yum install -y nfs-utils。

PV 与 PVC

基本概念

(1) 在 Kubernetes 中，存储管理是计算管理中的一个重要问题。为此，Kubernetes 提供了 PersistentVolume（PV）子系统，为用户和管理员提供了一个抽象层，用于屏蔽底层存储实现的复杂性，并通过统一的 API 管理存储资源的使用。该子系统引入了两个新的 API 资源：PersistentVolume（PV）和 PersistentVolumeClaim（PVC）。
(2) PersistentVolume（PV）是由集群管理员预先配置的一块网络存储，它是集群级别的资源，就像节点（Node）一样。PV 可以看作是一种容量插件（类似于 Volume），但其生命周期独立于使用它的任何 Pod。PV 对象中包含了底层存储实现的详细信息，例如 NFS、iSCSI，或特定云服务提供商的存储系统。
(3) PersistentVolumeClaim（PVC）是用户发起的存储资源请求，类似于 Pod 对节点资源的使用。Pod 消耗节点资源（如 CPU、内存），而 PVC 消耗 PV 资源。用户可以在 PVC 中指定所需的存储大小以及访问模式（例如：单次读写或多次只读）。
(4) 虽然 PVC 让用户能够以抽象的方式使用存储资源，但在实际应用中，不同场景往往对存储有不同的特性需求（如性能、可靠性、备份策略等）。为满足这种灵活性，Kubernetes 提供了 StorageClass 资源。StorageClass 允许管理员定义存储的 “类别”，用以描述不同类型的存储服务。不同的存储类可以对应不同的服务质量（QoS）等级、备份策略或其他由管理员定义的策略。Kubernetes 本身并不限定这些类别的具体含义，这一概念在其他系统中有时被称为 “存储配置文件（Profile）”。
(5) 在实际使用中，PVC 与 PV 通常是一一对应的，PVC 会自动绑定到满足其需求的 PV 上，从而实现持久化存储的自动化管理。

生命周期

PersistentVolume（PV）是集群中的资源，PersistentVolumeClaim（PVC）是用户对这些资源的请求并充当对资源的检查。PV 与 PVC 之间的交互遵循下面的生命周期阶段：

1	Provisioning → Binding → Using → Releasing → Recycling

(1) Provisioning（供应 / 准备）
- 通过集群外的存储系统或者云平台来提供持久化存储支持，有两类方式：
  - 静态提供（Static）：集群管理员事先创建若干 PV，并在每个 PV 中描述底层真实存储的详细信息（例如 NFS、iSCSI、云盘等）。这些 PV 以资源对象存在于 Kubernetes API 中，供用户通过 PVC 消费。
  - 动态提供（Dynamic）：当没有现成的、满足 PVC 要求的静态 PV 时，Kubernetes 可以基于 StorageClass 自动为 PVC 动态创建 PV（即动态配置卷）。要使用动态提供：
    - PVC 必须指定某个 storageClassName（或者使用默认 StorageClass）。
    - 对应的 StorageClass 必须已由管理员创建并配置好相应的 Provisioner（即外部存储插件）。
    - 如果 PVC 明确请求一个不存在的类，则视为禁用动态配置（不会触发动态 Provisioning）。
(2) Binding（绑定）
- 用户创建 PVC 并在其中指定所需的容量和访问模式（Access Modes）。
- Kubernetes 会查找符合 PVC 要求的 PV，并将其绑定（Bind）到该 PVC。
- 在找到合适的 PV 之前，PVC 处于未绑定（Pending）状态。
(3) Using（使用）
- 一旦 PVC 与 PV 绑定，用户可以在 Pod 的 volumes 中使用 PVC，就像使用普通 Volume 一样，Pod 内的容器可以通过 volumeMounts 挂载并访问该存储卷。
(4) Releasing（释放）
- 当用户删除 PVC（释放对存储的请求）时，PV 会进入 Released（已释放）状态。
- 注意：被释放的 PV 上可能仍然保留有先前使用者的数据。在这种状态下，如果不对数据做处理，该 PV 通常不能直接被新的 PVC 使用（取决于回收策略）。
(5) Recycling（回收）
- PV 上可以设置回收策略，用于指定在 PVC 删除后如何处理底层存储资源，常见策略包括：
  - Retain（保留）：默认回收策略，保留底层存储与数据，管理员需手动处理（例如备份或清理），然后手动将 PV 重新配置为可供新的 PVC 使用。
  - Delete（删除）：删除 PV 对象，并同时删除外部存储资源（删除操作需要底层存储插件支持）。
  - Recycle（回收）：旧版本 Kubernetes 支持（现已废弃），对底层卷执行简单的清理（比如 rm -rf /thevolume/*），清理后该 PV 可再次被新的 PVC 使用（回收操作需要相应插件支持或实现）。

总结

PV 是集群级别的存储资源，生命周期独立于单个 Pod。
PVC 是对 PV 的请求，用于记录存储容量与存储访问模式等需求。
生命周期的完整流程为：准备（静态 / 动态）→ 绑定 → 使用 → 释放 → 回收 / 删除 / 保留，回收策略由 PV 的 reclaimPolicy 决定，管理员需要根据实际场景选择合适策略并配置相应的 StorageClass / Provisioner。

PV 的类型

在 Kubernetes 中，PersistentVolume（PV）的类型有以下几种：

PV 类型	说明
GCEPersistentDisk	使用 Google Compute Engine 提供的持久磁盘（Persistent Disk）作为存储卷。
AWSElasticBlockStore	使用 AWS 的 EBS（Elastic Block Store）卷作为存储卷。
AzureFile	使用 Azure File 存储（基于 SMB 协议）作为共享文件卷。
AzureDisk	使用 Azure 的托管磁盘（Managed Disk）或非托管磁盘作为块存储卷。
FC (Fibre Channel)	通过光纤通道（Fibre Channel）协议连接的块存储设备。
FlexVolume	可扩展的卷插件机制，允许用户通过外部驱动程序自定义存储挂载逻辑。
Flocker	已弃用的存储方案，原用于容器与外部数据卷的动态关联。
NFS	使用网络文件系统（Network File System，NFS）协议挂载远程共享存储，支持多容器共享访问。
iSCSI	通过 iSCSI 协议访问远程块存储设备。
RBD (Ceph Block Device)	使用 Ceph 提供的 RADOS 块设备（RBD）作为存储卷。
CephFS	使用 Ceph 提供的分布式文件系统（CephFS）作为共享文件卷。
Cinder (OpenStack block storage)	使用 OpenStack 的 Cinder 服务提供的块存储。
Glusterfs	使用 GlusterFS 提供的分布式文件系统存储，支持多节点共享访问。
VsphereVolume	使用 VMware vSphere 平台提供的虚拟磁盘（vmdk）作为存储卷。
Quobyte Volumes	使用 Quobyte 提供的分布式文件系统作为存储卷。
HostPath	将宿主机上的目录或文件挂载到 Pod 中（仅适用于单节点测试环境，不支持集群环境）。
Portworx Volumes	使用 Portworx 存储解决方案提供的高可用分布式块存储。
ScaleIO Volumes	使用 Dell EMC 的 ScaleIO（现 PowerFlex）分布式块存储。
StorageOS	使用 StorageOS 提供的容器原生分布式存储系统。

PV 的阶段状态

在 Kubernetes 中，PersistentVolume（PV）的生命周期会经历多个阶段（Phase），用于描述其当前的使用状态。PV 的阶段状态有以下几个：

状态	说明
Available	PV 资源尚未被任何 PVC（PersistentVolumeClaim）绑定，可供新的 Claim 使用。
Bound	PV 已经成功绑定到某个 PVC，正在被使用。
Released	与该 PV 绑定的 PVC 已被删除，卷已释放但尚未被回收，此时卷中的数据可能仍然存在。
Failed	PV 自动回收失败，需要管理员手动干预或清理。

提示

PV 的状态转换是由 Kubernetes 控制器自动管理的。
如果存储类（StorageClass）指定回收策略为保留（reclaimPolicy: Retain），那么在 PVC 删除后 PV 会保持 Released 状态，需管理员手动处理。

PV 的使用案例

提示

本节将演示在 Kubernetes 集群中，如何配合使用 PV + PVC + Pod，使用的 PV 类型是 nfs。

创建 PV

通过 YAML 文件（比如 pv-demo.yaml）创建 5 个 PersistentVolume（PV），类型都为 nfs，但存储大小各不相同，是否可读也不相同（请自行更改 NFS 服务器的 IP 地址，并在 NFS 服务器上提前创建好相应的共享目录）

apiVersion: v1
kind: PersistentVolume
metadata:
  name: pv001
  labels:
    name: pv001
spec:
  capacity:
    storage: 2Gi
  accessModes:
    - ReadWriteMany
    - ReadWriteOnce
  persistentVolumeReclaimPolicy: Retain
  nfs:
    server: 192.168.2.188       # NFS 服务器的 IP 地址
    path: /data/volumes/v1      # NFS 服务器上的共享目录

---

apiVersion: v1
kind: PersistentVolume
metadata:
  name: pv002
  labels:
    name: pv002
spec:
  capacity:
    storage: 3Gi
  accessModes:
    - ReadWriteOnce
  persistentVolumeReclaimPolicy: Retain
  nfs:
    server: 192.168.2.188
    path: /data/volumes/v2

---

apiVersion: v1
kind: PersistentVolume
metadata:
  name: pv003
  labels:
    name: pv003
spec:
  capacity:
    storage: 5Gi
  accessModes:
    - ReadWriteMany
    - ReadWriteOnce
  persistentVolumeReclaimPolicy: Retain
  nfs:
    server: 192.168.2.188
    path: /data/volumes/v3

---

apiVersion: v1
kind: PersistentVolume
metadata:
  name: pv004
  labels:
    name: pv004
spec:
  capacity:
    storage: 10Gi
  accessModes:
    - ReadWriteMany
    - ReadWriteOnce
  persistentVolumeReclaimPolicy: Retain
  nfs:
    server: 192.168.2.188
    path: /data/volumes/v4

---

apiVersion: v1
kind: PersistentVolume
metadata:
  name: pv005
  labels:
    name: pv005
spec:
  capacity:
    storage: 15Gi
  accessModes:
    - ReadWriteMany
    - ReadWriteOnce
  persistentVolumeReclaimPolicy: Retain
  nfs:
    server: 192.168.2.188
    path: /data/volumes/v5

创建或更新 YAML 文件（比如 pv-demo.yaml）中定义的 PV 对象

1	kubectl apply -f pv-demo.yaml

查看所有 PV

1	kubectl get pv

NAME    CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS      CLAIM   STORAGECLASS   REASON   AGE
pv001   2Gi        RWO,RWX        Retain           Available                                   17s
pv002   3Gi        RWO            Retain           Available                                   17s
pv003   5Gi        RWO,RWX        Retain           Available                                   17s
pv004   10Gi       RWO,RWX        Retain           Available                                   17s
pv005   15Gi       RWO,RWX        Retain           Available                                   17s

创建 PVC 并绑定 PV

通过 YAML 文件（比如 pvc-demo.yaml）创建一个 PersistentVolumeClaim（PVC），需要 6G 存储空间，所以不会匹配上面的 pv001、pv002、pv003

apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: mypvc
  namespace: default
spec:
  accessModes:
    - ReadWriteMany
  resources:
    requests:
      storage: 6Gi

配置字段	含义
`namespace`	PVC 所在命名空间为 `default`。
`accessModes`	设置访问模式，这里为 `ReadWriteMany`，表示允许多个节点同时读写。
`resources.requests.storage`	申请的存储大小，这里为 `6Gi`。

创建或更新 YAML 文件（比如 pvc-demo.yaml）中定义的 PVC 对象

1	kubectl apply -f pvc-demo.yaml

查看所有 PVC

1	kubectl get pvc

1 2	NAME STATUS VOLUME CAPACITY ACCESS MODES STORAGECLASS AGE mypvc Bound pv004 10Gi RWO,RWX 5s

查看所有 PV

1	kubectl get pv

NAME    CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS      CLAIM           STORAGECLASS   REASON   AGE
pv001   2Gi        RWO,RWX        Retain           Available                                           4m11s
pv002   3Gi        RWO            Retain           Available                                           4m11s
pv003   5Gi        RWO,RWX        Retain           Available                                           4m11s
pv004   10Gi       RWO,RWX        Retain           Bound       default/mypvc                           4m11s
pv005   15Gi       RWO,RWX        Retain           Available                                           4m11s

创建 Pod 并挂载 PVC

通过 YAML 文件（比如 pod-demo.yaml）创建一个 Deployment 和 Service，并挂载 PVC

apiVersion: v1
kind: Service
metadata:
  name: nginx-svc
spec:
  type: NodePort                 # Service 类型为 NodePort，可通过节点 IP 访问
  selector:                      # 选择器，匹配后端 Pod 的标签（labels）
    app: nginx-pod
  ports:
    - port: 80                   # Service 对外暴露的端口，集群内部访问时也可以使用该端口
      targetPort: 80             # Pod 内容器实际监听的端口（即将请求转发到容器的 xxxx 端口）

---

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deploy
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx-pod
  template:
    metadata:
      labels:
        app: nginx-pod
    spec:
      containers:
        - name: nginx
          image: nginx:1.15
          ports:
            - containerPort: 80
          volumeMounts:               # 声明要挂载的卷（volume）
            - name: html
              mountPath: /usr/share/nginx/html/
      volumes:                        # 定义 Pod 级别的卷（volume）
        - name: html
          persistentVolumeClaim:      # 指定使用已有的 PersistentVolumeClaim（PVC）
            claimName: mypvc

配置字段	含义
`containers.volumeMounts.mountPath`	指定容器内的挂载路径 `/usr/share/nginx/html/`。
`volumes.persistentVolumeClaim.claimName`	绑定前面创建的 PVC 名称 `mypvc`。

创建或更新 YAML 文件（比如 pod-demo.yaml）中定义的 Deployment 和 Service 对象

1	kubectl apply -f pod-demo.yaml

查看所有 Pod

1	kubectl get pod -o wide

1 2	NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES nginx-deploy-7ccc7cd487-77mmd 1/1 Running 0 8m9s 10.244.0.11 k8s-node1

查看所有 Service

1	kubectl get svc

1
2
3

NAME         TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)        AGE
kubernetes   ClusterIP   10.0.0.1             443/TCP        92d
nginx-svc    NodePort    10.0.0.62            80:31566/TCP   3m29s

在 NFS 的共享目录中，创建 Nginx 的首页文件（index.html），避免挂载卷（Volume）后覆盖了 Nginx 镜像原有的默认首页，导致 Nginx 首页访问出现 403 错误

1
2

# 连接进 Nginx 容器内，在 NFS 共享目录中创建 Nginx 首页的 HTML 文件
kubectl exec -it nginx-deploy-7ccc7cd487-77mmd -- bash -c 'echo "Hello from NFS Volume
" > /usr/share/nginx/html/index.html'

最后通过任意一个集群节点的 IP 与 Service 对外暴露的端口（比如 http://192.168.2.191:31566），就可以在 Kubernetes 集群外部通过浏览器访问 Nginx 的首页（如下图所示）

手动回收 Released PV

在上面的案例中，当 Pod 和 PVC 都被删除后，PV 会处于 Released 状态，对应的底层存储与数据会保留下来。此时，集群管理员需要手动处理（例如备份或清理数据），然后手动将 PV 重新配置，这样该 PV 才可以供新的 PVC 使用。

删除 Pod 与 PVC

# 删除 Pod
kubectl delete -f pod-demo.yaml

# 删除 PVC
kubectl delete -f pvc-demo.yaml

查看所有 PV

1	kubectl get pv

NAME    CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS      CLAIM           STORAGECLASS   REASON   AGE
pv001   2Gi        RWO,RWX        Retain           Available                                           3h35m
pv002   3Gi        RWO            Retain           Available                                           3h35m
pv003   5Gi        RWO,RWX        Retain           Available                                           3h35m
pv004   10Gi       RWO,RWX        Retain           Released    default/mypvc                           3h35m
pv005   15Gi       RWO,RWX        Retain           Available                                           3h35m

从上面的输出信息，可以看到 pv004 的状态为 STATUS: Released，表示该 PV 原先被某个 PVC（这里是 default/mypvc）绑定过，但 PVC 已被删除。由于该 PV 的回收策略是 Retain，Kubernetes 不会自动清理其中的数据，也不会重新将它标记为可用（Available）。要让处于 Released 状态的 PV 再次可用（允许重新绑定新的 PVC），必须手动回收该 PV，以下是标准的做法。

1、删除旧 PVC 产生的残留数据
- 通常 PV 对应一个存储路径（比如 NFS、hostPath、或本地目录等）。
- (1) 先找到 PV 对应的存储目录路径：
  1
  kubectl describe pv pv004
- (2) 然后在输出内容中找到：
  1
  2
  3
  Source:
  Server: 192.168.2.188
  Path: /data/volumes/v4
- (3) 最后手动删除存储目录路径中的所有文件：
  1
  2
  # 这一步骤会删除上一个 PVC 的所有数据，请谨慎执行
  sudo rm -rf /data/volumes/v4/*
2、移除 PV 上的旧 Claim 信息
- 因为 PV 仍然绑定了旧的 PVC（claimRef 字段），所以必须解除旧 PVC 的绑定。
- Kubernetes 不允许直接编辑已绑定的 PV
  - 需要强制修改 PV
    - 强制修改 PV
      1
      kubectl patch pv pv004 -p '{"spec":{"claimRef": null}}'
    - 修改完成后，PV 的状态会改变为 Available
  - 或者手动编辑 PV
    - 手动编辑 PV
      1
      kubectl edit pv pv004
    - 删除如下字段（claimRef）内容
      1
      2
      3
      4
      5
      6
      7
      claimRef:
      apiVersion: v1
      kind: PersistentVolumeClaim
      name: mypvc
      namespace: default
      resourceVersion: "473636"
      uid: 1be643da-a7fe-4957-b8ec-887952ae7763
    - 保存退出后，PV 的状态会改变为 Available

3、确认 PV 可用

查看所有 PV

1 2	# 查看 PV 列表 kubectl get pv

NAME    CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS      CLAIM   STORAGECLASS   REASON   AGE
pv001   2Gi        RWO,RWX        Retain           Available                                   3h56m
pv002   3Gi        RWO            Retain           Available                                   3h56m
pv003   5Gi        RWO,RWX        Retain           Available                                   3h56m
pv004   10Gi       RWO,RWX        Retain           Available                                   3h56m
pv005   15Gi       RWO,RWX        Retain           Available                                   3h56m

参考资料

Centos7 搭建 NFS 服务器

Kubernetes 入门教程之九

2025-10-08T13:12:19.000Z

大纲

Kubernetes 核心技术

配置管理

Secret

Secret 的介绍

Secret 的概述
- Secret 是 Kubernetes 中一种用于存储敏感数据的对象类型。
- Secret 会将敏感数据存储在 Etcd 里面，让 Pod 容器以环境变量或者挂载 Volume（卷）的方式进行访问。
- Secret 的主要设计目标是：避免将敏感信息直接写入 Pod 的镜像或配置文件（如 Deployment、ConfigMap）中。
- 这些敏感数据包括（不限于）：
  - 数据库的用户名和密码
  - API Token 或访问密钥
  - SSL/TLS 私钥和证书
  - SSH 密钥
Secret 的作用

作用	说明
保护敏感信息	通过 Base64 编码的形式保存机密数据，防止在 YAML 文件中明文出现。
与 Pod 解耦	应用不直接携带凭证，Secret 可独立管理、更新和分发。
灵活挂载	可作为环境变量或 Volume（卷）文件挂载到容器中。
与 ServiceAccount 结合使用	可用于保存访问 API Server 的 Token 等认证信息。
支持自动轮换和更新	可结合控制器或外部系统（如 Vault）可实现密钥动态更新。

Secret 的类型

Secret 类型	用途说明
Opaque	默认类型，用于存放任意用户定义的键值对。
kubernetes.io/dockerconfigjson	存放 Docker Registry 的认证信息，用于拉取私有镜像。
kubernetes.io/service-account-token	系统自动创建，用于 ServiceAccount 与 API Server 通信。
kubernetes.io/tls	存放 TLS 证书与私钥，用于 HTTPS、Ingress 等场景。
bootstrap.kubernetes.io/token	集群引导时 Kubelet 注册节点所用的临时令牌。

Secret 的使用场景

使用场景	使用说明
应用访问数据库	存放数据库的账号密码，通过环境变量注入。
拉取私有镜像	创建 Docker Registry Secret 供 `imagePullSecrets` 使用。
HTTPS 服务	存放 TLS 证书，用于 Ingress 或自签服务。
外部 API 调用	存放第三方服务的 API Token。
集群内部通信认证	ServiceAccount Token 类型 Secret。

Secret 的注意事项
- 虽然 Secret 可以用于保护敏感信息，但它并非绝对安全：
  - 默认仅使用 Base64 编码，并未将信息加密存储；
  - 通常需要启用 Kubernetes Encryption at Rest，确保在 Etcd 中加密存储；
  - 合理配置集群安全机制（RBAC），限制访问 Secret 的权限；
  - 避免将 Secret 信息直接输出到日志文件或终端；
  - 建议结合外部安全系统（如 HashiCorp Vault、Sealed Secrets、External Secrets Operator）进行管理。
- Secret 以 Volume（卷）的方式挂载时支持热更新
  - Secret 更新后，不会自动更新 Pod 中容器内的环境变量，也不会触发容器重启；
  - 但是，如果 Secret 是以 Volume（卷）的方式挂载，并且该挂载未使用 subPath，则 Pod 中容器内挂载的文件会在 60 秒内自动更新（热更新）；
  - 另外，应用程序需要在运行时重新读取这些文件（例如通过文件监听或定时重新加载配置）才能真正实现热更新。
- 通过控制器（如 Deployment）触发 Pod 重启可以实现 Secret 更新生效
  - 更改 Secret 后，可以手动触发 Deployment 滚动重启（比如执行 kubectl rollout restart deployment ）；
  - Deployment 滚动重启时，Kubernetes 会让该 Deployment 下的所有 Pod 重新创建，但不会更改镜像版本；
  - 当 Pod 重启后，容器启动时会重新加载 Secret，从而使最新的机密配置生效。

subPath 的作用

subPath 是 Kubernetes 在 Volume 挂载中的一个重要机制，用于只挂载卷里的单个文件或者子目录，而不是整个目录。
subPath 不支持热更新，即使底层 Volume（如 ConfigMap 或 Secret）更新后，挂载到 subPath 的文件也不会自动刷新（热更新）。
subPath 不能用于挂载整个目录时的热更新场景，如果需要实时更新配置（比如热更新 Nginx 配置），不可以使用 subPath。

Secret 的创建

Secret 的创建通常有以下三种方式：

通过命令行创建 Secret

1 2	# 手动创建 Secret kubectl create secret generic my-secret --from-literal=username=admin --from-literal=password=123456

通过文件创建 Secret

1	kubectl create secret generic db-secret --from-file=username.txt --from-file=password.txt

通过 YAML 文件（比如 my-secret.yaml）创建 Secret

apiVersion: v1
kind: Secret
metadata:
  name: my-secret
type: Opaque
data:
  username: YWRtaW4=      # Base64(admin)
  password: MTIzNDU2      # Base64(123456)

1 2	# 创建或更新 YAML 文件中定义的 Secret 对象 kubectl apply -f my-secret.yaml

Secret 的查看

查看 Secret 的详情

1	kubectl describe secret my-secret

查看 Secret 的完整内容

1 2	# 查看 Secret 的内容（注意：内容经过 Base64 编码） kubectl get secret my-secret -o yaml

查看 Secret 列表

# 查看默认命名空间下的所有 Secret
kubectl get secrets

# 查看特定命名空间下的所有 Secret
kubectl get secrets -n dev

# 查看所有命名空间下的 Secret
kubectl get secrets --all-namespaces

Secret 的更改

Secret 的更改有以下几种方式

(1) 使用 kubectl edit secret（最常用）直接编辑 Secret，默认会打开一个临时编辑器（比如 vi 或 nano），编辑后保存退出即可，保存后会自动更新 Secret。这种方式需要手动对配置内容进行 Base64 编码，比如 echo -n 'newuser' | base64。

1	kubectl edit secret my-secret

(2) 使用 kubectl apply（声明式更新），如果有一个用于定义 Secret 的 YAML 文件（例如 my-secret.yaml），可以执行以下命令更新 Secret。这种方式可以直接在 YAML 文件中使用未经过 Base64 编码的配置内容，K8s 会自动将其转换成 Base64 编码。

1	kubectl apply -f my-secret.yaml

(3) 使用 kubectl patch secret（部分字段更新），只更新指定的字段（无需编辑整个 YAML）。这种方式 K8s 会自动将配置内容转换成 Base64 编码再存入 Etcd 中，不需要手动处理 Base64 编码。

# 更新单个字段（Key）
kubectl patch secret my-secret -p '{"stringData":{"password":"123456"}}'

# 同时改两个字段（Key）
kubectl patch secret my-secret -p '{"stringData":{"username":"root","password":"123456"}}'

(4) 直接重新创建 Secret（简单粗暴），也就是先删除旧的 Secret，然后创建新的 Secret。这种方式 K8s 会自动将配置内容转换成 Base64 编码再存入 Etcd 中，不需要手动处理 Base64 编码。

1	kubectl create secret generic my-secret --from-literal=username=root --from-literal=password=123456 --dry-run=client -o yaml \| kubectl apply -f -

Secret 热更新说明

上面介绍的四种 Secret 更新方式，都不会自动更新相关 Pod 中容器内的环境变量，也不会触发相关 Pod 的滚动更新（即不会重启 Pod，不会重启容器）。
但是，如果 Secret 是以 Volume（卷）的方式挂载，并且该挂载未使用 subPath，那么在 Secret 更新后，Pod 中容器内挂载的文件会在 60 秒内自动刷新（热更新）。

Secret 更新后滚动更新 Pod

上面介绍的四种 Secret 更新方式，都不会触发相关 Pod 的滚动更新（Rolling Update），也就是 Pod 不会自动重启，但可以通过手动修改 Pod Annotations 的方式强制触发 Pod 的滚动更新。比如：

1	kubectl patch deployment my-nginx --patch '{"spec": {"template": {"metadata":{"annotations": {"version/config": "20190411" }}}}}'

在这个例子中，往 spec.template.metadata.annotations 中添加了 version/config，每次在 Secret 更新后，可以通过手动修改 version/config 来触发 Pod 的滚动更新。
这里的 spec.template.metadata.annotations 是 Pod 模板（spec.template）元数据中的注解字段，当该字段的内容发生变化时，Kubernetes 会认为 Pod 模板被修改，于是触发新的 Replica Set（RS）创建，从而滚动替换所有旧的 Pod。

Pod 滚动更新方案

在更新 Secret 后，除了可以通过手动修改 Pod Annotations 的方式强制触发 Pod 的滚动更新，还可以手动触发 Deployment 的滚动重启，从而让 Pod 重启，比如执行命令 kubectl rollout restart deployment 。
更推荐使用自动检测 Secret 变更的方案（更高级），例如借助 Stakater Reloader 等第三方工具监控 Secret 的变化。一旦检测到更新，就会自动触发相关 Pod 的滚动更新，从而确保配置自动生效。

Secret 的删除

1 2	# 删除默认命名空间下的单个 Secret kubectl delete secret my-secret

1 2	# 删除默认命名空间下的多个 Secret kubectl delete secret my-secret db-secret api-token

1 2	# 删除默认命名空间下的所有 Secret（慎用），系统自动生成的 ServiceAccount Token Secret 也会被删掉，从而影响 K8s 集群的正常运行 kubectl delete secret --all

1 2	# 删除特定命名空间下的单个 Secret kubectl delete secret my-secret -n dev

在 Pod 中使用 Secret

Secret 创建后，可以通过以下两种方式供 Pod 容器使用：

挂载为环境变量，K8s 会将 Secret 中的键值对映射为系统环境变量

apiVersion: v1
kind: Pod
metadata:
  name: secret-env-demo
spec:
  containers:
  - name: demo
    image: busybox
    command: ["sh", "-c", "echo $DB_USER $DB_PASS; tail -f /dev/null"]
    env:                      # 定义环境变量
    - name: DB_USER           # 环境变量名
      valueFrom:              # 值来源于外部引用
        secretKeyRef:         # 引用类型为 Secret
          name: my-secret     # Secret 的名称（需事先创建）
          key: username       # Secret 中对应的键
    - name: DB_PASS
      valueFrom:
        secretKeyRef:
          name: my-secret
          key: password

# 或者使用 Deployment 管理 Pod
apiVersion: apps/v1
kind: Deployment
metadata:
  name: secret-env-demo
spec:
  replicas: 1
  selector:
    matchLabels:
      app: secret-env-demo
  template:
    metadata:
      labels:
        app: secret-env-demo
    spec:
      containers:
      - name: demo
        image: busybox
        command: ["sh", "-c", "echo $DB_USER $DB_PASS; tail -f /dev/null"]
        env:                      # 定义环境变量
        - name: DB_USER           # 环境变量名
          valueFrom:              # 值来源于外部引用
            secretKeyRef:         # 引用类型为 Secret
              name: my-secret     # Secret 的名称（需事先创建）
              key: username       # Secret 中对应的键
        - name: DB_PASS
          valueFrom:
            secretKeyRef:
              name: my-secret
              key: password

挂载为 Volume（卷），K8s 会自动将 Secret 中每个键映射为文件名（最终会自动创建多个文件），文件内容为键对应的值

apiVersion: v1
kind: Pod
metadata:
  name: secret-volume-demo
spec:
  containers:
  - name: demo
    image: busybox
    command: ["sh", "-c", "cat /etc/secret-data/username; tail -f /dev/null"]
    volumeMounts:                     # 定义容器内要挂载的卷
    - name: secret-volume             # 对应下面 volumes 中的卷名称（必须一致）
      mountPath: /etc/secret-data     # 将 Secret 内容挂载到容器内的该目录下
      readOnly: true                  # 设置为只读（推荐），防止容器内误修改
  volumes:                            # 在 Pod 层定义卷（Volume）
  - name: secret-volume               # 指定卷的名称
    secret:                           # 指定卷的类型为 Secret
      secretName: my-secret           # 指定引用的 Secret 名称（需事先创建）

# 或者使用 Deployment 管理 Pod
apiVersion: apps/v1
kind: Deployment
metadata:
  name: secret-volume-demo
spec:
  replicas: 1
  selector:
    matchLabels:
      app: secret-volume-demo
  template:
    metadata:
      labels:
        app: secret-volume-demo
    spec:
      containers:
      - name: demo
        image: busybox
        command: ["sh", "-c", "cat /etc/secret-data/username; tail -f /dev/null"]
        volumeMounts:                     # 定义容器内要挂载的卷
        - name: secret-volume             # 对应下面 volumes 中的卷名称（必须一致）
          mountPath: /etc/secret-data     # 将 Secret 内容挂载到容器内的该目录下
          readOnly: true                  # 设置为只读（推荐），防止容器内误修改
      volumes:                            # 在 Pod 层定义卷（Volume）
      - name: secret-volume               # 指定卷的名称
        secret:                           # 指定卷的类型为 Secret
          secretName: my-secret           # 指定引用的 Secret 名称（需事先创建）

Secret 的完整使用案例

通过 YAML 文件（比如 secret-env-demo.yaml）定义 Secret 和 Pod，并使用环境变量的方式引用 Secret

# 定义 Secret
apiVersion: v1
kind: Secret
metadata:
  name: my-secret
type: Opaque
data:
  username: YWRtaW4=      # Base64(admin)
  password: MTIzNDU2      # Base64(123456)

---

# 定义 Deployment
apiVersion: apps/v1
kind: Deployment
metadata:
  name: secret-env-demo
spec:
  replicas: 1
  selector:
    matchLabels:
      app: secret-env-demo
  template:
    metadata:
      labels:
        app: secret-env-demo
    spec:
      containers:
      - name: demo
        image: busybox
        command: ["sh", "-c", "echo $DB_USER $DB_PASS; tail -f /dev/null"]
        env:                      # 定义环境变量
        - name: DB_USER           # 环境变量名
          valueFrom:              # 值来源于外部引用
            secretKeyRef:         # 引用类型为 Secret
              name: my-secret     # Secret 的名称（需事先创建）
              key: username       # Secret 中对应的键
        - name: DB_PASS
          valueFrom:
            secretKeyRef:
              name: my-secret
              key: password

1 2	# 创建或更新 YAML 文件中定义的 Secret 和 Deployment 对象 kubectl apply -f secret-env-demo.yaml

查看 Pod 的运行状态

1	kubectl get pods -o wide

1 2	NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES secret-env-demo-6c74c9dd76-9rbgr 1/1 Running 0 39s 10.244.0.13 k8s-master

查看 Pod 的日志信息

1	kubectl logs secret-env-demo-6c74c9dd76-9rbgr

1	admin 123456

ConfigMap

在 Kubernetes 中，ConfigMap（配置映射）是一种非常重要的配置管理对象，用于将配置数据与应用程序代码分离。它的设计初衷是：应用程序镜像保持通用性，而不同环境下的配置信息（如开发、测试、生产）通过 ConfigMap 动态注入。

ConfigMap 的介绍

ConfigMap 的概述
- ConfigMap 是一种用于存储非敏感配置信息的键值对集合的 Kubernetes 资源对象。
- ConfigMap 会将非敏感数据存储在 Etcd 里面，让 Pod 容器以环境变量和挂载 Volume（卷）的方式进行访问。
- ConfigMap 的核心思想是：配置应该与镜像解耦，应用部署时再注入配置，换句话说：
  - 用户可以在不修改镜像的前提下更改配置；
  - 用户可以让相同的容器镜像在不同环境中以不同的方式运行。
ConfigMap 的作用
- 配置解耦
  - 应用程序不再依赖镜像内置的配置，而是从外部（ConfigMap）加载配置。
- 集中化管理配置
  - 所有 Pod 的环境变量、配置文件都可以统一由 ConfigMap 管理。
- 灵活的注入方式
  - ConfigMap 可通过以下方式注入到 Pod 容器中：
    - 作为环境变量；
    - 以卷（Volume）挂载的方式出现在容器文件系统中。
ConfigMap 的注意事项
- ConfigMap 不适合存储敏感信息
  - 因为信息是明文保存的，敏感信息应该使用 Secret 进行存储。
- ConfigMap 以 Volume（卷）的方式挂载时支持热更新
  - ConfigMap 更新后，不会自动更新 Pod 中容器内的环境变量，也不会触发容器重启；
  - 但是，如果 ConfigMap 是以 Volume（卷）的方式挂载，并且该挂载未使用 subPath，则 Pod 中容器内挂载的文件会在 60 秒内自动更新（热更新）；
  - 另外，应用程序需要在运行时重新读取这些文件（例如通过文件监听或定时重新加载配置）才能真正实现热更新。
- 通过控制器（如 Deployment）触发 Pod 重启可以实现 ConfigMap 更新生效
  - 更改 ConfigMap 后，手动触发 Deployment 滚动重启（比如执行 kubectl rollout restart deployment ）；
  - Deployment 滚动重启时，K8s 会让 Deployment 下的 Pod 全部重新创建，但不会改变镜像版本；
  - 当 Pod 重启后，容器启动时会重新加载 ConfigMap，从而使最新的配置生效。
- 配置信息的大小限制
  - 单个 ConfigMap 的大小不能超过 1MB。
ConfigMap 的使用场景

使用场景	示例
多环境配置	开发、测试、生产等环境使用不同的 ConfigMap
应用启动参数	通过环境变量动态配置应用的启动参数
配置文件注入	将配置文件挂载进容器内部，如 Nginx、Tomcat 的配置文件
滚动更新配置	更改 ConfigMap 后，可以通过 Deployment 滚动重启 Pod，动态加载新的配置
与 Secret 搭配使用	ConfigMap 负责管理非敏感配置信息，Secret 负责管理敏感配置信息（如密码、Token）

ConfigMap 的最佳实践

使用场景	推荐方案
应用支持热更新（如 Nginx、Envoy）	挂载 ConfigMap 文件，监控文件变更，感知配置更新
应用不支持热更新（如 Java Spring Boot）	更改 ConfigMap 后，触发 Deployment 滚动重启（`kubectl rollout restart deployment` ），不会改变镜像版本
同时包含敏感与非敏感配置	使用 Secret + ConfigMap 分开挂载

ConfigMap 与 Secret 对比

对比项	ConfigMap	Secret
内容	非敏感配置信息	敏感配置信息（如密码、证书）
编码	明文	Base64 编码
用途	普通配置文件、应用启动参数	密钥、Token、证书
安全性	低	高
存储方式	Etcd 明文存储	Etcd 加密存储（需要额外配置）

subPath 的作用

subPath 是 Kubernetes 在 Volume 挂载中的一个重要机制，用于只挂载卷里的单个文件或者子目录，而不是整个目录。
subPath 不支持热更新，即使底层 Volume（如 ConfigMap 或 Secret）更新后，挂载到 subPath 的文件也不会自动刷新（热更新）。
subPath 不能用于挂载整个目录时的热更新场景，如果需要实时更新配置（比如热更新 Nginx 配置），不可以使用 subPath。

ConfigMap 的创建

ConfigMap 的创建通常有以下几种方式：

通过命令行创建 ConfigMap

1	kubectl create configmap app-config --from-literal=app_mode=production --from-literal=app_debug=false

通过文件创建 ConfigMap

1	kubectl create configmap app-config --from-file=app.properties

1	kubectl create configmap app-config --from-file=./config/

通过 YAML 文件（比如 app-config.yaml）创建 ConfigMap

apiVersion: v1
kind: ConfigMap
metadata:
  name: app-config
data:
  app_mode: "production"
  app_debug: "false"
  database.conf: |
    host=127.0.0.1
    port=3306

1 2	# 创建或更新 YAML 文件中定义的 ConfigMap 对象 kubectl apply -f app-config.yaml

ConfigMap 的查看

查看 ConfigMap 的详情

1	kubectl describe configmap app-config

查看 ConfigMap 的完整内容

1	kubectl get configmap app-config -o yaml

查看 ConfigMap 列表

# 查看默认命名空间下的所有 ConfigMap
kubectl get configmaps

# 查看特定命名空间下的所有 ConfigMap
kubectl get configmaps -n dev

# 查看所有命名空间下的 ConfigMap
kubectl get configmaps --all-namespaces

ConfigMap 的更改

ConfigMap 的更改有以下几种方式

(1) 使用 kubectl edit configmap（最常用）直接编辑 ConfigMap，默认会打开一个临时编辑器（比如 vi 或 nano），编辑后保存退出即可，保存后会自动更新 ConfigMap

1	kubectl edit configmap app-config

(2) 使用 kubectl apply（声明式更新），如果有一个用于定义 ConfigMap 的 YAML 文件（例如 app-config.yaml），可以执行以下命令更新 ConfigMap

1	kubectl apply -f app-config.yaml

(3) 使用 kubectl patch configmap（部分字段更新），只更新指定的字段（无需编辑整个 YAML）

# 更新单个字段（Key）
kubectl patch configmap app-config -p '{"data":{"app_mode":"development"}}'

# 同时改两个字段（Key）
kubectl patch configmap app-config -p '{"data":{"app_mode":"development","app_debug":"true"}}'

(4) 直接重新创建 ConfigMap（简单粗暴），也就是先删除旧的 ConfigMap，然后创建新的 ConfigMap

1	kubectl create configmap app-config --from-literal=app_mode=development --from-literal=app_debug=true --dry-run=client -o yaml \| kubectl apply -f -

ConfigMap 热更新说明

上面介绍的四种 ConfigMap 更新方式，都不会自动更新相关 Pod 中容器内的环境变量，也不会触发相关 Pod 的滚动更新（即不会重启 Pod，不会重启容器）。
但是，如果 ConfigMap 是以 Volume（卷）的方式挂载，并且该挂载未使用 subPath，那么在 ConfigMap 更新后，Pod 中容器内挂载的文件会在 60 秒内自动刷新（热更新）。

ConfigMap 更新后滚动更新 Pod

上面介绍的四种 ConfigMap 更新方式，都不会触发相关 Pod 的滚动更新（Rolling Update），也就是 Pod 不会自动重启，但可以通过手动修改 Pod Annotations 的方式强制触发 Pod 的滚动更新。比如：

1	kubectl patch deployment my-nginx --patch '{"spec": {"template": {"metadata":{"annotations": {"version/config": "20190411" }}}}}'

在这个例子中，往 spec.template.metadata.annotations 中添加了 version/config，每次在 ConfigMap 更新后，可以通过手动修改 version/config 来触发 Pod 的滚动更新。
这里的 spec.template.metadata.annotations 是 Pod 模板（spec.template）元数据中的注解字段，当该字段的内容发生变化时，Kubernetes 会认为 Pod 模板被修改，于是触发新的 Replica Set（RS）创建，从而滚动替换所有旧的 Pod。

Pod 滚动更新方案

在更新 ConfigMap 后，除了可以通过手动修改 Pod Annotations 的方式强制触发 Pod 的滚动更新，还可以手动触发 Deployment 的滚动重启，从而让 Pod 重启，比如执行命令 kubectl rollout restart deployment 。
更推荐使用自动检测 ConfigMap 变更的方案（更高级），例如借助 Stakater Reloader 等第三方工具监控 ConfigMap 的变化。一旦检测到更新，就会自动触发相关 Pod 的滚动更新，从而确保配置自动生效。

ConfigMap 的删除

1 2	# 删除默认命名空间下的单个 ConfigMap kubectl delete configmap app-config

1 2	# 删除默认命名空间下的多个 ConfigMap kubectl delete configmap cm1 cm2 cm3

1 2	# 删除默认命名空间下的所有 ConfigMap（慎用），系统自动生成的 ConfigMap 也会被删掉，从而影响 K8s 集群的正常运行 kubectl delete configmap --all

1 2	# 删除特定命名空间下的单个 ConfigMap kubectl delete configmap nginx-config -n dev

特别注意

删除 ConfigMap 不会立即影响已运行的 Pod，除非该 ConfigMap 是以挂载卷（Volume）或环境变量形式注入，并且 Pod 被重新启动或重新加载。

在 Pod 中使用 ConfigMap

ConfigMap 创建后，可以通过以下两种方式供 Pod 容器使用：

挂载为环境变量：K8s 会将 ConfigMap 中的键值对映射为系统环境变量

apiVersion: v1
kind: Pod
metadata:
  name: configmap-env-demo
spec:
  containers:
  - name: demo
    image: busybox
    command: ["sh", "-c", "echo $APP_MODE $APP_DEBUG; tail -f /dev/null"]
    env:                       # 定义环境变量
    - name: APP_MODE           # 环境变量名
      valueFrom:               # 值来源于外部引用
        configMapKeyRef:       # 引用类型为 ConfigMap
          name: app-config     # ConfigMap 的名称（需事先创建）
          key: app_mode        # ConfigMap 中对应的键
    - name: APP_DEBUG
      valueFrom:
        configMapKeyRef:
          name: app-config
          key: app_debug

# 或者使用 Deployment 管理 Pod
apiVersion: apps/v1
kind: Deployment
metadata:
  name: configmap-env-demo
spec:
  replicas: 1
  selector:
    matchLabels:
      app: configmap-env-demo
  template:
    metadata:
      labels:
        app: configmap-env-demo
    spec:
      containers:
      - name: demo
        image: busybox
        command: ["sh", "-c", "echo $APP_MODE $APP_DEBUG; tail -f /dev/null"]
        env:                       # 定义环境变量
        - name: APP_MODE           # 环境变量名
          valueFrom:               # 值来源于外部引用
            configMapKeyRef:       # 引用类型为 ConfigMap
              name: app-config     # ConfigMap 的名称（需事先创建）
              key: app_mode        # ConfigMap 中对应的键
        - name: APP_DEBUG
          valueFrom:
            configMapKeyRef:
              name: app-config
              key: app_debug

挂载为 Volume（卷）：K8s 会自动将 ConfigMap 中每个键映射为文件名（最终会自动创建多个文件），文件内容为键对应的值

apiVersion: v1
kind: Pod
metadata:
  name: configmap-volume-demo
spec:
  containers:
  - name: demo
    image: busybox
    command: ["sh", "-c", "cat /etc/config-data/app_mode; tail -f /dev/null"]
    volumeMounts:                     # 定义容器内要挂载的卷
    - name: config-volume             # 对应下面 volumes 中的卷名称（必须一致）
      mountPath: /etc/config-data     # 将 ConfigMap 内容挂载到容器内的该目录下
      readOnly: true                  # 设置为只读（推荐），防止容器内误修改
  volumes:                            # 在 Pod 层定义卷（Volume）
  - name: config-volume               # 指定卷的名称
    configMap:                        # 指定卷的类型为 ConfigMap
      name: app-config                # 指定引用的 ConfigMap 名称（需事先创建）

# 或者使用 Deployment 管理 Pod
apiVersion: apps/v1
kind: Deployment
metadata:
  name: configmap-volume-demo
spec:
  replicas: 1
  selector:
    matchLabels:
      app: configmap-volume-demo
  template:
    metadata:
      labels:
        app: configmap-volume-demo
    spec:
      containers:
      - name: demo
        image: busybox
        command: ["sh", "-c", "cat /etc/config-data/app_mode; tail -f /dev/null"]
        volumeMounts:                     # 定义容器内要挂载的卷
        - name: config-volume             # 对应下面 volumes 中的卷名称（必须一致）
          mountPath: /etc/config-data     # 将 ConfigMap 内容挂载到容器内的该目录下
          readOnly: true                  # 设置为只读（推荐），防止容器内误修改
      volumes:                            # 在 Pod 层定义卷（Volume）
      - name: config-volume               # 指定卷的名称
        configMap:                        # 指定卷的类型为 ConfigMap
          name: app-config                # 指定引用的 ConfigMap 名称（需事先创建）

ConfigMap 的完整使用案例

通过 YAML 文件（比如 configmap-env-demo.yaml）定义 ConfigMap 和 Pod，并使用环境变量的方式引用 ConfigMap

# 定义 ConfigMap
apiVersion: v1
kind: ConfigMap
metadata:
  name: app-config
data:
  app_mode: "production"
  app_debug: "false"

---

# 定义 Deployment
apiVersion: apps/v1
kind: Deployment
metadata:
  name: configmap-env-demo
spec:
  replicas: 1
  selector:
    matchLabels:
      app: configmap-env-demo
  template:
    metadata:
      labels:
        app: configmap-env-demo
    spec:
      containers:
      - name: demo
        image: busybox
        command: ["sh", "-c", "echo $APP_MODE $APP_DEBUG; tail -f /dev/null"]
        env:                       # 定义环境变量
        - name: APP_MODE           # 环境变量名
          valueFrom:               # 值来源于外部引用
            configMapKeyRef:       # 引用类型为 ConfigMap
              name: app-config     # ConfigMap 的名称（需事先创建）
              key: app_mode        # ConfigMap 中对应的键
        - name: APP_DEBUG
          valueFrom:
            configMapKeyRef:
              name: app-config
              key: app_debug

1 2	# 创建或更新 YAML 文件中定义的 ConfigMap 和 Deployment 对象 kubectl apply -f configmap-env-demo.yaml

查看 Pod 的运行状态

1	kubectl get pods -o wide

1 2	NAME READY STATUS RESTARTS AGE configmap-env-demo-698c84b677-625sk 1/1 Running 0 49s

查看 Pod 的日志信息

1	kubectl logs configmap-env-demo-698c84b677-625sk

1	production false

ConfigMap 实现 Nginx 自动热更新

Kubernetes 中实现 Nginx 配置自动热更新

集群安全机制

RBAC 的基本概念

RBAC（Role Based Access Control，基于角色的访问控制）在 Kubernetes v1.5 中首次引入，并在 v1.6 版本升级为 Beta，成为 Kubeadm 安装方式下的默认授权模式。RBAC 的核心思想是：通过角色定义权限，通过角色绑定将权限授予给特定的主体（比如 User、Group、ServiceAccount），从而实现精细化的访问控制。Kubernetes 集群要启用 RBAC 授权模式，需要在 API Server 的启动参数中添加 --authorization-mode=RBAC。

在 RBAC（基于角色的访问控制）中，主要包含以下四个核心概念：
- 角色（Role / ClusterRole）：
  - 定义一组可执行的权限规则，即允许对哪些资源执行哪些操作。
- 角色绑定（RoleBinding / ClusterRoleBinding）：
  - 将角色与主体进行关联，从而使主体获得该角色定义的权限。
- 主体（Subject）：
  - 表示可以被授予权限的实体，包括用户（User）、用户组（Group）和服务账户（ServiceAccount）。
- 权限规则（Policy Rules）：
  - 具体描述允许执行的操作，包括对哪些资源（resources）、在哪些命名空间（namespace）、执行哪些动作（verbs）等。
相比其他访问控制方式，RBAC（基于角色的访问控制）具有以下优势：
- 权限覆盖全面：
  - 对集群中的资源和非资源类型的访问权限均提供完整支持。
- 动态调整：
  - 可在集群运行时更改权限配置，无需重启 API Server。
- API 原生支持：
  - RBAC 由若干 API 对象构成，可像其他 Kubernetes 资源一样通过 kubectl 或 API 进行管理。

在访问 Kubernetes 集群的时候，需要经过以下三个步骤：
- 第一步：认证
  - 核心目标：
    - 用于确认访问者的身份。
  - 访问端口：
    - 对外不暴露 8080 端口（仅供集群内部组件访问）；
    - 对外提供的访问端口为 6443（HTTPS 端口）。
  - 认证方式：
    - HTTPS 证书认证：基于 CA 证书验证客户端身份；
    - HTTP Token 认证：通过 Token 标识用户身份；
    - HTTP Basic 认证：基于用户名和密码进行身份校验。
- 第二步：鉴权（授权）
  - 在确认用户身份后，判断其是否具备执行该操作的权限；
  - Kubernetes 主要基于 RBAC（基于角色的访问控制）机制进行鉴权；
  - 权限通过角色（Role / ClusterRole）与角色绑定（RoleBinding / ClusterRoleBinding）来定义和分配。
- 第三步：准入控制
  - 用于在请求通过认证和鉴权后，对请求内容进行进一步的策略检查；
  - 本质上是一个由多个准入控制器（Admission Controllers）组成的列表；
  - 如果请求被这些准入控制器中的规则允许，则放行请求；否则，请求会被拒绝。

提示

在访问 Kubernetes 的过程中，都需要经过 API Server，由 API Server 做统一协调。比如，访问过程中需要 CA 证书、Token、或者用户名和密码；如果访问 Pod，则需要 Service Account。

RBAC 的 API 资源对象

在 Kubernetes 中，RBAC 引入了 4 个新的顶级资源对象：Role、ClusterRole、RoleBinding、ClusterRoleBinding。同其他 API 资源对象一样，用户可以使用 kubectl 命令或者 API 调用等方式操作这些资源对象。

Role（角色）

概念介绍

Role（角色）只能对命名空间内的资源进行授权。
一个 Role（角色）就是一组权限的集合，这里的权限都是许可形式的，不存在拒绝的规则。
在一个命名空间中，可以用 Role（角色）来定义一个角色。如果是集群级别的，就需要使用 ClusterRole（集群角色）了。

使用案例

在下面的例子中，定义的 Role（角色）具备读取 Pod 的权限：

apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
  name: pod-reader
  namespace: default
rules:
  - apiGroups: [""]    # 空字符串表示核心 API 组（/api/v1）
    resources: ["pods"]
    verbs: ["get", "watch", "list"]

参数名称	说明	配置示例
`apiGroups`	支持的 API 组列表，用于指定资源所属的 API 组。核心组使用空字符串 `""` 表示。	`"", "apps", "batch", "extensions"`（对应 `apiVersion: v1`、`apps/v1`、`batch/v1` 等）
`resources`	支持的资源对象列表，指定该角色可操作的 Kubernetes 资源类型。	`pods`、`deployments`、`jobs`、`services` 等
`verbs`	对资源对象的操作方法列表，定义允许的具体操作。	`get`、`watch`、`list`、`create`、`update`、`delete`、`patch`、`replace` 等

ClusterRole（集群角色）

概念介绍

ClusterRole（集群角色）除了具备与 Role（角色）在单一命名空间内相同的资源管理能力外，由于其作用域为集群级别，还可用于授权以下几类对象：

集群范围的资源，例如 Node（节点）；
非资源型路径，例如 /healthz；
跨全部命名空间的资源，例如在所有命名空间中的 pods。

使用案例

在下面的例子中，定义的 ClusterRole（集群角色）可以让用户有权访问任意一个或所有命名空间的 Secrets：

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: secret-reader
  # ClusterRole 不受限于命名空间，因此不需要定义 namespace
rules:
  - apiGroups: [""]     # 空字符串表示核心 API 组（/api/v1）
    resources: ["secrets"]
    verbs: ["get", "watch", "list"]

参数名称	说明	配置示例
`apiGroups`	支持的 API 组列表，用于指定资源所属的 API 组。核心组使用空字符串 `""` 表示。	`"", "apps", "batch", "extensions"`（对应 `apiVersion: v1`、`apps/v1`、`batch/v1` 等）
`resources`	支持的资源对象列表，指定该角色可操作的 Kubernetes 资源类型。	`pods`、`deployments`、`jobs`、`services` 等
`verbs`	对资源对象的操作方法列表，定义允许的具体操作。	`get`、`watch`、`list`、`create`、`update`、`delete`、`patch`、`replace` 等

RoleBinding（角色绑定）

核心概念

RoleBinding（角色绑定）用于将一个 Role（角色）绑定到一个指定的主体上，绑定的主体可以是 User（用户）、Group（用户组）或 ServiceAccount（服务账户）。
RoleBinding（角色绑定）的授权范围限定在某个命名空间内，它可以引用同一命名空间中的 Role，为该命名空间内的资源授予相应的访问权限。

使用案例

在下面的例子中，RoleBinding（角色绑定）将在 default 命名空间中将 pod-reader 角色授予用户 jane，可以让 jane 用户读取 default 命名空间里的 Pod：

apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
  name: read-pods
  namespace: default
subjects:
  - kind: User
    name: jane
    apiGroup: rbac.authorization.k8s.io
roleRef:
  kind: Role
  name: pod-reader
  apiGroup: rbac.authorization.k8s.io

参数名称	说明	配置示例
`subjects`	指定要绑定的访问主体，可以是用户（User）、用户组（Group）或服务账户（ServiceAccount）。此处绑定的主体是名为 `jane` 的用户。	`jane`
`roleRef`	指定要绑定的角色，用于定义该主体可执行的权限操作。此处引用的是命名空间内的 `pod-reader` 角色。	`pod-reader`
`namespace`	指定 RoleBinding 所属的命名空间，授权范围仅限于该命名空间内。此处为 `default` 命名空间。	`default`

特别注意

RoleBinding 除了可以引用 Role，还可以引用 ClusterRole，对属于同一命名空间内 ClusterRole 定义的资源主体进行授权。一种常见的做法是 Kubernetes 集群管理员为集群范围预先定义好一组角色（ClusterRole），然后在多个命名空间中重复使用这些 ClusterRole。

在下面的例子中，使用 RoleBinding 绑定 ClusterRole（集群角色）secret-reader，使用户 dave 只能读取 development 命名空间中的 Secret：

apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
  name: read-secrets
  namespace: development
subjects:
  - kind: User
    name: dave
    apiGroup: rbac.authorization.k8s.io
roleRef:
  kind: ClusterRole
  name: secret-reader
  apiGroup: rbac.authorization.k8s.io

配置说明：
- RoleBinding 将集群角色 secret-reader 授权给命名空间 development 中的用户 dave。
- 虽然绑定的是集群角色（ClusterRole），但作用仍限定在 development 命名空间。
- subjects 指定了被授权的主体，roleRef 指定了要绑定的集群角色（ClusterRole）。

ClusterRoleBinding（集群角色绑定）

核心概念

ClusterRoleBinding（集群角色绑定）用于将一个 ClusterRole（集群角色）绑定到一个指定的主体上，绑定的主体可以是 User（用户）、Group（用户组）或 ServiceAccount（服务账户）。
ClusterRoleBinding（集群角色绑定）的授权范围为整个集群，它可以引用任意命名空间中的 ServiceAccount，并为所有命名空间或集群级资源授予相应的访问权限。
ClusterRoleBinding（集群角色绑定）中的角色只能是 ClusterRole（集群角色），不能是 Role（角色），用于执行集群级别或者对所有命名空间都生效的授权操作。

使用案例

在下面的例子中，使用 ClusterRoleBinding 绑定 ClusterRole（集群角色）secret-reader，允许 manager 组的用户读取所有命名空间中的 Secret：

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: read-secrets-global
subjects:
  - kind: Group
    name: manager
    apiGroup: rbac.authorization.k8s.io
roleRef:
  kind: ClusterRole
  name: secret-reader
  apiGroup: rbac.authorization.k8s.io

配置说明：
- ClusterRoleBinding 将集群角色 secret-reader 授权给整个集群中的用户组 manager。
- 授权作用范围为整个集群，不仅限于某个命名空间。
- subjects 指定了被授权的主体，roleRef 指定了要绑定的集群角色（ClusterRole）。

RBAC 对资源的引用方式

多数 Kubernetes 资源可以通过其名称字符串表示，即在 Endpoint 的 URL 相对路径中体现，例如 pods。
某些 Kubernetes API 包含下级资源，例如 Pod 的日志 (logs)。
- 例如，Pod 日志的访问路径为： GET /api/v1/namespaces/{namespaces}/pods/{name}/log。
- 在这个例子中，Pod 是命名空间内的主资源，而 log 是 Pod 的下级资源。

如果要在 RBAC 角色（Role 或 ClusterRole）中体现这种层级关系，需要用斜杠 / 来分隔主资源和下级资源。

例如，如果希望某个主体同时拥有读取 Pod 以及读取 Pod 日志的权限，则可以配置 resources 为一个数组：

apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
  name: pod-and-pod-logs-reader
  namespace: default
rules:
  - apiGroups: [""]                  # 空字符串表示核心 API 组（/api/v1）
    resources: ["pods", "pods/log"]  # 同时包含了主资源 pods 和下级资源 pods/log
    verbs: ["get", "list"]           # 指定该角色允许执行的操作

Kubernetes 资源还可以通过名称（ResourceName）进行引用。

在指定 ResourceName 后，使用 get、delete、update、patch 动词的请求，就会被限制在这个资源实例范围内。

例如，下面的声明可以授权一个主体只能对一个叫 my-configmap 的 ConfigMap 执行 get 和 update 操作：

apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
  name: configmap-updater
  namespace: default
rules:
  - apiGroups: [""]                   # 空字符串表示核心 API 组（/api/v1）
    resources: ["configmaps"]         # resources 应为复数形式，比如 configmaps
    resourceNames: ["my-configmap"]   # 指定作用对象
    verbs: ["update", "get"]          # 指定该角色允许执行的操作

RBAC 中常见的角色定义示例

(1) 允许读取核心 API 组中 Pod 的资源

rules:
  - apiGroups: [""]   # 空字符串表示核心 API 组（/api/v1）
    resources: ["pods"]
    verbs: ["get", "list", "watch"]

(2) 允许读写 extensions 和 apps 两个 API 组中的 deployment 资源

rules:
  - apiGroups: ["extensions", "apps"]
    resources: ["deployments"]
    verbs: ["get", "list", "watch", "create", "update", "patch", "delete"]

(3) 允许读写 pods 及读写 jobs

rules:
  - apiGroups: [""]
    resources: ["pods"]
    verbs: ["get", "list", "watch"]
  - apiGroups: ["batch", "extensions"]
    resources: ["jobs"]
    verbs: ["get", "list", "watch", "create", "update", "patch", "delete"]

(4) 允许读取一个名为 my-config 的 ConfigMap（必须绑定到一个 RoleBinding 来限制到一个命名空间下的 ConfigMap）：

rules:
  - apiGroups: [""]
    resources: ["configmaps"]
    resourceNames: ["my-config"]
    verbs: ["get"]

(5) 允许读取核心 API 组的 Node 资源（Node 属于集群级别的资源，必须放在 ClusterRole 中，并使用 ClusterRoleBinding 进行绑定）：

rules:
  - apiGroups: [""]
    resources: ["nodes"]
    verbs: ["get", "list", "watch"]

(6) 允许对非资源端点 /healthz 及其所有子路径进行 GET / POST 操作（必须使用 ClusterRole 和 ClusterRoleBinding）

1
2
3

rules:
  - nonResourceURLs: ["/healthz", "/healthz/*"]
    verbs: ["get", "post"]

RBAC 中常用的角色绑定示例

绑定用户名 Alice@example.com

subjects:
  - kind: User
    name: "Alice@example.com"
    apiGroup: rbac.authorization.k8s.io

绑定组名 frontend-admins

subjects:
  - kind: Group
    name: "frontend-admins"
    apiGroup: rbac.authorization.k8s.io

绑定 kube-system 命名空间中的默认 Service Account

subjects:
  - kind: Group
    name: system:authentication
    apiGroup: rbac.authorization.k8s.io
  - kind: Group
    name: system:unauthentication
    apiGroup: rbac.authorization.k8s.io

RBAC 中默认的角色和角色绑定

API Server 会创建一套默认的 ClusterRole 和 ClusterRoleBinding 资源对象，其中很多是以 system: 为前缀的，以表明这些资源属于基础架构，对这些对象的改动可能会造成集群故障。所有默认的 ClusterRole 和 RoleBinding 资源对象都会用标签 kubernetes.io/bootstrapping=rbac-defaults 进行标记。

常见的系统角色

默认的 ClusterRole	默认的 ClusterRoleBinding	描述
`system:basic-user`	`system:authenticated` 和 `system:unauthorized` 组	让用户能够读取自身的信息
`system:discovery`	`system:authenticated` 和 `system:unauthorized` 组	对 API 发现 Endpoint 的只读访问，用于 API 级别的发现和协商

常见的用户角色

有些默认角色不是以 system: 为前缀的，这部分角色是针对用户的，其中包含超级用户角色 cluster-admin，有的用于集群一级的角色 cluster-status，还有针对命名空间的角色 admin、edit、view。

默认的 ClusterRole	默认的 ClusterRoleBinding	描述
`cluster-admin`	`system:masters` 组	让超级用户可以对任何资源执行任何操作。如果在 ClusterRoleBinding 中使用，则影响的是整个集群的所有 NameSpace 中的任何资源；如果使用的是 RoleBinding，则能控制这一绑定的 NameSpace 中的资源，还包括 NameSpace 本身
`cluster-status`	None	可以对基础集群状态信息进行只读访问
`admin`	None	允许 `admin` 访问，可以限制在一个 NameSpace 中使用 RoleBinding。如果在 RoleBinding 中使用，则允许对 NameSpace 中的大多数资源进行读写访问，其中包含创建角色和角色绑定的能力。这一角色不允许操作 NameSpace 本身，也不能写入资源限制
`edit`	None	允许对 NameSpace 内的大多数资源进行读写操作，不允许查看或更改角色，以及角色绑定
`view`	None	允许对多数资源对象进行只读操作，但是对角色、角色绑定及 Secret 是不可访问的

核心 Master 组件角色

默认的 ClusterRole	默认的 ClusterRoleBinding	描述
`system:kube-scheduler`	`system:kube-scheduler` 用户	能够访问 kube-scheduler 组件所需的资源
`system:kube-controller-manager`	`system:kube-controller-manager` 用户	能够访问 kube-controller-manager 组件所需的资源
`system:node`	`system:nodes` 组	- 允许访问 kubelet 所需的资源，包括对 Secret 的读取，以及对 Pod 的写入 - 未来会把上面的两个权限限制在分配到本 Node 的对象上 - 今后的鉴权过程，kubelet 必须以 `system:node` 及一个 `system:node` 形式的用户名进行。参看 `https://pr.k8s.io/40476`
`system:node-proxier`	`system:kube-proxy` 用户	允许访问 kube-proxy 所需的资源
`system:kube-scheduler`	`system:kube-scheduler` 用户	能够访问 kube-scheduler 组件所需的资源

RBAC 中预防提权和授权初始化

RBAC API 会拒绝用户通过编辑角色或角色绑定的方式进行提权。这一限制是在 API 层面实现的，因此即使 RBAC 未启用，该限制仍然有效。
用户只能在拥有某个角色的所有权限，且与该角色的生效范围一致的前提下，才能对角色进行创建和更改。例如，用户 user-1 没有列出集群中所有 Secret 的权限，就无法创建具有该权限的 ClusterRole。
要让一个用户能够创建或者更改角色，需要满足以下条件：
- 授予用户一个允许创建 / 更改 Role 或 ClusterRole 资源对象的角色；
- 为用户授予角色时，要覆盖该用户所能控制的所有权限范围。
如果用户尝试创建超出自身权限的 Role 或 ClusterRole，该 API 调用会被拒绝。
如果一个用户的权限包含了某个角色的所有权限，则可以为其创建和更改该角色的绑定；或者，如果用户被授予了针对某个角色的绑定授权，也可以完成此操作。
- 例如，用户 user-1 没有列出集群中所有 Secret 的权限，因此无法为一个具有此权限的角色创建 ClusterRoleBinding。要使用户能够创建或更改该角色绑定，需要：
  - 授予用户一个允许创建和更改 RoleBinding 或 ClusterRoleBinding 的角色；
  - 授予用户绑定某一角色的权限，可以通过两种方式：
    - 隐式：让用户拥有该角色的所有权限；
    - 显式：授予用户针对该角色或 ClusterRoleBinding 的操作权限。
在进行第一个角色和角色绑定时，必须让初始用户具备其尚未被授予的权限，要进行初始的角色和角色绑定设置，有以下两种方法:
- 使用属于 system:masters 组的身份，这一群组默认具有 cluster-admin 这一超级用户角色的绑定；
- 如果 API Server 以 --insecure-port 参数启动，则客户端通过这个非安全端口进行接口调用，这一端口没有认证鉴权的限制。

举个例子，允许用户 user-1 在 user-1-namespace 命名空间中，可以对其他用户授予 admin、edit 及 view 角色

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: role-grantor
rules:
  - apiGroups: ["rbac.authorization.k8s.io"]
    resources: ["rolebindings"]
    verbs: ["create"]
  - apiGroups: ["rbac.authorization.k8s.io"]
    resources: ["clusterroles"]
    verbs: ["bind"]
    resourceNames: ["admin", "edit", "view"]

---

apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
  name: role-grantor-binding
  namespace: user-1-namespace
subjects:
  - kind: User
    name: user-1
    apiGroup: rbac.authorization.k8s.io
roleRef:
  kind: ClusterRole
  name: role-grantor
  apiGroup: rbac.authorization.k8s.io

RBAC 的完整使用演示案例

提示

本节将演示如何在 Kubernetes 集群中使用 RBAC，并通过 CA 证书进行认证（识别身份）。
Kubernetes 集群要启用 RBAC 授权模式，需要在 API Server 的启动参数中添加 --authorization-mode=RBAC。

(1) 创建命名空间

创建命名空间

1	kubectl create ns roledemo

查看所有命名空间

1	kubectl get ns

NAME              STATUS   AGE
default           Active   83d
kube-flannel      Active   81d
kube-node-lease   Active   83d
kube-public       Active   83d
kube-system       Active   83d
roledemo          Active   111m

(2) 创建 Deployment

通过 YAML 文件（比如 nginx-deploy.yaml）创建 Deployment（用于创建和管理 Pod）

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deploy
  namespace: roledemo     # 指定命名空间
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx-pod
  template:
    metadata:
      labels:
        app: nginx-pod
    spec:
      containers:
        - name: nginx
          image: nginx:1.15
          ports:
            - containerPort: 80

1 2	# 创建或更新 YAML 文件中定义的 Deployment 对象 kubectl apply -f nginx-deploy.yaml

查看特定命名空间内的所有 Pod

1	kubectl get pods -n roledemo

1 2	NAME READY STATUS RESTARTS AGE nginx-deploy-85b7dd6b6d-29gs6 1/1 Running 0 16s

(3) 创建 Role（角色）

通过 YAML 文件（比如 role-demo.yaml）创建 Role（角色）

apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
  namespace: roledemo     # 指定命名空间
  name: pod-reader
rules:
- apiGroups: [""]                     # 空字符串表示核心 API 组（/api/v1）
  resources: ["pods"]                 # resources 应为复数形式，比如 pods
  verbs: ["get", "watch", "list"]     # 指定该角色允许执行的操作

1 2	# 创建或更新 YAML 文件中定义的 Role 对象 kubectl apply -f role-demo.yaml

查看特定命名空间内的所有 Role（角色）

1	kubectl get roles -n roledemo

1 2	NAME CREATED AT pod-reader 2025-10-08T11:47:10Z

(4) 创建 RoleBinding（角色绑定）

通过 YAML 文件（比如 rolebinding-demo.yaml）创建 RoleBinding（角色绑定）

apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
  name: read-pods
  namespace: roledemo     # 指定命名空间
subjects:
- kind: User
  name: mary
  apiGroup: rbac.authorization.k8s.io
roleRef:
  kind: Role
  name: pod-reader
  apiGroup: rbac.authorization.k8s.io

1 2	# 创建或更新 YAML 文件中定义的 RoleBinding（角色绑定） kubectl apply -f rolebinding-demo.yaml

查看特定命名空间内的所有 RoleBinding（角色绑定）

1	kubectl get rolebindings -n roledemo

1 2	NAME ROLE AGE read-pods Role/pod-reader 2m43s

(5) 基于 CFSSL 生成 CA 证书

创建 ca-config.json 文件

{
  "signing": {
      "default": {
          "expiry": "87600h"
      },
      "profiles": {
          "kubernetes": {
              "expiry": "87600h",
              "usages": [
                  "signing",
                  "key encipherment",
                  "server auth",
                  "client auth"
              ]
          }
      }
  }
}

创建 ca-csr.json 文件

{
    "CN": "kubernetes",
    "key": {
        "algo": "rsa",
        "size": 2048
    },
    "names": [
        {
            "C": "CN",
            "L": "Beijing",
            "ST": "Beijing",
            "O": "k8s",
            "OU": "System"
        }
    ]
}

创建 mary-csr.json 文件

{
  "CN": "mary",
  "hosts": [],
  "key": {
    "algo": "rsa",
    "size": 2048
  },
  "names": [
    {
      "C": "CN",
      "L": "BeiJing",
      "ST": "BeiJing"
    }
  ]
}

拷贝 Kubernetes 集群搭建时所创建的 CA 证书（包括 ca.pem 和 ca-key.pem），请自行更改 CA 证书的路径

1	cp /opt/kubernetes/ssl/ca* .

查看当前目录下的文件列表（最重要的是 ca-key.pem、ca.pem 文件）

ls .

1	ca-config.json ca-csr.json ca-key.pem ca.pem mary-csr.json nginx-deploy.yaml rolebinding-demo.yaml role-demo.yaml

通过 CFSSL 工具生成 CA 证书

1	cfssl gencert -ca=ca.pem -ca-key=ca-key.pem -config=ca-config.json -profile=kubernetes mary-csr.json \| cfssljson -bare mary

查看当前目录下的文件列表（最重要的是新生成的 mary.csr、mary-key.pem、mary.pem 文件）

ls .

1	ca-config.json ca-csr.json ca-key.pem ca.pem mary.csr mary-csr.json mary-key.pem mary.pem nginx-deploy.yaml rolebinding-demo.yaml role-demo.yaml

(6) 为用户创建一个独立的 kubeconfig 配置文件

定义集群连接信息（API Server 地址 + CA 证书），请自行将 192.168.2.191 更改为 API Server 的 IP 地址

kubectl config set-cluster kubernetes \
  --certificate-authority=ca.pem \
  --embed-certs=true \
  --server=https://192.168.2.191:6443 \
  --kubeconfig=mary-kubeconfig

配置用户身份（客户端证书和私钥）

kubectl config set-credentials mary \
  --client-key=mary-key.pem \
  --client-certificate=mary.pem \
  --embed-certs=true \
  --kubeconfig=mary-kubeconfig

将集群与用户 mary 绑定成一个上下文

kubectl config set-context default \
  --cluster=kubernetes \
  --user=mary \
  --kubeconfig=mary-kubeconfig

切换到 default 上下文，使后续 kubectl 命令能够以用户 mary 的身份访问集群

1	kubectl config use-context default --kubeconfig=mary-kubeconfig

查看当前目录下的文件列表（最重要的是新生成的 mary-kubeconfig 文件）

ls .

1	ca-config.json ca-csr.json ca-key.pem ca.pem mary.csr mary-csr.json mary-key.pem mary-kubeconfig mary.pem nginx-deploy.yaml rolebinding-demo.yaml role-demo.yaml

查看凭证（用户）信息

1	kubectl --kubeconfig=mary-kubeconfig config view --minify

apiVersion: v1
clusters:
- cluster:
    certificate-authority-data: DATA+OMITTED
    server: https://192.168.2.191:6443
  name: kubernetes
contexts:
- context:
    cluster: kubernetes
    user: mary
  name: default
current-context: default
kind: Config
preferences: {}
users:
- name: mary
  user:
    client-certificate-data: REDACTED
    client-key-data: REDACTED

(7) 验证 RBAC 控制是否生效

验证用户是否可以访问已被允许的资源，正常情况下用户 mary 可以在命名空间 roledemo 下列出或者查看 Pod

1	kubectl get pods -n roledemo --kubeconfig=mary-kubeconfig

1 2	NAME READY STATUS RESTARTS AGE nginx-deploy-85b7dd6b6d-29gs6 1/1 Running 1 18h

验证用户是否可以越权访问其他命名空间的资源，正常情况下用户 mary 不可以在其他命名空间（比如 default）下列出或者查看 Pod

1	kubectl get pods -n default --kubeconfig=mary-kubeconfig

1	Error from server (Forbidden): pods is forbidden: User "mary" cannot list resource "pods" in API group "" in the namespace "default"

验证用户是否可以执行未被允许的操作（例如，删除 Pod），正常情况下用户 mary 不能执行删除 Pod 的操作

1	kubectl delete pod nginx-deploy-85b7dd6b6d-29gs6 -n roledemo --kubeconfig=mary-kubeconfig

1	Error from server (Forbidden): pods "nginx-deploy-85b7dd6b6d-29gs6" is forbidden: User "mary" cannot delete resource "pods" in API group "" in the namespace "roledemo"

通过 API Server + CA 证书直接验证用户身份，如果身份验证失败，可以添加 -v 参数让 curl 命令输出详细的日志信息来排查问题

1	curl --cert ./mary.pem --key ./mary-key.pem --cacert ./ca.pem https://192.168.2.191:6443/api/v1/namespaces/roledemo/pods

1 2	# 或者，curl 命令加上 -v 参数，输出详细的日志信息 curl -v --cert ./mary.pem --key ./mary-key.pem --cacert ./ca.pem https://192.168.2.191:6443/api/v1/namespaces/roledemo/pods

Kubernetes 中实现 Nginx 配置信息自动热加载

2025-10-05T13:12:19.000Z

Nginx 配置信息自动热加载

在生产环境中，Nginx 的配置信息通常是通过 Kubernetes 的 ConfigMap 进行存储和管理。为了在 ConfigMap 更新后，让 Nginx 自动加载最新的配置信息（即热加载，不会重启 Pod，不会中断现有请求），可以采用以下几种方案：

方案序号	方案名称	Nginx 是否可以直接 Reload	优点	缺点
方案一	容器之间共享进程命名空间	可以	简单有效	依赖 `shareProcessNamespace`（共享进程命名空间），容器间进程可见，安全性较低
方案二	部署 Reload Agent	可以	安全隔离	实现复杂一点

方案选择建议

如果是在开发或测试环境中简单实现 Nginx 配置信息自动热加载，推荐使用方案一（容器之间共享进程命名空间）。
如果是在生产环境中实现 Nginx 配置信息自动热加载，推荐使用方案二（部署 Reload Agent），避免跨容器进程控制，隔离性更好。

Secret 热更新

在 Kubernetes 中，如果使用 Secret 来管理密码、证书、Token 等敏感信息，同样可以使用文中介绍的两种方案来实现 Secret 自动热更新，只需要简单更改对应的 YAML 配置文件（Volume 挂载的配置内容）即可。
这是因为 Secret 与 ConfigMap 的使用方式基本是一致的，都可以使用 Volume（卷）的方式将其挂载到 Pod 容器中。

实现方案一

方案介绍

使用 ConfigMap + 共享进程命名空间实现 Nginx 配置信息自动热加载，其工作机制和特点如下：

方案原理：
- 主容器（Nginx）
  - 负责运行 Nginx；
  - 将 ConfigMap 挂载到 /etc/nginx/conf.d 目录；
  - 不负责监测配置变更，也不额外运行 Reload Agent 服务。
- Sidecar 容器（Reloader）
  - 与主容器（Nginx）共享同一个进程命名空间（通过 shareProcessNamespace: true 实现）；
  - 将 ConfigMap 挂载到 /etc/nginx/conf.d 目录，并监测该目录的文件变更；
  - 一旦监测到文件发生变更，立刻向 Nginx 的 Master 进程发送 kill -HUP 信号，触发配置热加载。
方案特点：
- 支持通过 ConfigMap 实现 Nginx 配置信息自动热加载，无需重启 Pod；
- 依赖 shareProcessNamespace 特性，使 Sidecar 容器能直接访问主容器（Nginx）的进程；
- 实现简单，无需在主容器中暴露 HTTP 接口或额外的 Reload Agent；
- 进程空间共享带来一定的安全隐患（Sidecar 容器可直接操作主容器的进程）；
- 不易与外部系统（如 CI/CD、Webhook）直接集成，触发方式较固定；
- 适合轻量级场景或内部环境下使用，不建议在高安全要求的生产环境中采用。

实现步骤

创建 YAML 配置文件（比如 nginx-reload.yaml），由于 Pod 支持多个容器共享同一个进程命名空间（依赖 shareProcessNamespace 特性），因此在这种模式下，Sidecar 容器就能看到并操作主容器（Nginx）的进程

# 定义 ConfigMap
apiVersion: v1
kind: ConfigMap
metadata:
  name: nginx-config
data:
  default.conf: |
    server {
      listen 80;
      location / {
        return 200 "Hello from ConfigMap.\n";
      }
    }
---
# 定义 Service
apiVersion: v1
kind: Service
metadata:
  name: nginx-hotreload
spec:
  type: NodePort         # Service 类型为 NodePort，可通过节点 IP 访问
  selector:
    app: nginx-hotreload
  ports:
    - port: 80           # Service 对外暴露的端口，集群内部访问时也可以使用该端口
      targetPort: 80     # Pod 内容器实际监听的端口
      nodePort: 30080    # 映射到物理机的端口号，默认范围 30000 - 32767
---
# 定义 Deployment 
apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-hotreload
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx-hotreload
  template:
    metadata:
      labels:
        app: nginx-hotreload
    spec:
      # 共享进程命名空间
      shareProcessNamespace: true
      containers:
      # 主容器：用于运行 Nginx
      - name: nginx
        image: nginx:1.15
        ports:
        - containerPort: 80
        volumeMounts:
        - name: nginx-config-cm
          mountPath: /etc/nginx/conf.d
      # Sidecar 容器：用于监控文件变更，并 Reload Nginx
      - name: reloader
        image: alpine:3.19
        command: ["/bin/sh", "-c"]
        args:
          - |
            echo "$(date '+%F %T') [INFO] Starting config reloader ..."
            # 计算初始配置的 md5sum
            last_sum=$(find /etc/nginx/conf.d -type f -exec md5sum {} + | sort | md5sum)
            while true; do
              new_sum=$(find /etc/nginx/conf.d -type f -exec md5sum {} + | sort | md5sum)
              # 判断配置是否已更新
              if [ "$new_sum" != "$last_sum" ]; then
                echo "$(date '+%F %T') [INFO] Config change detected, reloading nginx ..."
                # 获取 Nginx Master 进程的 PID
                nginx_pid=$(ps | grep "nginx: master process" | grep -v grep | awk '{print $1}')
                if [ -n "$nginx_pid" ]; then
                  echo "$(date '+%F %T') [INFO] Reload nginx (master pid: $nginx_pid)"
                  kill -HUP $nginx_pid || echo "$(date '+%F %T') [WARN] Failed to send HUP"
                else
                  echo "$(date '+%F %T') [WARN] Nginx master pid not found"
                fi
                last_sum="$new_sum"
              fi
              sleep 5
            done
        volumeMounts:
        - name: nginx-config-cm
          mountPath: /etc/nginx/conf.d
      # 定义卷（Volume）
      volumes:
      - name: nginx-config-cm     # 指定卷的名称
        configMap:                # 指定卷的类型为 ConfigMap
          name: nginx-config      # 指定引用的 ConfigMap 名称（需事先创建）

创建或更新 YAML 文件中定义的资源对象

1 2	# 创建 ConfigMap 和 Deployment kubectl apply -f nginx-reload.yaml

关键点

shareProcessNamespace: true：表示整个 Pod 里面的所有容器共享同一个进程命名空间。
因此，在 Sidecar 容器中，可以直接看到并控制主容器（Nginx）的进程，比如 PID 为 11 的 Nginx Master 进程。
命令 kill -HUP 与 nginx -s reload 的效果在 Nginx 中是等价的，两者都会触发 Nginx 热加载（Reload）配置文件。
对于 kill -HUP 命令，这里必须使用 Nginx Master 进程的 ID，而不是 Worker 进程的 ID，否则无法实现 Nginx 平滑更新配置文件（不中断请求）。

验证步骤

验证 Nginx 配置信息自动热加载的步骤

1 2	# 查看 Service 列表 kubectl get svc

1
2
3

NAME              TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)        AGE
kubernetes        ClusterIP   10.0.0.1             443/TCP        66d
nginx-hotreload   NodePort    10.0.0.96            80:30080/TCP   25s

1 2	# 查看 Pod 的运行状态 kubectl get pods -o wide

1 2	NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES nginx-hotreload-6646755fcf-bq26b 2/2 Running 0 38s 10.244.1.32 k8s-node1

1 2	# 查看 Sidecar 容器的日志 kubectl logs nginx-hotreload-6646755fcf-bq26b -c reloader

1	2025-10-05 10:03:24 [INFO] Starting config reloader ...

# 进入 Sidecar 容器内部
kubectl exec -it nginx-hotreload-6646755fcf-bq26b -c reloader sh

# 查看 Nginx 的进程列表
for pid in /proc/[0-9]*; do name=$(cat $pid/comm 2>/dev/null) || continue; [ "$name" = "nginx" ] || continue; type=$(tr '\0' ' ' < $pid/cmdline 2>/dev/null | grep -q "master process" && echo master || echo worker); echo "$name $type $pid"; done

1 2	nginx master /proc/11 nginx worker /proc/16

1 2	# 在集群外部通过节点 IP 访问 Nginx wget -qO- http://192.168.2.112:30080

1	Hello from ConfigMap.

1 2	# 更改 ConfigMap kubectl create configmap nginx-config --from-literal=default.conf="server { listen 80; return 200 'Updated ConfigMap.\n'; }" --dry-run=client -o yaml \| kubectl apply -f -

1 2	# 等待约 60 秒后，再次查看 Sidecar 容器的日志 kubectl logs nginx-hotreload-6646755fcf-bq26b -c reloader

1
2
3

2025-10-05 10:16:32 [INFO] Starting config reloader ...
2025-10-05 10:19:02 [INFO] Config change detected, reloading nginx ...
2025-10-05 10:19:02 [INFO] Reload nginx (master pid: 11)

1 2	# 在集群外部再次通过节点 IP 访问 Nginx wget -qO- http://192.168.2.112:30080

1	Updated ConfigMap.

实现方案二

方案介绍

使用 ConfigMap + 部署 Reload Agent 实现 Nginx 配置信息自动热加载，其工作机制和特点如下：

方案概述：
- 有时为了更安全，会在 Nginx 容器中部署一个小的 Reload Agent，例如：
  - 在 Nginx 容器里部署一个轻量级 API 服务（比如，基于 Python 开发一个简易的 Web 服务）；
  - 当 Sidecar 容器监测到 ConfigMap 挂载的文件发生变更时，通过 curl http://localhost:8080/reload 调用 Reload Agent 的 API 服务；
  - Reload Agent 接收到 Reload 请求后，内部会执行 nginx -s reload 或者 kill -HUP 触发 Nginx 热加载。
方案原理：
- 主容器（Nginx）
  - 负责运行 Nginx；
  - 将 ConfigMap 挂载到 /etc/nginx/conf.d 目录；
  - 额外部署一个轻量级 API 服务（Reload Agent），监听 8080 端口；
  - 当接收到 /reload 请求时，执行 nginx -s reload 或者 kill -HUP 让 Nginx 重新加载配置文件。
- Sidecar 容器（Reloader）
  - 将 ConfigMap 挂载到 /etc/nginx/conf.d 目录；
  - 监测 /etc/nginx/conf.d 目录中的文件更改；
  - 当监测到有配置更改后，通过 HTTP 协议调用 Reload Agent 的 API 接口 http://127.0.0.1:8080/reload，触发 Nginx 热加载。
方案特点：
- 支持通过 ConfigMap 实现 Nginx 配置信息自动热加载，无需重启 Pod；
- 不依赖 shareProcessNamespace，容器进程空间隔离（安全性更高）；
- 结构清晰，便于与 CI/CD 或外部触发器集成；
- 可扩展为 Webhook 式控制（比如在 GitOps 更新配置后自动触发 Reload）；
- 适合在高安全要求的生产环境下使用。

特别注意

为了方便演示，在下面的 Reloader Agent 实现中，使用 Linux Socket 通信来替代 HTTP 接口。由于需要在容器之间通过 Volume（卷）共享 Socket 文件，因此生产环境推荐使用 HTTP 接口来实现 Reloader Agent，而不是 Linux Socket 通信。

实现步骤

创建 YAML 配置文件（比如 nginx-hotreload.yaml）

# 定义 ConfigMap
apiVersion: v1
kind: ConfigMap
metadata:
  name: nginx-config
data:
  default.conf: |
    server {
      listen 80;
      location / {
        return 200 "Hello from ConfigMap.\n";
      }
    }
---
# 定义 Service
apiVersion: v1
kind: Service
metadata:
  name: nginx-hotreload
spec:
  type: NodePort         # Service 类型为 NodePort，可通过节点 IP 访问
  selector:
    app: nginx-hotreload
  ports:
    - port: 80           # Service 对外暴露的端口，集群内部访问时也可以使用该端口
      targetPort: 80     # Pod 内容器实际监听的端口
      nodePort: 30080    # 映射到物理机的端口号，默认范围 30000 - 32767
---
# 定义 Deployment
apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-hotreload
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx-hotreload
  template:
    metadata:
      labels:
        app: nginx-hotreload
    spec:
      containers:
      # 主容器：用于运行 Nginx + Reload Agent
      - name: nginx
        image: nginx:1.15
        ports:
        - containerPort: 80
        command: ["/bin/sh", "-c"]
        args:
          - |
            # 创建共享运行目录
            mkdir -p /var/run/nginx
            # 创建 Socket 文件
            SOCKET=/var/run/nginx/nginx-reload.sock
            rm -f $SOCKET
            mkfifo $SOCKET
            # 启动 Nginx
            echo "$(date '+%F %T') [INFO] Starting Nginx ..."
            nginx -g 'daemon off;' &
            echo "$(date '+%F %T') [INFO] Reload agent started, listening on $SOCKET"
            # 监听 Sidecar 发来的 Reload 请求
            while true; do
              if read line < $SOCKET; then
                echo "$(date '+%F %T') [INFO] Reload request received from Sidecar"
                # 先校验配置文件
                if nginx -t -q; then
                  echo "$(date '+%F %T') [INFO] Nginx config test passed"
                  # 检查 PID 文件
                  if [ -f /var/run/nginx.pid ]; then
                    kill -HUP $(cat /var/run/nginx.pid)
                    echo "$(date '+%F %T') [INFO] Nginx reloaded successfully"
                  else
                    echo "$(date '+%F %T') [WARN] file nginx.pid not found"
                  fi
                else
                  echo "$(date '+%F %T') [ERROR] Invalid nginx config, skipping reload"
                fi
              fi
            done
        volumeMounts:
        - name: nginx-config-cm
          mountPath: /etc/nginx/conf.d
        - name: nginx-run
          mountPath: /var/run/nginx
      # Sidecar 容器：用于监控文件变更，并发送 Reload 请求
      - name: reloader
        image: alpine:3.19
        command: ["/bin/sh", "-c"]
        args:
          - |
            echo "$(date '+%F %T') [INFO] Starting config reloader ..."
            last_sum=""
            while true; do
              new_sum=$(find /etc/nginx/conf.d -type f -exec md5sum {} + | sort | md5sum)
              if [ -z "$last_sum" ]; then
                last_sum="$new_sum"
              elif [ "$new_sum" != "$last_sum" ]; then
                echo "$(date '+%F %T') [INFO] Config change detected, reloading nginx ..."
                if [ -p /var/run/nginx/nginx-reload.sock ]; then
                  echo "reload" > /var/run/nginx/nginx-reload.sock
                else
                  echo "$(date '+%F %T') [WARN] file nginx-reload.sock not found"
                fi
                last_sum="$new_sum"
              fi
              sleep 5
            done
        volumeMounts:
        - name: nginx-config-cm
          mountPath: /etc/nginx/conf.d
        - name: nginx-run
          mountPath: /var/run/nginx
      # 定义卷（Volume）
      volumes:
      - name: nginx-config-cm     # 指定卷的名称
        configMap:                # 指定卷的类型为 ConfigMap
          name: nginx-config      # 指定引用的 ConfigMap 名称（需事先创建）
      - name: nginx-run           # 指定卷的名称
        emptyDir: {}              # 共享运行目录（用于存放 nginx-reload.sock 文件）

创建或更新 YAML 文件中定义的资源对象

1 2	# 创建 ConfigMap 和 Deployment kubectl apply -f nginx-hotreload.yaml

关键点

Nginx 默认使用的是 /var/run/nginx.pid 文件，该文件的内容就是 Nginx Master 进程的 ID。
命令 kill -HUP 与 nginx -s reload 的效果在 Nginx 中是等价的，两者都会触发 Nginx 热加载（Reload）配置文件。
对于 kill -HUP 命令，这里必须使用 Nginx Master 进程的 ID，而不是 Worker 进程的 ID，否则无法实现 Nginx 平滑更新配置文件（不中断请求）。

验证步骤

验证 Nginx 配置信息自动热加载的步骤

1 2	# 查看 Service 列表 kubectl get svc

1
2
3

NAME              TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)        AGE
kubernetes        ClusterIP   10.0.0.1             443/TCP        66d
nginx-hotreload   NodePort    10.0.0.126           80:30080/TCP   59s

1 2	# 查看 Pod 的运行状态 kubectl get pods -o wide

1 2	NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES nginx-hotreload-9d56b494b-vbkhv 2/2 Running 0 74s 10.244.0.39 k8s-node2

1 2	# 查看 Nginx 容器的日志 kubectl logs nginx-hotreload-9d56b494b-vbkhv -c nginx

1 2	2025-10-05 10:26:53 [INFO] Starting Nginx ... 2025-10-05 10:26:53 [INFO] Reload agent started, listening on /var/run/nginx/nginx-reload.sock

1 2	# 查看 Sidecar 容器的日志 kubectl logs nginx-hotreload-9d56b494b-vbkhv -c reloader

1	2025-10-05 09:42:50 [INFO] Starting config reloader ...

1 2	# 在集群外部通过节点 IP 访问 Nginx wget -qO- http://192.168.2.131:30080

1	Hello from ConfigMap.

1 2	# 更改 ConfigMap kubectl create configmap nginx-config --from-literal=default.conf="server { listen 80; return 200 'Updated ConfigMap.\n'; }" --dry-run=client -o yaml \| kubectl apply -f -

1 2	# 等待约 60 秒后，再次查看 Sidecar 容器的日志 kubectl logs nginx-hotreload-9d56b494b-vbkhv -c reloader

1 2	2025-10-05 10:26:53 [INFO] Starting config reloader ... 2025-10-05 10:32:09 [INFO] Config change detected, reloading nginx ...

1 2	# 等待约 60 秒后，再次查看 Nginx 容器的日志 kubectl logs nginx-hotreload-9d56b494b-vbkhv -c nginx

2025-10-05 10:26:53 [INFO] Reload agent started, listening on /var/run/nginx/nginx-reload.sock
2025-10-05 10:32:09 [INFO] Reload request received from Sidecar
2025-10-05 10:32:09 [INFO] Nginx config test passed
2025-10-05 10:32:09 [INFO] Nginx reloaded successfully

1 2	# 在集群外部再次通过节点 IP 访问 Nginx wget -qO- http://192.168.2.131:30080

1	Updated ConfigMap.

方案补充说明

如果更新 ConfigMap 后不要求 Nginx 进行热加载，且可以接受 Pod 重启或者 Nginx 中断现有请求，那么可以手动触发 Deployment 的滚动重启，例如执行命令 kubectl rollout restart deployment 。Pod 重启后，Nginx 会自动加载最新的配置。
更推荐使用自动检测 ConfigMap 变更的方案（更高级），例如借助 Stakater Reloader 等第三方工具监控 ConfigMap 的变化。一旦检测到更新，就会自动触发相关 Pod 的滚动更新，从而确保配置自动生效。

参考资料

Kubernetes 入门教程之六

2025-09-17T13:12:19.000Z

大纲

Kubernetes 核心技术

Probe

为了监控容器的运行状态，Kubernetes 提供了探针（Probe）。

Probe 的类型

Kubernetes 提供了三种类型的探针：Liveness Probe（存活探针）、Readiness Probe（就绪探针）、Startup Probe（启动探针）。

Liveness Probe

Liveness Probe（存活探针）用于判断容器是否处于健康状态，即 Pod 是否真正处于 Running 状态。如果 Liveness Probe 探测到容器不健康，kubelet 会将该容器 Kill 掉，并根据 Pod 的重启策略决定是否重启它。Liveness Probe 可用于修复死锁、无响应的应用（如数据库卡死）。如果容器未配置 Liveness Probe，kubelet 会默认认为其探测结果始终为成功。在实际场景中，应用程序可能由于某些原因（例如后端服务故障）暂时无法对外提供服务，但进程本身仍在运行。这种情况下，Kubernetes 无法识别并隔离这个有故障的 Pod，调用方仍可能访问到该 Pod，导致业务不稳定。为解决这一问题，Kubernetes 提供了 Liveness Probe 来检测应用程序的运行健康状况，并在检测到异常时执行相应的补救措施，例如重启容器，以保证系统的整体稳定性。Liveness Probe 的配置示例如下：

livenessProbe:
  exec:
    command: ["cat", "/tmp/healthy"]  # 执行命令检查文件是否存在
  initialDelaySeconds: 5              # 容器启动后等待5秒开始检查
  periodSeconds: 5                    # 每5秒检查一次
  failureThreshold: 3                 # 连续失败3次后判定为不健康

Readiness Probe

Readiness Probe（就绪探针）用于判断容器是否已经启动完成并能够对外提供服务，即容器的 Ready 状态是否为 true。如果 Readiness Probe 探测失败，容器的 Ready 状态会被置为 False，Kubernetes 控制器会将该 Pod 的 Endpoint 从对应 Service 的 Endpoint 列表中移除，从而停止将任何请求调度到该 Pod，直到下一次探测成功为止。Readiness Probe 可用于控制流量进入（如应用启动时需要加载大量数据，导致容器启动后无法立刻对外提供服务）。通过 Readiness Probe，Kubernetes 可以在应用完全就绪之前，阻止流量被路由到尚未准备好的 Pod 副本，确保服务稳定性。例如，对于基于 Tomcat 的应用来说，Tomcat 进程启动成功并不代表应用可以立即对外提供服务，可能还需要等待 Spring 容器初始化、数据库连接建立等操作完成。在 Spring Boot 应用中，可以使用 Actuator 提供的 /health 接口作为 Readiness Probe 的检测目标，用于判断应用是否已经准备好对外提供服务。Readiness Probe 的配置示例如下：

readinessProbe:
  httpGet:
    path: /healthz                    # 发送 HTTP 请求进行检测
    port: 8080
  initialDelaySeconds: 10             # 容器启动后等待10秒开始检查
  periodSeconds: 3                    # 每3秒检查一次
  successThreshold: 1                 # 成功1次即标记为就绪

Startup Probe

Startup Probe（启动探针）是在 Kubernetes 1.16+ 版本中引入的，主要用于检测慢启动应用是否完成初始化。在 Startup Probe 检测成功之前，Liveness Probe 和 Readiness Probe 都不会生效；从而避免因应用启动过慢，被存活探针或就绪探针误判为异常并提前终止容器。Startup Probe 非常适合启动时间较长的应用，例如 Java / SpringBoot 应用、需要加载大量数据或复杂初始化逻辑的服务。通过配置合适的 Startup Probe，可以为应用提供足够的启动缓冲时间，确保在应用真正完成初始化之前，Kubernetes 不会对其进行健康检查或流量调度，从而保证系统的稳定性。Startup Probe 的配置示例如下：

startupProbe:
  httpGet:
    path: /actuator/health             # Spring Boot 健康检查端点
    port: 8080
  failureThreshold: 30                 # 允许的最大失败次数
  periodSeconds: 10                    # 每10秒检查一次

Probe 的核心参数

探针（Probe）可配置的核心参数（用于精确控制探针的行为）

参数	作用	默认值	最小值	适用探针类型
`initialDelaySeconds`	容器启动后，等待多少秒才开始第一次执行探测，避免容器未完成启动就被误判为失败。	0 秒	0 秒	liveness、readiness、startup
`periodSeconds`	探测的执行频率，即两次探测之间的间隔时间。	10 秒	1 秒	liveness、readiness
`timeoutSeconds`	单次探测的超时时间，超过该时间未响应则判定为探测失败。	1 秒	1 秒	liveness、readiness
`failureThreshold`	探测成功后，连续失败多少次才会被认定为容器不健康。	3	1	liveness、readiness、startup
`successThreshold`	对于已标记为不健康的容器，需要连续成功多少次才会重新标记为健康。对于 Liveness Probe，该值必须为 `1`。	1	1	liveness、readiness

Probe 的检测方法

Kubernetes 的三类探针都支持以下三种检测方法

检测方法	说明	配置示例
`exec`	- 在容器内执行命令，返回状态码为 `0` 表示检测成功。 - 适用于复杂检测逻辑或没有 HTTP 接口的服务。	`command: ["cat", "/tmp/healthy"]`
`httpGet`	- 通过发送 HTTP 请求检查服务是否正常。 - 返回状态码 `200 ~ 399` 表示检测成功。	`httpGet: { path: /health, port: 80 }`
`tcpSocket`	- 通过容器 IP + 端口建立 TCP 连接， - 连接成功，即表示容器健康。	`tcpSocket: { port: 3306 }`

Probe 的检测结果

探针（Probe）的三种检测结果状态

检测结果状态	说明
`Success`	容器通过检查，状态正常。
`Failure`	容器未通过检查，状态异常。
`Unknown`	无法执行检查，因此不采取任何措施。

Pod 的重启策略有以下三种（如果 Liveness Probe 探测到容器不健康，kubelet 会将该容器 Kill 掉，并根据 Pod 的重启策略决定是否重启它）

重启策略	说明
`Always`	默认值，当容器退出时，总是由 kubelet 自动重启该容器（适用于长期运行的 Pod，如 Web 服务）。
`OnFailure`	仅在容器异常退出（非 0 状态码）时，由 kubelet 自动重启该容器（适合批处理任务）。
`Never`	无论容器如何退出，kubelet 都不会重启该容器（适合一次性任务）。

apiVersion: v1
kind: Pod
metadata:
  name: mynginx
spec:
  containers:
  - name: nginx
    image: nginx:1.14
    imagePullPolicy: Always
  restartPolicy: OnFailure  # Pod 的重启策略

Probe 的使用示例

基于 Liveness Probe（存活探针）检测容器健康

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: liveness
  name: liveness-exec
spec:
  containers:
  - name: liveness
    image: busybox
    args:
    - /bin/sh
    - -c
    - touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy
    # 存活检查
    livenessProbe:
      exec:
        command:
        - cat
        - /tmp/healthy
      initialDelaySeconds: 5
      periodSeconds: 5

存活探针、就绪探针二者配合使用

apiVersion: v1
kind: Pod
metadata:
  name: goproxy
  labels:
    app: goproxy
spec:
  containers:
    - name: goproxy
      image: k8s.gcr.io/goproxy:0.1
      ports:
        - containerPort: 8080      # 容器内应用（比如 Goproxy）监听的端口
      # 存活检查
      livenessProbe:
        tcpSocket:
          port: 8080
        initialDelaySeconds: 15
        periodSeconds: 20
      # 就绪检查
      readinessProbe:
        tcpSocket:
          port: 8080
        initialDelaySeconds: 5
        periodSeconds: 10

启动探针、存活探针和就绪探针三者配合使用

apiVersion: v1
kind: Pod
metadata:
  name: springboot-app
spec:
  containers:
  - name: app
    image: my-springboot-app:latest
    ports:
    - containerPort: 8080      # 容器内应用（比如 Tomcat）监听的端口
    # 启动探针（给予充足启动时间）
    startupProbe:
      httpGet:
        path: /actuator/health
        port: 8080
      failureThreshold: 30
      periodSeconds: 10
    # 存活检查（启动探针成功后生效）
    livenessProbe:
      httpGet:
        path: /actuator/health
        port: 8080
      periodSeconds: 10
      timeoutSeconds: 3
    # 就绪检查（启动探针成功后生效）
    readinessProbe:
      httpGet:
        path: /actuator/health/readiness
        port: 8080
      initialDelaySeconds: 5
      periodSeconds: 5

调度器

调度器的概述

一个容器平台的核心功能是为容器分配运行所需的计算、存储和网络资源。其中，容器调度系统负责在最合适的主机上启动容器，并将相关容器进行关联。它必须能够自动处理容器故障，并在应用访问量增加时，自动在更多主机上启动容器以应对扩展需求。目前，主流的三大容器平台 Swarm、Mesos 和 Kubernetes 各自拥有不同的调度系统：

Swarm：直接调度 Docker 容器，并提供与标准 Docker API 一致的接口，使用起来较为简单。
Mesos：采用多框架并行的调度模型，不同运行框架拥有相对独立的调度系统。其中，Marathon 框架对 Docker 容器提供了原生支持。
Kubernetes：引入 Pod 和 Label 的概念，将一组有依赖关系的容器组合成一个逻辑单元 Pod，并以 Pod 为基本单位进行部署和调度。同时，多个 Pod 可以通过 Service 形成一个完整的服务。

Kubernetes 通过这种抽象，简化了集群范围内相关容器的共同调度和管理复杂度。从另一个角度看，这种设计使得 Kubernetes 更容易实现功能更强大、逻辑更复杂的容器调度算法，这也是其与 Swarm 和 Mesos 的主要区别所在。

K8s 的资源分类

Kubernetes 调度器作为整个集群的 “大脑”，在提升集群资源利用率和保障服务稳定运行方面起着至关重要的作用，其重要性也会随着集群规模和复杂度的提升而不断增加。在 Kubernetes 中，资源可分为两类：

可压缩资源（Compressible Resources）
- 这类资源可以被限制或回收，例如 CPU 周期、磁盘 I/O 带宽等。
- 当 Pod 资源不足时，Kubernetes 可以通过降低资源分配的方式来限制 Pod 对这些资源的使用，而无需直接杀掉 Pod。
不可压缩资源（Incompressible Resources）
- 这类资源一旦被 Pod 占用，除非终止 Pod，否则无法回收，例如内存、硬盘空间等。
- 当 Pod 占用不可压缩资源过多且无法满足需求时，Kubernetes 只能通过驱逐（Eviction）或杀掉 Pod 来释放资源。

未来，Kubernetes 还将支持更多类型的资源，如网络带宽、存储 IOPS 等，使得调度和资源管理更加精细化和智能化。

K8s 调度器的概述

kube-scheduler 是 Kubernetes 系统的核心组件之一，主要负责整个集群的资源调度工作。它通过特定的调度算法和调度策略，将 Pod 调度到最合适的 Node（工作节点）上，从而更高效、更合理地利用集群资源。这也是企业选择 Kubernetes 的一个重要原因：如果一项新技术不能帮助企业节约成本、提升效率，那么它将很难被真正落地和推广。

K8s 调度器的工作流程

K8s 调度器的简介

kube-scheduler 是一个独立的二进制程序，启动后会持续监听 API Server，获取所有 PodSpec.NodeName 为空的 Pod，并为其执行调度。每个成功调度的 Pod，调度器都会生成一个 Binding 对象并存入 Etcd，随后目标节点上的 Kubelet 会根据调度结果创建 Pod。在默认情况下，kube-scheduler 内置的默认调度器已经能够满足大多数场景的需求。例如，默认策略可以保证 Pod 被分配到资源充足的节点上运行。但在实际生产环境中，企业往往对业务需求和应用特性有更深入的了解，因此需要更灵活、可控的调度策略，例如：

限制某些 Pod 只能运行在特定节点上；
某些节点只允许运行特定类型的应用；
针对资源隔离、安全性或性能优化进行特殊调度。

Pod 的创建流程

更多关于 Pod 的创建流程的介绍，可以看这里。

K8s 调度器的工作流程

K8s 调度器的工作流程主要分为以下四个阶段（点击查看流程图）：

(1) 预选阶段（Predicates）— 节点过滤

在该阶段，K8s 调度器会根据一系列规则过滤掉不符合要求的节点，形成候选节点列表。
例如，当 Pod 设置了资源 requests，如果某节点的可用资源不足，则该节点会被过滤掉。

常见的 Predicates 过滤算法：

算法名称	说明
`PodFitsResources`	节点剩余资源是否满足 Pod 的资源请求（CPU / 内存等）。
`PodFitsHost`	如果 Pod 指定了 `NodeName`，检查节点名称是否匹配。
`PodFitsHostPorts`	节点上已使用的端口是否与 Pod 申请的端口冲突。
`PodSelectorMatches`	节点的标签是否与 Pod 指定的 `labelSelector` 匹配。
`NoDiskConflict`	检查 Pod 所需的 Volume 是否与节点上已挂载的 Volume 冲突（只读 Volume 除外）。
`CheckNodeDiskPressure`	节点磁盘压力是否过大，是否满足调度要求。
`CheckNodeMemoryPressure`	节点内存压力是否过大，是否满足调度要求。

(2) 优选阶段（Priorities）— 节点打分

在该阶段，K8s 调度器会对通过预选阶段的节点进行打分，分数越高，表示该节点越适合部署该 Pod。
打分规则是由一组键值对组成的：
- 键：优先级策略的名称
- 值：该策略的权重

常见的 Priorities 优先级策略：

优先级策略	说明
`LeastRequestedPriority`	根据 CPU 和内存使用率计算权重，使用率越低，权重越高，从而优先选择负载较低的节点。
`SelectorSpreadPriority`	为了实现高可用，将同一个 Deployment / Replica Set 下的多个 Pod 尽量分散到不同节点上。运行该类型 Pod 数量较少的节点权重更高。
`ImageLocalityPriority`	如果某节点已经存在 Pod 需要的镜像，且镜像总大小越大，则该节点权重越高，从而减少镜像拉取时间。
`NodeAffinityPriority`	根据 Node Affinity（节点亲和性）规则计算权重，优先调度到符合亲和性条件的节点上。

(3) 绑定阶段（Binding）
- K8s 调度器会从打分结果中选择分数最高的节点，将该 Pod 与该 Node（工作节点）进行绑定（Binding）。
- 绑定结果会被写入 Etcd，供集群其他组件使用。
(4) Kubelet 执行
- 最终被选定的 Node（工作节点）对应的 Kubelet 会接收到绑定信息，随后拉取容器镜像并创建 Pod。

K8s 调度器的工作流程图

总结

K8s 的调度过程分为两个阶段：首先是预选阶段（Predicates），用于过滤掉不满足条件的节点；然后是优选阶段（Priorities），对通过预选的节点按优先级进行排序。最后，从中选择优先级最高的节点进行调度。如果在任意阶段出现错误，调度器会直接返回错误。在预选阶段（Predicates），调度器会遍历所有节点，过滤掉不满足条件的节点。该阶段属于强制性规则，输出的所有符合要求的节点将作为第二阶段（优选阶段）的输入。如果所有节点都不满足条件，Pod 将一直处于 Pending 状态，直到出现满足条件的节点。期间，调度器会不断重试。因此，在部署应用时，如果发现 Pod 长时间处于 Pending 状态，说明没有符合调度条件的节点，可以检查节点资源是否可用。在优选阶段（Priorities），如果有多个节点都通过了预选条件，系统会根据节点的优先级对这些节点进行排序，最终选择优先级最高的节点来部署 Pod。K8s 调度器除了有上面介绍的 Predicates 过滤算法之外，还有一些其他的算法，更多更详细的过滤算法可以查看源码文件：k8s.io/kubernetes/pkg/scheduler/algorithm/predicates/predicates.go。

K8s 调度器的核心特性

提示

更多关于影响 Pod 调度的因素可以看这里。

节点亲和性调度

概述：
- K8s 节点亲和性（Node Affinity）调度规则有两种：硬亲和性（required）、软亲和性（preferred）。
作用：
- 节点亲和性调度使得 Pod 对象被吸引运行到一类特定的节点上。
特性：
- 比 nodeSelector 字段更灵活的规则。
- 支持硬亲和性（约束条件必须满足）和软亲和性（尝试满足约束条件，但不保证满足）。
- 支持常用操作：In、NotIn、Exists、Gt、Lt、DoesNotExist。
定义字段：
- 节点硬亲和性：requiredDuringSchedulingIgnoredDuringExecution
- 节点软亲和性：preferredDuringSchedulingIgnoredDuringExecution
- 权重 weight：用于定义优先级，范围是 1 ~ 100，值越大优先级越高
定义方式：
- 定义方式一：Pod 使用 spec.nodeSelector（基于等值关系）
- 定义方式二：Pod 使用 spec.affinity.nodeAffinity 支持 matchExpressions 属性（基于复杂标签选择机制）

节点硬亲和性的配置示例：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: myapp-deployment
spec:
  replicas: 2
  selector:
    matchLabels:
      app: myapp
  template:
    metadata:
      labels:
        app: myapp
    spec:
      affinity:
        nodeAffinity:
          # 节点硬亲和性：Pod 只能调度到满足条件的节点
          requiredDuringSchedulingIgnoredDuringExecution:
            nodeSelectorTerms:
              - matchExpressions:
                  - key: env_role
                    operator: In
                    values:
                      - dev
                      - test
      containers:
        - name: myapp
          image: ikubernetes/myapp:v1

节点软亲和性的配置示例：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: myapp-deployment
spec:
  replicas: 2
  selector:
    matchLabels:
      app: myapp
  template:
    metadata:
      name: myapp-pod
      labels:
        app: myapp
    spec:
      affinity:
        nodeAffinity:
          # 节点软亲和性：Pod 优先调度到符合条件的节点，但不是强制要求
          preferredDuringSchedulingIgnoredDuringExecution:
            - weight: 60
              preference:
                matchExpressions:
                  - key: zone
                    operator: In
                    values:
                      - foo
            - weight: 30
              preference:
                matchExpressions:
                  - key: ssd
                    operator: Exists
      containers:
        - name: myapp
          image: ikubernetes/myapp:v1

Pod 亲和性调度

K8s 的 Pod 亲和性（Pod Affinity）调度用于控制 Pod 倾向于与指定 Pod 调度到同一拓扑域，常用于需要紧密协作或低延迟通信的场景。

Pod 亲和性（Pod Affinity）调度规则有两种：
- 硬亲和性（约束条件必须满足）：requiredDuringSchedulingIgnoredDuringExecution
- 软亲和性（尝试满足约束条件，但不保证满足）：preferredDuringSchedulingIgnoredDuringExecution
可用于将相互依赖的 Pod 部署在同一机架（Rack）或同一可用区（Zone），以降低网络延迟、提升性能，比如：
- topologyKey: kubernetes.io/hostname：倾向于将 Pod 调度到同一 Node（工作节点）。
- topologyKey: zone：倾向于将 Pod 调度到同一可用区。

Pod 硬亲和性调度的配置示例：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: busybox-deployment
spec:
  replicas: 2
  selector:
    matchLabels:
      app: busybox
  template:
    metadata:
      labels:
        app: busybox
    spec:
      affinity:
        # Pod 硬亲和性调度
        podAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            - labelSelector:
                matchExpressions:
                  - key: app
                    operator: In
                    values:
                      - myapp
              topologyKey: zone
      containers:
        - name: busybox
          image: busybox:latest
          imagePullPolicy: IfNotPresent
          command: ["/bin/sh", "-c", "sleep 3600"]

配置说明：

Kubernetes 调度器会强制保证，Pod 调度到与匹配 labelSelector 条件的 Pod 所在的同一 zone 中。

如果集群中所有 zone 都没有匹配的 Pod，则新 Pod 会一直处于 Pending 状态。

字段	作用
`requiredDuringSchedulingIgnoredDuringExecution`	硬亲和性约束：必须满足条件，否则 Pod 无法被调度。
`labelSelector.matchExpressions`	指定匹配条件，比如匹配拥有 `app=myapp` 标签的 Pod。
`topologyKey`	定义拓扑域的维度，如 `zone`、`kubernetes.io/hostname` 等。

Pod 反亲和性调度

K8s 的 Pod 反亲和性（Pod AntiAffinity）调度用于控制 Pod 不与指定 Pod 调度到同一拓扑域，常用于高可用场景。

可用于将 Pod 副本分布到不同机架（Rack）或可用区（Zone）中，避免单点故障，比如：
- topologyKey: kubernetes.io/hostname：避免 Pod 调度到同一 Node（工作节点）。
- topologyKey: zone：避免 Pod 调度到同一可用区。

Pod 反亲和性调度的配置示例：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: busybox-deployment
spec:
  replicas: 2
  selector:
    matchLabels:
      app: busybox
  template:
    metadata:
      labels:
        app: busybox
    spec:
      containers:
        - name: busybox
          image: busybox:latest
          imagePullPolicy: IfNotPresent
          command: ["/bin/sh", "-c", "sleep 3600"]
      affinity:
        # Pod 反亲和性调度
        podAntiAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            - labelSelector:
                matchExpressions:
                  - key: app
                    operator: In
                    values:
                      - myapp
              topologyKey: zone

配置说明：

Kubernetes 调度器会强制保证，同一 zone 下，不会与匹配 labelSelector 条件的 Pod 同时调度运行。

如果所有 zone 都有匹配的 Pod，则新 Pod 会一直处于 Pending 状态。

字段	作用
`requiredDuringSchedulingIgnoredDuringExecution`	硬亲和性约束：必须满足条件，否则 Pod 无法被调度。
`labelSelector.matchExpressions`	指定匹配条件，比如匹配拥有 `app=myapp` 标签的 Pod。
`topologyKey`	定义拓扑域的维度，如 `zone`、`kubernetes.io/hostname` 等。

污点和容忍度

污点（Taints）

污点的作用：
- 让节点拒绝调度 Pod 到其上运行，除非 Pod 显式声明可以容忍该污点。
污点的定义：
- 定义在节点（Node）上的键值型属性数据。
- 字段 spec.taints，语法是 key=value:effect。
污点的适用场景：
- 专用节点隔离：保留节点给特定 Pod（如 GPU 节点只运行 AI 任务）
- 节点维护：标记节点为不可调度（如 NoSchedule），避免新 Pod 被分配到正在维护的节点
- 特殊硬件限制：防止普通 Pod 调度到带特殊硬件（如 FPGA）的节点

污点的类型：

污点类型（Effect）	作用	对已运行 Pod 的影响	典型场景
NoSchedule	新的 Pod 无法调度到该节点，除非 Pod 明确声明容忍该污点	不容忍此污点的 Pod 不会被驱逐	保留节点给特定用途（如 GPU 节点、生产环境专用节点）
PreferNoSchedule	调度器尽量避免将 Pod 调度到该节点，但若无其他节点可选，仍可被调度	不容忍此污点的 Pod 不会被驱逐	软性隔离，如临时维护节点但不强制拒绝调度
NoExecute	新的 Pod 无法调度到该节点（与 NoSchedule 相同）	不容忍此污点的 Pod 会被驱逐（Evict）	节点故障或紧急隔离，如磁盘损坏需立即迁移所有 Pod

节点自动添加的污点

当节点出现特定状态或资源异常时，Kubernetes 会自动为节点添加带有 NoExecute 效果的污点，从而驱逐不具备相应容忍度的 Pod。

K8s 核心组件通常会自动容忍下面这些系统级别的污点，以确保系统服务的持续运行。

污点键（Taint Key）	触发条件 / 含义	说明
`node.kubernetes.io/not-ready`	节点进入 NotReady 状态	表示节点不可调度且无法响应心跳
`node.alpha.kubernetes.io/unreachable`	节点进入 NotReachable 状态	旧版本中使用，表示节点网络不可达（已被废弃，改为下一个键）
`node.kubernetes.io/unreachable`	节点网络不可达	替代 `alpha` 版本的键，节点与控制平面失联时自动添加
`node.kubernetes.io/out-of-disk`	节点磁盘空间不足	节点磁盘空间耗尽时自动添加
`node.kubernetes.io/memory-pressure`	节点内存资源紧张	表示节点内存使用率过高
`node.kubernetes.io/disk-pressure`	节点磁盘面临压力	表示节点磁盘可用空间或 I/O 受限
`node.kubernetes.io/network-unavailable`	节点网络不可用	节点网络尚未就绪或中断
`node.cloudprovider.kubernetes.io/uninitialized`	节点由云提供商组件初始化中	当 kubelet 由云环境程序启动时自动添加，待控制器初始化节点后自动移除

节点的污点操作示例：

# 给节点添加污点
kubectl taint nodes  =:NoSchedule

# 举个例子
kubectl taint node kube-node1 node-type=production:NoShedule

# 查看节点的污点
kubectl describe node  | grep Taint

# 或者
kubectl get nodes  -o go-template={{.spec.taints}}

# 删除节点的单个污点（末尾的 "-" 符号表示删除）
kubectl taint nodes  :NoSchedule-

# 删除节点的指定键的所有污点（末尾的 "-" 符号表示删除）
kubectl taint nodes  -

# 删除节点的所有污点
kubectl patch nodes  -p '{"spec":{"taints":[]}}'

容忍度（Tolerations）

容忍度的概述：
- 节点设置污点后，Pod 必须声明可以容忍哪些污点，才允许其被调度到具有这些污点的节点上。
容忍度的定义：
- 定义在 Pod 上的键值型属性数据。
- 字段 spec.tolerations，语法是 key=value:effect。
- 字段 tolerationSeconds 用于定义延迟驱逐 Pod 的时间
  - tolerationSeconds 仅在 effect: NoExecute 的容忍规则中生效；
  - 超过设定时间后，若节点上的污点仍存在，则 Pod 会被驱逐；
  - 如果未设置 tolerationSeconds，则表示 Pod 将无限期地容忍该污点，即 Pod 不会因为该污点被驱逐。
容忍度的调度规则：
- Pod 优先调度到没有污点的节点。
- 如果目标节点有污点，则 Pod 必须显式声明容忍该污点，否则无法被调度过去。
容忍度的适用场景：
- 特权 Pod 调度：允许关键 Pod（如日志收集组件）无视污点，调度到任意节点
- 故障恢复：容忍 NoExecute 污点，使 Pod 在节点故障时不被驱逐（如数据库 Pod）
- 共享特殊节点：让普通 Pod 通过容忍临时使用专用节点（如容忍 GPU 节点污点）
容忍度的类型：

容忍度类型（Effect）	作用	典型场景
NoSchedule	允许 Pod 调度到带有 `NoSchedule` 污点的节点，无视节点的硬性隔离规则	关键 Pod，如存储服务、核心系统组件
PreferNoSchedule	允许 Pod 调度到带有 `PreferNoSchedule` 污点的节点，但调度器仍会优先选择其他节点	非关键 Pod 在资源不足时，仍可使用软隔离节点
NoExecute	1. 允许 Pod 调度到带有 `NoExecute` 污点的节点 2. 豁免驱逐：即使节点新增 NoExecute 污点，Pod 也不会被驱逐	守护进程（如日志收集器、监控代理）需长期运行，无视节点维护状态
空值（未指定 Effect）	容忍所有类型的污点，包括未来新增的类型	超级特权 Pod，如集群管理组件、CNI/CSI 插件等需在所有节点运行

Pod 的容忍度配置示例：

spec:
  tolerations:
    - key: "key1"
      operator: "Equal"           # 等值判断，判断条件为 Equal
      value: "value1"
      effect: "NoExecute"
      tolerationSeconds: 600      # 延迟 600 秒后驱逐 Pod（可选）

spec:
  tolerations:
    - key: "key1"
      operator: "Exists"          # 存在性判断，只要污点键（Key）存在即可匹配
      effect: "NoExecute"
      tolerationSeconds: 600      # 延迟 600 秒后驱逐 Pod（可选）

spec:
  tolerations:
    # 容忍 NoSchedule 污点
    - key: "dedicated"
      operator: "Equal"
      value: "gpu"
      effect: "NoSchedule"

    # 容忍 NoExecute 污点
    - key: "unreachable"
      operator: "Exists"
      effect: "NoExecute"
      tolerationSeconds: 600  # 延迟 600 秒后驱逐 Pod（可选）

    # 容忍所有污点（危险！慎用！）
    - operator: "Exists"

apiVersion: apps/v1
kind: Deployment
metadata:
  name: myapp-deploy
  namespace: default
spec:
  replicas: 3
  selector:
    matchLabels:
      app: myapp
      release: canary
  template:
    metadata:
      labels:
        app: myapp
        release: canary
    spec:
      containers:
        - name: myapp
          image: ikubernetes/myapp:v1
          ports:
            - name: http
              containerPort: 80
      # 容忍 NoExecute 污点
      tolerations:
        - key: "node-type"
          operator: "Equal"
          value: "production"
          effect: "NoExecute"
          tolerationSeconds: 600  # 延迟 600 秒后驱逐 Pod（可选）

特别注意

一个节点可以配置多个污点，一个 Pod 也可以有多个容忍度。
污点提供了让节点（Node）排斥运行特定 Pod 对象的能力。
节点亲和性（Node Affinity）调度使得 Pod 对象被吸引运行到一类特定的节点上。

Pod 优先级与抢占式调度

在 Pod 上定义容忍度时，Pod 的优先级与抢占式调度机制如下：

优先级（Pod Priority）
- 表示 Pod 对象的重要程度。
- 作用：
  - 影响调度顺序：高优先级 Pod 会优先被调度。
  - 影响驱逐次序：节点资源不足时，低优先级 Pod 会先被驱逐。
抢占机制（Preemption）
- 当一个 Pod 无法被调度时，调度器会尝试驱逐节点上优先级更低的 Pod，为当前高优先级 Pod 腾出资源。
- 适合关键业务 Pod 需要资源保障的场景。
启用方法
- Pod 优先级与抢占式调度机制默认处于禁用状态，需要手动启用。
- 启用方式：在以下组件的启动参数中增加 --feature-gates=PodPriority=true：
  - kube-apiserver
  - kube-scheduler
  - kubelet

使用步骤

(1) 创建优先级类别（PriorityClass）

定义不同的优先级，如关键业务、高优先级、低优先级等。

配置示例：

apiVersion: scheduling.k8s.io/v1
kind: PriorityClass
metadata:
  name: high-priority                               # 优先级类别名称
value: 1000                                         # 优先级值，数值越大优先级越高
globalDefault: false                                # 是否为默认优先级类别
description: "用于关键业务 Pod，例如存储、网络组件"      # 优先级的描述信息

---

apiVersion: scheduling.k8s.io/v1
kind: PriorityClass
metadata:
  name: low-priority                                # 优先级类别名称
value: 100                                          # 优先级值，数值越大优先级越高
globalDefault: false                                # 是否为默认优先级类别
description: "用于低优先级 Pod，例如测试或批处理任务"     # 优先级的描述信息

(2) 在 Pod 中指定优先级

创建 Pod 时，通过 priorityClassName 属性绑定到对应的优先级类别。

配置示例：

apiVersion: v1
kind: Pod
metadata:
  name: critical-app
spec:
  priorityClassName: high-priority    # Pod 绑定高优先级类别
  containers:
    - name: critical-container
      image: nginx

Pod 的优先级与抢占式调度总结

高优先级 Pod 无法被调度 → 调度器检查目标节点 → 驱逐低优先级 Pod → 为高优先级 Pod 腾出资源 → 高优先级 Pod 调度成功。

Kubernetes 入门教程之五

2025-09-13T13:12:19.000Z

大纲

Kubernetes 核心技术

Service

Service 的概念

Service 是 Kubernetes 的核心概念之一。通过创建 Service，可以为一组具备相同功能的 Pod 提供统一的访问入口（即暴露服务），并将请求流量负载均衡地分发到后端各个 Pod 上。Pod 与 Service 之间是通过 Label（标签）和 Label Selector（标签选择器）建立关联关系的。值得一提的是，在 Kubernetes 中，Service + EndpointController 的配合实现了类似注册中心的功能：当 Pod 创建后，Kubernetes 控制器会自动将其加入对应 Service 的 Endpoints 列表，并通过 Readiness Probe（就绪探针）动态更新，确保只有可用的 Pod 接收流量。Pod 可以通过 DNS 直接访问 Service 名称（如 ..svc.cluster.local），而流量则由 kube-proxy 负责负载均衡。整体上，Service 提供了 DNS 名称 + 虚拟 IP（ClusterIP）的抽象，真正存储服务实例信息的是 EndpointSlice，整个过程完全自动化，Pod 无需显式注册，从而实现了透明的服务注册与发现。

提示

Kubernetes 中的 Service + EndpointController 机制，提供了与注册中心类似的自动注册和服务发现能力，但 Pod 无需显式注册，且数据由 Kubernetes 控制平面自动维护，主要面向集群内部的服务（Pod）注册与发现。

Service 的作用

服务发现（Service Discovery）
- Pod 间互相通信的唯一入口：
  - 为一组 Pod 提供一个固定的访问入口，解决 Pod IP 动态变化的问题。
- DNS 服务发现：
  - 集群内部 Pod 可通过 ..svc.cluster.local 访问目标服务，无需感知 Pod 的 IP。
- 自动注册与维护：
  - Pod 创建或销毁时，Kubernetes 会自动更新 Service 对应的 EndpointSlice，应用无需显式注册。
负载均衡（Load Balancing）
- 集群内负载均衡：
  - kube-proxy 会自动将访问 Service 的流量分发到后端多个 Pod。
- 负载策略：
  - 默认采用轮询（Round Robin）。
  - 结合 SessionAffinity 可以实现会话保持。
- Service 类型扩展：
  - ClusterIP：仅集群内访问，内部负载均衡。
  - NodePort：通过每个节点固定端口暴露服务。
  - LoadBalancer：集成云厂商的外部负载均衡器。
对外暴露服务
- 集群外访问能力：
  - NodePort：通过节点 IP + 端口访问。
  - LoadBalancer：借助云厂商负载均衡对外暴露。
  - ExternalName：将集群内部访问映射到外部域名。
解耦应用与底层 Pod
- 稳定访问地址：
  - 应用通过 Service 名称访问后端服务，不依赖具体 Pod IP。
- 支持滚动升级：
  - Pod 替换过程中，Service 始终提供不变的入口，保障请求不中断。
- 简化业务逻辑：
  - 业务代码不需要实现服务注册、心跳检测、路由等逻辑。
健康检查与流量控制
- 与 Readiness Probe（就绪探针）结合：
  - 只将健康的 Pod 添加到 EndpointSlice，自动摘除异常 Pod。
- 支持蓝绿发布 / 灰度发布：
  - 结合标签选择器（selector），灵活管理流量转发目标。
服务注册中心的替代方案
- 自动化注册与发现：
  - 无需像 Zookeeper / Eureka 那样主动注册，Pod 生命周期事件由 Kubernetes 控制器接管。
- 真实的 “注册表”：
  - Pod 实例信息存储在 EndpointSlice 中，Service 只是抽象层，负责提供 DNS 和虚拟 IP（ClusterIP）。

Service 的类型

五大类型

在 Kubernetes 中，Service 有以下几种类型：

ClusterIP

概述
- ClusterIP 是 Service 的默认类型。
作用：
- 为一组 Pod 提供一个集群内部虚拟 IP，只能通过集群内部的 Pod 或 Service 访问。
使用场景：
- 内部微服务之间通信。
- 数据库、内部 API 等只在集群内部访问的服务。

配置示例：

apiVersion: v1
kind: Service
metadata:
  name:           # Service 的名称
spec:
  type: ClusterIP           # Service 类型为 ClusterIP，集群内部可访问
  selector:
    app: my-app             # 选择标签为 app=my-app 的 Pod 作为后端
  ports:
    - port: 80              # Service 对外暴露的端口，集群内部访问时也可以使用该端口
      targetPort: 8080      # Pod 内容器实际监听的端口（即将请求转发到容器的 xxxx 端口）

访问方式：
- 外部访问：
  - ClusterIP 类型的 Service 默认无法被外部访问，它只在集群内部有效。
  - 如果需要外部访问，则必须通过 Ingress、LoadBalancer 或 NodePort 将流量引入集群，再访问集群内的 Pod 或 Service。
- 集群内部访问：
  - 通过虚拟 IP（ClusterIP）访问：
    - 集群内 Pod 可以直接访问 Service 的 ClusterIP：http://:
  - 通过 DNS 名称（域名）访问：
    - Kubernetes 会自动为 Service 创建 DNS 名称（域名）。
    - Pod 内部可以通过这个 DNS 名称（域名）访问 Service：http://..svc.cluster.local:。
    - Service 的默认命名空间（namespace）是 default，可以通过 kubectl get svc -A 命令查看。
    - kube-proxy 会将流量转发到对应 Pod 的 targetPort。

NodePort

概述：
- 将 Service 暴露在每个集群节点的固定端口上。
作用：
- 外部流量可以通过集群节点的 IP 和 NodePort 访问到集群内的 Pod。
端口范围：
- 默认 30000 ~ 32767。
使用场景：
- 测试环境或临时访问集群服务。
- 没有 Ingress 或云负载均衡器时，简单暴露服务。

配置示例：

apiVersion: v1
kind: Service
metadata:
  name:         # Service 的名称
spec:
  type: NodePort          # Service 类型为 NodePort，可通过节点 IP 访问
  selector:
    app: my-app           # 选择标签为 app=my-app 的 Pod 作为后端
  ports:
    - port: 80            # Service 对外暴露的端口，集群内部访问时也可以使用该端口
      targetPort: 8080    # Pod 内容器实际监听的端口（即将请求转发到容器的 xxxx 端口）
      nodePort: 30080     # 映射到物理机的端口号，默认范围 30000 - 32767

访问方式：
- 外部访问：
  - 通过任意一个集群节点的 IP 和 nodePort 访问集群内的 Pod：http://:。
- 集群内部访问：
  - Kubernetes 会自动为 Service 创建 DNS 名称（域名）。
  - 集群内部 Pod 可以通过这个 DNS 名称（域名）访问 Service：http://..svc.cluster.local:。
  - Service 的默认命名空间（namespace）是 default，可以通过 kubectl get svc -A 命令查看。
  - kube-proxy 会将流量路由到对应 Pod 的 targetPort。

LoadBalancer

概述：
- 依赖云厂商的负载均衡器，将外部流量分发到集群。
作用：
- 自动向云平台申请一个外部负载均衡器（如 AWS ELB、阿里云 SLB）。
特点：
- 会自动分配到一个公网 IP。
- 负载均衡器将流量转发到后端 NodePort。
使用场景：
- 云环境生产集群中，外部流量访问的标准方式。
- 对外提供 API 网关、Web 服务、支付网关等服务。

配置示例：

apiVersion: v1
kind: Service
metadata:
  name:           # Service 的名称
spec:
  type: LoadBalancer        # Service 类型为 LoadBalancer，自动申请外部负载均衡器（LB）
  selector:
    app: my-app             # 选择标签为 app=my-app 的 Pod 作为后端
  ports:
    - port: 80              # Service 对外暴露的端口，集群内部访问时也可以使用该端口
      targetPort: 8080      # Pod 内容器实际监听的端口（即将请求转发到容器的 xxxx 端口）

访问方式：
- 外部访问：
  - 外部通过云负载均衡器的公网 IP 或域名访问：
    1
    2
    3
    4
    5
    # 基于公网 IP 访问
    curl http://:80
    
    # 基于域名访问
    curl http://.example.com
  - 由云平台自动分配。
  - 可绑定自定义域名，通过 DNS 解析访问。
- 集群内部访问：
  - Kubernetes 会自动为 Service 创建 DNS 名称（域名）。
  - 集群内部 Pod 可以通过这个 DNS 名称（域名）访问 Service：http://..svc.cluster.local:。
  - Service 的默认命名空间（namespace）是 default，可以通过 kubectl get svc -A 命令查看。
  - kube-proxy 会将流量路由到对应 Pod 的 targetPort。

ExternalName

概述：
- 通过 DNS 将 Service 名称映射到集群外部服务域名，不做流量代理。
作用：
- 通过 Kubernetes 内部的 DNS 把 Service 映射为外部域名，Pod 通过访问 Service 名称即可访问外部服务。
特点：
- 不会创建虚拟 IP（ClusterIP）。
- 只是一个 DNS CNAME 解析，流量不经过 Kubernetes 负载均衡或代理（kube-proxy）。
使用场景：
- 访问外部数据库、外部 API 服务等。

配置示例：

apiVersion: v1
kind: Service
metadata:
  name: external-service            # Service 的名称
spec:
  type: ExternalName                # Service 类型为 ExternalName，将 Service 名称映射到外部域名
  externalName: db.example.com      # 集群内部访问 Service 时，DNS 解析到的外部域名

访问方式：
- 外部访问：
  - ExternalName 类型的 Service 本身不提供外部访问入口，它只是 Kubernetes 内部的 DNS 映射，外部无法通过 Service 名称访问集群内的 Pod 或 Service。
  - 如果需要外部访问，则必须通过 Ingress、LoadBalancer 或 NodePort 将流量引入集群，再访问集群内的 Pod 或 Service。
- 集群内部访问：
  - Kubernetes 会自动为 Service 创建 DNS 名称（域名）。
  - 集群内部 Pod 可以通过这个 DNS 名称（域名）访问 Service：http://..svc.cluster.local，实际上会解析到 db.example.com。
  - Service 的默认命名空间（namespace）是 default，可以通过 kubectl get svc -A 命令查看。

None

概述：
- 无虚拟 IP（ClusterIP）的 Service（Headless Service - 无头服务），是一种没有 ClusterIP 的特殊 Service 类型。
- 用于暴露 K8s 集群内 Pod 的真实 IP 和 DNS 名称（域名），而不是通过一个统一的虚拟 IP（ClusterIP）进行负载均衡，即 K8s 不会做流量负载均衡。
作用：
- 不需要虚拟 IP（ClusterIP）和负载均衡时使用。
- 客户端可以直接感知 Pod 的 IP，实现自定义的负载均衡或服务发现。
定义方式：
- 在 Service 配置中设置：clusterIP: None。
使用场景：
- 部署有状态服务（StatefulSet），如 MySQL、ZooKeeper、Kafka 等。
- 客户端需要自己实现负载均衡或服务发现的场景。

配置示例：

apiVersion: v1
kind: Service
metadata:
  name: headless-service      # Service 的名称
spec:
  clusterIP: None             # 设置为 None 表示无虚拟 IP（ClusterIP），直接返回 Pod 的 IP
  selector:
    app: my-app               # 选择标签为 app=my-app 的 Pod 作为后端
  ports:
    - port: 80                # Service 对外暴露的端口，客户端访问时使用
      targetPort: 8080        # Pod 内容器实际监听的端口（即将请求转发到容器的 xxxx 端口）

访问方式：
- 外部访问：
  - 由于 None 类型的 Service 不提供虚拟 IP，Kubernetes 不做负载均衡，因此外部不能直接访问 Service。
  - 如果外部需要访问 None 类型的 Service，可以使用以下方式实现：
    - 通过 Pod 的 Node IP + 容器端口（Pod 暴露端口需要通过 NodePort 或其他方式实现）。
    - 或者借助 Ingress 或 LoadBalancer 将流量引入集群，再由客户端自行选择 Pod。
- 集群内部访问：
  - 通过 DNS 名称（域名）访问：
    - Kubernetes 会自动为 Service 创建 DNS 名称（域名）。
    - Service 的默认命名空间（namespace）是 default，可以通过 kubectl get svc -A 命令查看。
    - 第一种 DNS 访问方式：
      - 集群内部 Pod，可以通过 Service 的 DNS 名称（域名）查询所有匹配 Pod 的 IP，域名格式：..svc.cluster.local
        1
        2
        3
        4
        nslookup mysql.default.svc.cluster.local
        10.244.1.5
        10.244.1.6
        10.244.1.7
    - 第二种 DNS 访问方式（StatefulSet 专用访问）
      - ClusterIP 为 None 的 Service，每个 Pod 都有固定的 DNS 名称（域名），适用于数据库或分布式系统访问（比如 MySQL、ZooKeeper），保证客户端可以稳定访问指定 Pod。
      - 集群内部 Pod，可以通过 Pod 的 DNS 名称（域名）直接访问指定的 Pod，域名格式：...svc.cluster.local
        1
        2
        3
        nslookup mysql-statefulset-0.mysql.default.svc.cluster.local
        
        telnet mysql-statefulset-0.mysql.default.svc.cluster.local 3306
  - 直接访问 Pod 的 IP：
    - 客户端可根据自定义的负载均衡策略（轮询、随机、哈希等）直接访问 Pod 的 targetPort：
      1
      2
      curl http://10.244.1.5:8080
      curl http://10.244.1.6:8080

类型	访问范围	是否需要 kube-proxy	是否有虚拟 IP（ClusterIP）	典型场景
ClusterIP	仅集群内部	✅ 是	✅ 有	微服务内部通信
NodePort	外部可访问，通过集群节点的 IP	✅ 是	✅ 有	简单对外暴露服务
LoadBalancer	外部可访问，通过 LB 公网 IP	✅ 是	✅ 有	生产外部访问
ExternalName	集群内部访问外部域名	❌ 否	❌ 无	外部服务映射
None	集群内部直接返回 Pod 的 IP	✅ 是	❌ 无	有状态服务访问（如 MySQL、ZooKeeper）

网络测试

特别注意

ClusterIP 类型的 Service 只能在 Kubernetes 集群内部访问，如果在集群外部机器（比如直接在集群的 Master 节点）上，通过 Service 的 DNS 名称直接访问 Pod（比如 http://nginx.default.svc.cluster.local:80），肯定是无法访问成功的。

在 Kubernetes 中，创建一个 Nginx 的 Pod，使用 ClusterIP 类型的 Service 来暴露服务

创建一个 Nginx 的 Deployment 和 Service

# 创建 Nginx
kubectl create deployment nginx --image=nginx

# 暴露 Nginx 的端口（Service 的默认类型是 ClusterIP，可以通过 --type 参数指定类型）
kubectl expose deployment nginx --port=80 --target-port=80

查看 Pod 列表

1	kubectl get pods -o wide

1 2	NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES nginx-6799fc88d8-dkltf 1/1 Running 0 12m 10.244.2.2 k8s-node3

查看 Service 列表

1	kubectl get svc -A

NAMESPACE     NAME         TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)                  AGE
default       kubernetes   ClusterIP   10.0.0.1             443/TCP                  42d
default       nginx        ClusterIP   10.0.0.231           80/TCP                   12s
kube-system   kube-dns     ClusterIP   10.0.0.2             53/UDP,53/TCP,9153/TCP   25m

在 Kubernetes 集群内部，通过 Service 的 DNS 名称（域名）访问 Nginx 的 Pod

创建一个临时 Pod，并进入 Pod 内部的交互式 Shell

1 2	# 添加 --rm 参数，为了在 Shell 中执行 exit 命令退出后自动销毁 Pod kubectl run test-pod --image=busybox:1.35 --restart=Never -it --rm -- sh

在临时 Pod 的内部，通过 Service 的 DNS 名称（域名）访问 Nginx 的 Pod（必须保证临时 Pod 与 Service 处于同一个命名空间），域名格式：..svc.cluster.local

1	nslookup nginx.default.svc.cluster.local

Server:10.0.0.2
Address:10.0.0.2:53

Name:nginx.default.svc.cluster.local
Address: 10.0.0.231

1 2	# 或者通过 Service 的 DNS 名称（域名）访问 Nginx 的首页面 wget -qO- http://nginx.default.svc.cluster.local:80

如果 nslookup 或者 wget 工具无法通过 Service 的 DNS 名称（域名）来访问 Nginx 的 Pod，建议重点检查 CoreDNS（Kubernetes 官方提供的 DNS 服务）是否可以正常运行（也可能是没有安装 CoreDNS）

1 2	# 查看 CoreDNS 的运行状态 kubectl get pod -n kube-system -l k8s-app=kube-dns

预期输出以下内容，如果 CoreDNS 的 STATUS 不是 Running 或 Pod 不存在，则说明 CoreDNS 服务没有正常运行

1
2
3

NAME                       READY   STATUS    RESTARTS   AGE
coredns-6b9bb479b9-g6t6f   1/1     Running   0          34m
coredns-6b9bb479b9-lfd7j   1/1     Running   0          34m

Kubernetes 删除 Deployment 和 Service

如果需要删除上面创建的 Deployment 和 Service，可以执行以下命令

# 删除Service
kubectl delete service nginx

# 删除Deployment
kubectl delete deployment nginx

Service 的定义

apiVersion: v1
kind: Service
metadata:
  name: nginx-service                     # Service 的名称
  namespace: production                   # 所属命名空间，例如生产环境
  labels:
    app: nginx                            # 标签，标识该服务属于哪个应用
    tier: frontend                        # 层级标签，例如前端、后端
  annotations:
    description: "Nginx Web Service for production"  # 业务描述信息
spec:
  selector:                               # 匹配后端 Pod
    app: nginx                            # 必须与 Pod 的 labels 匹配
  type: NodePort                          # Service 类型：ClusterIP / NodePort / LoadBalancer / ExternalName
  clusterIP: 10.0.0.15                    # 集群内部 IP（可选，默认自动分配）
  sessionAffinity: None                   # 会话亲和性，可选值：None / ClientIP
  ports:
    - name: http                          # 端口名称（可选）
      protocol: TCP                       # 协议类型：TCP 或 UDP
      port: 80                            # Service 对外暴露的端口，集群内部访问时也可以使用该端口
      targetPort: 8080                    # Pod 内容器实际监听的端口（即将请求转发到容器的 xxxx 端口）
      nodePort: 30080                     # 映射到物理机的端口号，默认范围 30000 - 32767
status:
  loadBalancer:
    ingress:
      - ip: 192.168.1.100                 # 外部负载均衡器分配的 IP
        hostname: lb-prod.example.com     # 外部负载均衡器的域名

属性名称	取值类型	取值说明
`spec.ports[].targetPort`	`int`	需要转发到后端 Pod 的端口号
`spec.ports[].nodePort`	`int`	当 `spec.type=NodePort` 时，指定映射到物理机的端口号
`status`	`object`	当 `spec.type=LoadBalance` 时，设置外部负载均衡器的地址，用于公有云环境
`status.loadBalancer`	`object`	外部负载均衡器
`status.loadBalancer.ingress`	`object`	外部负载均衡器
`status.loadBalancer.ingress.ip`	`string`	外部负载均衡器的 IP 地址
`status.loadBalancer.ingress.hostname`	`string`	外部负载均衡器的主机名

Service 的使用

Service 基础使用

一般来说，对外提供服务的应用程序需要通过一定的机制来实现暴露，而对于容器化应用，最简便的方式就是通过 TCP/IP 协议，并结合监听 IP 和端口号来对外提供服务。比如，创建一个带基本功能的 Controller：

apiVersion: v1
kind: ReplicationController
metadata:
  name: mywebapp                       # RC 的名称
spec:
  replicas: 2                          # 副本数量
  template:                            # Pod 的模板
    metadata:
      name: mywebapp                   # Pod 的名称
      labels:
        app: mywebapp                  # Pod 的标签，用于 Service 或 RC 选择器
    spec:
      containers:
        - name: mywebapp               # 容器的名称
          image: tomcat                # 容器使用的镜像
          ports:
            - containerPort: 8080      # 容器内应用（比如 Tomcat）监听的端口

可以通过 kubectl get pods -l app=mywebapp -o yaml | grep podIP 命令获取 Pod 的 IP 地址，然后使用 Pod 的 IP 地址和端口号来访问 Tomcat 服务。但是，直接通过 Pod 的 IP 来访问服务是不可靠的，因为当 Pod 所在的 Node（工作节点）发生故障时，Kubernetes 会将该 Pod 重新调度到其他 Node（工作节点），此时 Pod 的 IP 地址会发生变化，导致原有访问地址失效。为了解决这一问题，可以通过 YAML 配置文件再定义一个 Service，并使用以下命令来创建：

apiVersion: v1
kind: Service
metadata:
  name: mywebAppService          # Service 的名称
spec:
  selector:                      # 选择器，匹配后端 Pod 的标签（labels）
    app: mywebapp
  ports:
    - port: 8081                 # Service 对外暴露的端口，集群内部访问时也可以使用该端口
      targetPort: 8080           # Pod 内容器实际监听的端口（即将请求转发到容器的 xxxx 端口）

1 2	# 根据指定的 YAML 配置文件创建 Service kubectl create -f service.yaml

多端口 Service

有时，一个容器应用可能需要对外提供多个端口的服务，这时可以在 Service 的定义中配置多个端口，将每个端口映射到对应的应用服务，如下所示：

apiVersion: v1
kind: Service
metadata:
  name: mywebAppService            # Service 的名称
spec:
  selector:                        # 选择器，匹配后端 Pod 的标签（labels）
    app: mywebapp
  ports:
    - name: web                    # 第一个端口的名称
      port: 8080                   # Service 对外暴露的端口，集群内部访问时也可以使用该端口
      targetPort: 8080             # Pod 内容器实际监听的端口（即将请求转发到容器的 xxxx 端口）
    - name: management             # 第二个端口的名称
      port: 8005                   # Service 对外暴露的端口，集群内部访问时也可以使用该端口
      targetPort: 8005             # Pod 内容器实际监听的端口（即将请求转发到容器的 xxxx 端口）

外部服务 Service

在某些特殊场景下，应用系统可能需要将外部数据库作为后端服务，或者将其他集群或命名空间中的服务作为后端服务。这时候，可以通过创建一个不带 Label Selector（标签选择器）的 Service 来实现对这些外部服务的访问，如下所示：

# Service 定义
apiVersion: v1
kind: Service
metadata:
  name:                   # Service 的名称
spec:
  ports:
    - protocol: TCP                 # 协议类型
      port: 80                      # Service 对外暴露的端口，集群内部访问时也可以使用该端口
      targetPort: 8080              # Pod 容器或 Endpoints 实际监听的端口

---

# Endpoints 定义
apiVersion: v1
kind: Endpoints
metadata:
  name:                   # 对应的 Service 的名称
subsets:
  - addresses:
      - ip: 10.254.74.3             # 外部服务的 IP
    ports:
      - port: 8080                  # 外部服务实际监听的端口

特别注意

当 Service 有 selector 时，Service 会自动匹配 Pod，并自动生成 Endpoints。
当 Service 没有 selector 时，它会通过 Endpoints 的 metadata.name 与 Service 的 metadata.name 相同（一致）来建立关联。

Ingress

K8s 整体网络架构

Kubernetes 网络主要解决四方面的问题:
- 一个 Pod 中的多个容器之间可以通过本地回路（Loopback）互通。
- 集群网络在不同 Pod 之间提供通信，Pod 和 Pod 之间互通。
- Service 资源允许用户对外暴露 Pods 中运行的应用程序，以支持来自于集群外部的访问。Service 和 Pod 之间要互通。
- 可以使用 Service 来发布仅供集群内部使用的服务。
Kubernetes 的整体网络架构

Kubernetes 的网络访问流程

Ingress 的基本概念

为什么需要 Ingress？
- Service 可以使用 NodePort 暴露集群外访问端口，但是性能差不安全。
- 缺少 Layer7 的统一访问入口，可以负载均衡、限流等。
- Ingress 公开了从集群外部到集群内服务的 HTTP 和 HTTPS 路由，且流量路由是由 Ingress 资源上定义的规则控制。
- 使用 Ingress 作为整个集群统一的入口，配置 Ingress 规则将流量转发到对应的 Service（如下图所示）。

Service 中 NodePort 的缺点
- 端口资源有限且容易冲突
  - NodePort 在每个节点（Node）上都会占用相同的端口号。
  - 每个端口只能对应一个 Service，一个节点上的端口号不能重复使用，端口资源有限。
- 访问方式不够灵活
  - 必须通过节点 IP + 端口号访问，不符合实际生产中通常使用域名访问的方式。
  - 无法直接根据域名自动路由到不同服务，需要额外配置反向代理或者 Ingress 实现域名分流。
- 对外暴露复杂，安全性较低
  - 在所有节点上都暴露了特定的端口，增加了攻击面和安全风险。
- 难以与外部负载均衡器集成
  - NodePort 只提供基础的端口转发，不具备智能流量分配、健康检查等高级功能。
Ingress 与 Pod 的关系
- Ingress 并不直接与 Pod 通信，而是通过 Service 与 Pod 进行关联，访问链路是：外部请求 → Ingress → Service → Pod。
- 具体来说，Ingress 作为集群对外的统一访问入口，负责根据访问的域名或路径规则，将外部请求转发到对应的 Service；而 Service 再根据其标签选择器（Label Selector）将请求负载均衡地分发给一组符合条件的 Pod。

Ingress 的两种实现

Ingress 本质上是一个控制器（Controller），需要单独安装，它有两种实现，包括：

Nginx Ingress
- 这是 Nginx 官方开发的，适配 Kubernetes 的，分为开源版和 Nginx Plus 版（收费）。
- 官方文档：https://docs.nginx.com/nginx-ingress-controller/overview/
- 官方网站：https://www.nginx.com/products/nginx-ingress-controller
Ingress-Nginx
- 这是 Kubernetes 官方开发的，适配 Nginx 的，开源免费的；它会及时更新一些特性，而且性能很高，被各大互联网公司广泛采用。
- 官方文档：https://kubernetes.io/zh-cn/docs/concepts/services-networking/ingress/
- 官方网站：https://kubernetes.github.io/ingress-nginx/examples/auth/basic/
- 推荐使用这个镜像来部署 Ingress-Nginx：registry.cn-hangzhou.aliyuncs.com/lfy_k8s_images/ingress-nginx-controller:v0.46.0

Ingress 的安装步骤

特别注意

由于 Ingress 本质上是一个 Kubernetes 控制器（Controller），因此可以通过 YAML 文件进行安装（部署），这里使用的是 Nginx Ingress（由 Nginx 官方开发）。
在下述的 YAML 配置内容中，hostNetwork 参数必须设置为 true，否则在 Kubernetes 集群外部无法直接通过域名访问 Ingress。
Ingress 的所有安装（部署）步骤都是在 Kubernetes 集群的 Master 节点上执行。

通过 YAML 文件（比如 nginx-ingress-deploy.yaml） 部署 Nginx Ingress（由 Nginx 官方开发）

apiVersion: v1
kind: Namespace
metadata:
  name: ingress-nginx
  labels:
    app.kubernetes.io/name: ingress-nginx
    app.kubernetes.io/part-of: ingress-nginx

---

kind: ConfigMap
apiVersion: v1
metadata:
  name: nginx-configuration
  namespace: ingress-nginx
  labels:
    app.kubernetes.io/name: ingress-nginx
    app.kubernetes.io/part-of: ingress-nginx

---

kind: ConfigMap
apiVersion: v1
metadata:
  name: tcp-services
  namespace: ingress-nginx
  labels:
    app.kubernetes.io/name: ingress-nginx
    app.kubernetes.io/part-of: ingress-nginx

---

kind: ConfigMap
apiVersion: v1
metadata:
  name: udp-services
  namespace: ingress-nginx
  labels:
    app.kubernetes.io/name: ingress-nginx
    app.kubernetes.io/part-of: ingress-nginx

---

apiVersion: v1
kind: ServiceAccount
metadata:
  name: nginx-ingress-serviceaccount
  namespace: ingress-nginx
  labels:
    app.kubernetes.io/name: ingress-nginx
    app.kubernetes.io/part-of: ingress-nginx

---

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: nginx-ingress-clusterrole
  labels:
    app.kubernetes.io/name: ingress-nginx
    app.kubernetes.io/part-of: ingress-nginx
rules:
  - apiGroups:
      - ""
    resources:
      - configmaps
      - endpoints
      - nodes
      - pods
      - secrets
    verbs:
      - list
      - watch
  - apiGroups:
      - ""
    resources:
      - nodes
    verbs:
      - get
  - apiGroups:
      - ""
    resources:
      - services
    verbs:
      - get
      - list
      - watch
  - apiGroups:
      - ""
    resources:
      - events
    verbs:
      - create
      - patch
  - apiGroups:
      - "extensions"
      - "networking.k8s.io"
    resources:
      - ingresses
    verbs:
      - get
      - list
      - watch
  - apiGroups:
      - "extensions"
      - "networking.k8s.io"
    resources:
      - ingresses/status
    verbs:
      - update

---

apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
  name: nginx-ingress-role
  namespace: ingress-nginx
  labels:
    app.kubernetes.io/name: ingress-nginx
    app.kubernetes.io/part-of: ingress-nginx
rules:
  - apiGroups:
      - ""
    resources:
      - configmaps
      - pods
      - secrets
      - namespaces
    verbs:
      - get
  - apiGroups:
      - ""
    resources:
      - configmaps
    resourceNames:
      # Defaults to "-"
      # Here: "-"
      # This has to be adapted if you change either parameter
      # when launching the nginx-ingress-controller.
      - "ingress-controller-leader-nginx"
    verbs:
      - get
      - update
  - apiGroups:
      - ""
    resources:
      - configmaps
    verbs:
      - create
  - apiGroups:
      - ""
    resources:
      - endpoints
    verbs:
      - get

---

apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
  name: nginx-ingress-role-nisa-binding
  namespace: ingress-nginx
  labels:
    app.kubernetes.io/name: ingress-nginx
    app.kubernetes.io/part-of: ingress-nginx
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: Role
  name: nginx-ingress-role
subjects:
  - kind: ServiceAccount
    name: nginx-ingress-serviceaccount
    namespace: ingress-nginx

---

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: nginx-ingress-clusterrole-nisa-binding
  labels:
    app.kubernetes.io/name: ingress-nginx
    app.kubernetes.io/part-of: ingress-nginx
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: nginx-ingress-clusterrole
subjects:
  - kind: ServiceAccount
    name: nginx-ingress-serviceaccount
    namespace: ingress-nginx

---

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-ingress-controller
  namespace: ingress-nginx
  labels:
    app.kubernetes.io/name: ingress-nginx
    app.kubernetes.io/part-of: ingress-nginx
spec:
  replicas: 1
  selector:
    matchLabels:
      app.kubernetes.io/name: ingress-nginx
      app.kubernetes.io/part-of: ingress-nginx
  template:
    metadata:
      labels:
        app.kubernetes.io/name: ingress-nginx
        app.kubernetes.io/part-of: ingress-nginx
      annotations:
        prometheus.io/port: "10254"
        prometheus.io/scrape: "true"
    spec:
      hostNetwork: true
      # wait up to five minutes for the drain of connections
      terminationGracePeriodSeconds: 300
      serviceAccountName: nginx-ingress-serviceaccount
      nodeSelector:
        kubernetes.io/os: linux
      containers:
        - name: nginx-ingress-controller
          image: lizhenliang/nginx-ingress-controller:0.30.0
          args:
            - /nginx-ingress-controller
            - --configmap=$(POD_NAMESPACE)/nginx-configuration
            - --tcp-services-configmap=$(POD_NAMESPACE)/tcp-services
            - --udp-services-configmap=$(POD_NAMESPACE)/udp-services
            - --publish-service=$(POD_NAMESPACE)/ingress-nginx
            - --annotations-prefix=nginx.ingress.kubernetes.io
          securityContext:
            allowPrivilegeEscalation: true
            capabilities:
              drop:
                - ALL
              add:
                - NET_BIND_SERVICE
            # www-data -> 101
            runAsUser: 101
          env:
            - name: POD_NAME
              valueFrom:
                fieldRef:
                  fieldPath: metadata.name
            - name: POD_NAMESPACE
              valueFrom:
                fieldRef:
                  fieldPath: metadata.namespace
          ports:
            - name: http
              containerPort: 80
              protocol: TCP
            - name: https
              containerPort: 443
              protocol: TCP
          livenessProbe:
            failureThreshold: 3
            httpGet:
              path: /healthz
              port: 10254
              scheme: HTTP
            initialDelaySeconds: 10
            periodSeconds: 10
            successThreshold: 1
            timeoutSeconds: 10
          readinessProbe:
            failureThreshold: 3
            httpGet:
              path: /healthz
              port: 10254
              scheme: HTTP
            periodSeconds: 10
            successThreshold: 1
            timeoutSeconds: 10
          lifecycle:
            preStop:
              exec:
                command:
                  - /wait-shutdown

---

apiVersion: v1
kind: LimitRange
metadata:
  name: ingress-nginx
  namespace: ingress-nginx
  labels:
    app.kubernetes.io/name: ingress-nginx
    app.kubernetes.io/part-of: ingress-nginx
spec:
  limits:
  - min:
      memory: 90Mi
      cpu: 100m
    type: Container

1 2	# 创建或更新 YAML 文件中定义的 K8s 资源对象 kubectl apply -f nginx-ingress-deploy.yaml

查看特定命名空间下所有 Pod 的运行状态

1	kubectl get pods -n ingress-nginx -o wide

1 2	NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES nginx-ingress-controller-5dc64b58f-x7stf 1/1 Running 0 17m 192.168.2.236 k8s-node3

若需要取消 Ingress 的安装，可以执行以下命令删除 Ingress 相关的所有资源

1	kubectl delete -f nginx-ingress-deploy.yaml

Ingress 的使用案例

提示

本节将使用 Ingress 对外暴露 Pod，让 Kubernetes 集群外部可以直接通过域名访问 Pod。

(1) 创建 Deployment，用于部署 Nginx 的 Pod

通过 YAML 文件（比如 nginx-deploy.yaml）创建 Deployment（用于创建和管理 Pod）

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deploy
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx-pod
  template:
    metadata:
      labels:
        app: nginx-pod
    spec:
      containers:
        - name: nginx
          image: nginx:1.15
          ports:
            - containerPort: 80

1 2	# 创建或更新 YAML 文件中定义的 Deployment 对象 kubectl apply -f nginx-deploy.yaml

查看所有 Pod 的运行状态

1	kubectl get pods -o wide

1 2	NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES nginx-deploy-85b7dd6b6d-grk6n 1/1 Running 0 65m 10.244.3.47 k8s-node2

(2) 创建 Service，用于在集群内部暴露 Nginx 的 Pod

通过 YAML 文件（比如 nginx-service.yaml）创建 Service（用于对外暴露服务）

apiVersion: v1
kind: Service
metadata:
  name: nginx-service       # Service 的名称
spec:
  type: ClusterIP           # Service 类型为 ClusterIP，集群内部可访问
  selector:
    app: nginx-pod          # 选择标签为 app=nginx-pod 的 Pod 作为后端
  ports:
    - port: 80              # Service 对外暴露的端口，集群内部访问时也可以使用该端口
      targetPort: 80        # Pod 内容器实际监听的端口（即将请求转发到容器的 xxxx 端口）

1 2	# 创建或更新 YAML 文件中定义的 Service 对象 kubectl apply -f nginx-service.yaml

查看所有 Service

1	kubectl get services

1
2
3

NAME            TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)   AGE
kubernetes      ClusterIP   10.0.0.1             443/TCP   84d
nginx-service   ClusterIP   10.0.0.193           80/TCP    27s

(3) 创建 Ingress 的路由规则，用于将外部请求转发给 Service

通过 YAML 文件（比如 ingress-http.yaml）创建 Ingress 的路由规则

apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: example-ingress
spec:
  rules:
  - host: example.ingress.com
    http:
      paths:
      - path: /
        pathType: Prefix
        backend:
          service:
            name: nginx-service         # Service 的名称
            port:
              number: 80                # Service 对外暴露的端口

1 2	# 创建或更新 YAML 文件中定义的 Ingress 对象 kubectl apply -f ingress-http.yaml

查看所有 Ingress 路由规则

1	kubectl get ingress

1 2	NAME CLASS HOSTS ADDRESS PORTS AGE example-ingress example.ingress.com 80 13s

(4) 在 K8s 集群外部的操作系统中，添加 Hosts 映射记录

在 K8s 集群外部的操作系统中，编辑系统配置文件 /etc/hosts，添加域名映射记录，其中 192.168.2.236 是 Ingress Controller 所在节点的 IP 地址（请自行更改 IP 地址）

1 2	# 编辑系统配置文件，添加以下内容 vim /etc/hosts

1	192.168.2.236 example.ingress.com

(5) 在 K8s 集群外部的操作系统中，通过域名访问 Ingress，验证 Pod 是否可以访问

在 K8s 集群外部的操作系统中，通过域名访问 Ingress；如果可以成功访问 Nginx 的首页，则说明 Ingress + Service + Pod 都正常运行

1	curl http://example.ingress.com

Kubernetes 入门教程之七

2025-09-13T13:12:19.000Z

大纲

Kubernetes 核心技术

Helm

Helm 的引入

在 Kubernetes 中，应用由特定的资源对象组成，如 Deployment、Service、Ingress 等。通常，这些资源的配置会分别保存在多个独立的 YAML 资源文件中，或集中写入一个 YAML 资源文件中，然后通过 kubectl apply -f 命令进行部署。对于只包含一个或少数几个服务的简单应用，这种方式已经足够。但对于复杂应用（例如微服务架构的系统），往往由十几个甚至数十个服务组成。如果需要更新或回滚应用，就必须修改和维护大量的 YAML 资源文件，这种分散式的管理方式显得十分低效。此外，由于缺乏对应用整体的版本管理与控制，Kubernetes 在应用的维护与更新方面面临以下主要问题：

(1) YAML 资源文件难以实现高效复用；
(2) YAML 资源文件不支持应用级别的版本管理与回滚；
(3) 难以将多个服务作为一个整体进行统一管理。

为此，Kubernetes 引入了 Helm 来解决上述问题。

Helm 的概念

Helm 是 Kubernetes 的包管理工具，类似于 Linux 下的包管理器（如 yum 或 apt），可以方便地将预先打包好的 YAML 资源文件部署到 Kubernetes 集群中。Helm 主要包含以下三个核心概念：

(1) Helm：命令行客户端工具，用于创建、打包、发布和管理 Kubernetes 应用的 Chart。
(2) Chart：应用的描述包，由一组用于定义 Kubernetes 资源的 YAML 资源文件组成。
(3) Release：基于 Chart 的部署实体。每当通过 Helm 部署一个 Chart 时，都会在 Kubernetes 集群中自动生成一个对应的 Release，用于表示实际运行的资源对象。

值得注意的是，在 Chart 安装后，Helm 会自动创建一个对应的 Release 对象，并根据 Chart 模板文件创建相应的 Kubernetes 资源对象（如 Deployment、Service、Ingress 等），随后由控制器（Controller）自动拉起并运行相应的 Pod。

Helm 的版本变化

2019 年 11 月 13 日，Helm 团队发布 Helm v3 的第一个稳定版本。该版本的主要变化如下：

(1) 最明显的变化是 Tiller 的删除
(2) Release 名称可以在不同命名空间中重用
(3) 支持将 Chart 推送至 Docker 镜像仓库中
(4) 使用 JSONSchema 验证 Chart Values
(5) 其他变化

Helm v2 与 v3 版本的整体架构对比如下图所示：

Helm 客户端安装

特别注意

Helm 不同版本的客户端可以从 GitHub Releases 下载得到。
通常只需要在 Kubernetes 集群的 Master 节点上安装 Helm，其他 Worker 节点不需要安装 Helm。

Helm 客户端的安装

# 下载压缩包
wget https://get.helm.sh/helm-v3.2.1-linux-amd64.tar.gz

# 解压压缩包
tar -zxvf helm-v3.2.1-linux-amd64.tar.gz

# 移动文件
sudo mv linux-amd64/helm /usr/bin/

# 查看版本
helm version

Helm 客户端配置国内 Chart 仓库（存储库）

微软仓库：
- 仓库地址：http://mirror.azure.cn/kubernetes/charts
- 这个 Chart 仓库推荐使用，基本上 Kubernetes 官方仓库有的 Chart 它都有。
阿里云仓库：
- 仓库地址：https://kubernetes.oss-cn-hangzhou.aliyuncs.com/charts
- 这个 Chart 仓库国内可以正常访问。
官方仓库：
- 仓库地址：https://hub.kubeapps.com/charts/incubator
- Kubernetes 官方的 Chart 仓库，国内可能无法正常访问。

添加新的仓库

# 添加微软仓库
helm repo add stable http://mirror.azure.cn/kubernetes/charts

# 添加阿里云仓库
helm repo add aliyun https://kubernetes.oss-cn-hangzhou.aliyuncs.com/charts

# 更新本地仓库索引
helm repo update

查看已有的存储库

# 查看已添加的仓库列表
helm repo list

# 在本地仓库中搜索名称包含 stable 的 Chart
helm search repo stable

删除已有的存储库

# 删除名称为 aliyun 的仓库  
helm repo remove aliyun

# 更新本地仓库索引
helm repo update

Helm 的常用命令

Chart 的三个核心命令

chart install：安装一个新的 Chart，并在集群中创建对应的应用实例。
chart upgrade：升级已安装的 Chart 到新版本或更新其配置。
chart rollback：将已部署的 Chart 回滚到指定的历史版本。

Chart 的常用命令列表

命令	描述
`create`	创建一个 Chart 并指定名称
`dependency`	管理 Chart 依赖
`get`	下载一个 Release，可用于命令：`all`、`hooks`、`manifest`、`notes`、`values`
`history`	获取 Release 历史
`install`	安装一个 Chart
`list`	列出 Release
`package`	将 Chart 目录打包到 Chart 存档文件中
`pull`	从远程仓库中下载 Chart 并解压到本地
`repo`	添加、列出、移除、更新和索引 Chart 仓库，可用于命令：`add`、`index`、`list`、`remove`、`update`
`rollback`	从之前版本回滚
`search`	根据关键字搜索 Chart，可用于命令：`hub`、`repo`
`show`	查看 Chart 的详细信息，可用于命令：`all`、`chart`、`readme`、`values`
`status`	显示已命名版本的状态
`template`	本地呈现模板
`uninstall`	卸载一个 Release
`upgrade`	更新一个 Release
`version`	查看 Helm 客户端的版本

Helm 的使用案例

创建管理员用户

提示

本节将演示如何在 Kubernetes 集群中创建管理员用户，否则在后续使用 Helm 时，可能无法正常访问 Kubernetes 资源，比如执行 helm install 命令会出现错误：Error: Kubernetes cluster unreachable。

通过 YAML 文件（比如 admin-user-sa.yaml）创建管理员用户 admin-user

apiVersion: v1
kind: ServiceAccount
metadata:
  name: admin-user
  namespace: kube-system

1	kubectl apply -f admin-user-sa.yaml

通过 YAML 文件（比如 admin-user-rolebinding.yaml）给管理员用户 admin-user 授权

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: admin-user-binding
subjects:
- kind: ServiceAccount
  name: admin-user
  namespace: kube-system
roleRef:
  kind: ClusterRole
  name: cluster-admin
  apiGroup: rbac.authorization.k8s.io

1	kubectl apply -f admin-user-rolebinding.yaml

获取管理员用户 admin-user 的 Token

1
2
3

SECRET_NAME=$(kubectl get sa admin-user -n kube-system -o jsonpath="{.secrets[0].name}")

kubectl get secret $SECRET_NAME -n kube-system -o jsonpath="{.data.token}" | base64 --decode

获取 Kubernetes 集群 CA 证书的 Base64 编码（请自行更改 CA 证书的路径）

1	cat /opt/kubernetes/ssl/ca.pem \| base64 -w 0

创建一个 kubeconfig 文件（比如 admin-user.kubeconfig）

# 创建配置目录（可自定义）
mkdir -p /opt/kubernetes/cfg

# 创建并编辑文件，写入以下 YAML 配置内容
vim /opt/kubernetes/cfg/admin-user.kubeconfig

apiVersion: v1
kind: Config
clusters:
- cluster:
    server: https://:6443                       #  填写 API Server 的 IP 地址和端口
    certificate-authority-data:     #  填写 K8s 集群 CA 证书的 Base64 编码
  name: kubernetes
contexts:
- context:
    cluster: kubernetes
    namespace: default
    user: admin-user
  name: admin-context
current-context: admin-context
users:
- name: admin-user
  user:
    token:       # 填写管理员用户的 Token

验证 kubeconfig 文件（比如 admin-user.kubeconfig）是否可以正常使用

1	kubectl get svc --kubeconfig=/opt/kubernetes/cfg/admin-user.kubeconfig

添加系统环境变量 KUBECONFIG（可选步骤）

# 添加系统环境变量
export KUBECONFIG=/opt/kubernetes/cfg/admin-user.kubeconfig

# 之后就可以直接访问 K8s 资源了，不再需要通过 "--kubeconfig" 参数指定 kubeconfig 文件
kubectl get svc

通过 Chart 部署应用

提示

本节将演示如何使用 Chart 快速部署应用（比如 Weave，这是 Kubernetes 集群可视化与监控工具）。

注意

如果 helm 命令执行失败，并提示错误信息 Error: Kubernetes cluster unreachable，可以参考以下任意一种方案来解决：
(1) 尝试往 helm 命令的末尾添加参数 --kubeconfig=/opt/kubernetes/cfg/admin-user.kubeconfig。
(2) 通过 export KUBECONFIG=/opt/kubernetes/cfg/admin-user.kubeconfig 命令添加对应的环境变量。

搜索指定的 Chart

1	helm search repo weave

NAME              CHART VERSIONAPP VERSIONDESCRIPTION                                       
aliyun/weave-cloud0.1.2                   Weave Cloud is a add-on to Kubernetes which pro...
aliyun/weave-scope0.9.2        1.6.5      A Helm chart for the Weave Scope cluster visual...
stable/weave-cloud0.3.9        1.4.0      DEPRECATED - Weave Cloud is a add-on to Kuberne...
stable/weave-scope1.1.12       1.12.0     DEPRECATED - A Helm chart for the Weave Scope c...

查看指定 Chart 的详细信息

1	helm show chart stable/weave-scope

apiVersion: v1
appVersion: 1.12.0
deprecated: true
description: DEPRECATED - A Helm chart for the Weave Scope cluster visualizer.
home: https://www.weave.works/oss/scope/
icon: https://avatars1.githubusercontent.com/u/9976052?s=64
keywords:
- containers
- dashboard
- monitoring
name: weave-scope
sources:
- https://github.com/weaveworks/scope
version: 1.1.12

安装指定的 Chart

1	helm install ui stable/weave-scope

NAME: ui
LAST DEPLOYED: Tue Oct 28 20:17:33 2025
NAMESPACE: default
STATUS: deployed
REVISION: 1
NOTES:
You should now be able to access the Scope frontend in your web browser, by
using kubectl port-forward:

kubectl -n default port-forward $(kubectl -n default get endpoints \
ui-weave-scope -o jsonpath='{.subsets[0].addresses[0].targetRef.name}') 8080:4040

then browsing to http://localhost:8080/.
For more details on using Weave Scope, see the Weave Scope documentation:

https://www.weave.works/docs/scope/latest/introducing/

查看发布（Release）的列表

helm list

1 2	NAMENAMESPACEREVISIONUPDATED STATUS CHART APP VERSION ui default 1 2025-10-28 20:17:33.899483553 +0800 CSTdeployedweave-scope-1.1.121.12.0

查看指定发布（Release）的详细信息

1	helm status ui

NAME: ui
LAST DEPLOYED: Tue Oct 28 20:17:33 2025
NAMESPACE: default
STATUS: deployed
REVISION: 1
NOTES:
You should now be able to access the Scope frontend in your web browser, by
using kubectl port-forward:

kubectl -n default port-forward $(kubectl -n default get endpoints \
ui-weave-scope -o jsonpath='{.subsets[0].addresses[0].targetRef.name}') 8080:4040

then browsing to http://localhost:8080/.
For more details on using Weave Scope, see the Weave Scope documentation:

https://www.weave.works/docs/scope/latest/introducing/

查看所有 Pod 的运行状态

1	kubectl get pods

NAME                                            READY   STATUS    RESTARTS   AGE
weave-scope-agent-ui-lw2lf                      1/1     Running   0          35s
weave-scope-agent-ui-nn4vs                      1/1     Running   0          35s
weave-scope-agent-ui-pzqgk                      1/1     Running   0          35s
weave-scope-agent-ui-qbcvm                      1/1     Running   0          35s
weave-scope-cluster-agent-ui-5cbc84db49-4wvvt   1/1     Running   0          35s
weave-scope-frontend-ui-6698fd5545-4lpl9        1/1     Running   0          35s

查看所有 Service

1	kubectl get svc

1
2
3

NAME             TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)   AGE
kubernetes       ClusterIP   10.0.0.1             443/TCP   86d
ui-weave-scope   ClusterIP   10.0.0.64            80/TCP    78s

若希望在 Kubernetes 集群外部访问 Weave，可以更改 Service 的类型

1 2	# 编辑 Service 的配置，更改 type 参数，保存退出后自动生效 kubectl edit svc ui-weave-scope

spec:
  clusterIP: 10.0.0.64
  ports:
  - name: http
    port: 80
    protocol: TCP
    targetPort: http
  selector:
    app: weave-scope
    component: frontend
    release: ui
  sessionAffinity: None
  type: NodePort      # 将 Service 的类型更改为 NodePort

1 2	# 查看所有 Service，获取节点暴露的端口 kubectl get svc

1
2
3

NAME             TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)        AGE
kubernetes       ClusterIP   10.0.0.1             443/TCP        86d
ui-weave-scope   NodePort    10.0.0.64            80:31764/TCP   6m4s

最后通过任意一个集群节点的 IP 与 Service 对外暴露的端口（比如 `http://192.168.2.191:31764`），就可以在 Kubernetes 集群外部通过浏览器访问 Weave 的 Web 控制台页面

若希望卸载前面所安装的 Chart，可以执行以下命令

# 直接删除 Chart，默认不会删除关联的 PVC（数据卷）
helm uninstall ui

# 如果需要删除 Chart 关联的 PVC（数据卷），可以执行以下命令
kubectl delete pvc -l release=ui

自定义 Chart 配置信息

提示

本节将演示如何在安装 Chart 之前，自定义 Chart 的配置信息，目的是覆盖 Chart 的默认配置信息。

注意

如果 helm 命令执行失败，并提示错误信息 Error: Kubernetes cluster unreachable，可以参考以下任意一种方案来解决：
(1) 尝试往 helm 命令的末尾添加参数 --kubeconfig=/opt/kubernetes/cfg/admin-user.kubeconfig。
(2) 通过 export KUBECONFIG=/opt/kubernetes/cfg/admin-user.kubeconfig 命令添加对应的环境变量。

自定义 Chart 配置信息的原因在于，Chart 仓库中并非所有 Chart 都能在默认配置下成功运行，有时需要根据环境提供额外依赖，例如 PVC（数据卷）。因此，需要在安装 Chart 前自定义配置信息，主要有以下两种配置信息传递方式：

--values 或 -f
- 指定一个包含覆盖配置信息的 YAML 文件。
- 可以指定多个 YAML 文件，右边的 YAML 文件优先级更高。
--set
- 直接在命令行中指定覆盖配置信息。
- 当同时使用 --values 与 --set 时，--set 的优先级更高。
- YAML 与 --set 配置格式的对比请看这里。

查看指定 Chart 的默认配置信息

1	helm show values stable/mysql

创建 YAML 配置文件，用于覆盖 Chart 的默认配置信息

1	vim mysql-server-config.yaml

persistence:
  enabled: false                          # 关闭持久化存储
mysqlUser: "k8s"                          # 自定义 MySQL 用户名
mysqlPassword: "123456"                   # 自定义 MySQL 密码
mysqlDatabase: "k8s"                      # 自定义创建的数据库名称

安装指定的 Chart，并覆盖默认配置

1	helm install mysql-server -f mysql-server-config.yaml stable/mysql

查看所有 Pod 的运行状态

1	kubectl get pods

1 2	NAME READY STATUS RESTARTS AGE mysql-server-9c7558dc8-rb89z 0/1 Running 0 15s

查看所有 Service

1	kubectl get svc

1
2
3

NAME           TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)    AGE
kubernetes     ClusterIP   10.0.0.1             443/TCP    86d
mysql-server   ClusterIP   10.0.0.4             3306/TCP   88s

验证 Chart 的安装

# 启动一个临时容器并连接进去，--rm 参数表示退出后会自动销毁容器
kubectl run -it mysql-client --rm --restart=Never --image=mysql:5.7 -- bash

# 在临时容器的内部登录 MySQL（可以通过 Service 的名称直接访问 MySQL Server，前提是在同一个命名空间，且安装了 CoreDNS）
mysql -hmysql-server -uk8s -p123456

Helm 构建自定义的 Chart

提示

本节将演示如何构建一个自己的 Chart（比如，用于部署 Nginx 的 Chart），并将其安装和打包。

三大核心构建步骤

Kubernetes 支持用户构建（开发）自己的 Chart，核心的构建步骤如下：

(1) 创建 Chart 基础模板
- 使用 helm create 命令创建基础模板。
(2) 更改 Chart 配置文件
- 编辑 Chart.yaml 文件，填写应用名称、版本、描述等信息。
- 编辑 values.yaml 文件，添加常用变量和默认值，用于自定义配置。
(3) 创建 Chart 模板文件
- 在自动生成的 templates 目录下，创建或编辑部署应用所需的 YAML 文件（如 Deployment、Service、Ingress 等）。
- 在 YAML 文件中，可以使用变量引用经常变化的字段，支持从 values.yaml 文件中获取动态值，比如 replicas: {{ .Values.replicas }}。

Chart 的构建安装

(1) 构建自定义的 Chart

创建一个 Chart，自动生成 Chart 的模板文件（YAML 配置文件）

1	helm create nginx

1	tree nginx/

nginx/
├── charts
├── Chart.yaml
├── templates
│   ├── deployment.yaml
│   ├── _helpers.tpl
│   ├── hpa.yaml
│   ├── ingress.yaml
│   ├── NOTES.txt
│   ├── serviceaccount.yaml
│   ├── service.yaml
│   └── tests
│       └── test-connection.yaml
└── values.yaml

文件 / 目录名	类型	描述	主要作用
`charts/`	目录	存放 Chart 依赖的所有子 Chart	管理当前 Chart 所依赖的其他 Chart，支持复杂的应用依赖关系
`Chart.yaml`	文件	描述 Chart 的基本信息	定义 Chart 的名称、描述、版本、依赖关系等元数据
`values.yaml`	文件	存储模板文件中使用的变量值	提供用户可配置的参数默认值，支持部署时的自定义配置
`templates/`	目录	存放所有 YAML 模板文件	包含 Kubernetes 资源清单模板，如 Deployment、Service、ConfigMap 等
`NOTES.txt`	文件	介绍 Chart 的帮助信息	在 `helm install` 部署后展示给用户，包含使用指南和默认设置说明
`_helpers.tpl`	文件	放置模板助手的地方	定义可以在整个 Chart 中重复使用的模板片段或函数，提高模板代码的复用性和可维护性

删除自动生成的 Chart 模板文件（可选步骤）

1	rm -rf nginx/templates/*

编辑 Chart 的 Chart.yaml 文件，定义 Chart 的名称、描述、版本等信息

1	vim nginx/Chart.yaml

apiVersion: v2
name: nginx
description: A custom Helm chart for nginx application
type: application
version: 1.0.0
appVersion: 1.15

创建或编辑 Chart 的模板文件 deployment.yaml，定义要创建的 Deployment

1	vim nginx/templates/deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deploy
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx-pod
  template:
    metadata:
      labels:
        app: nginx-pod
    spec:
      containers:
        - name: nginx
          image: nginx:1.15
          ports:
            - containerPort: 80

创建或编辑 Chart 的模板文件 service.yaml，定义要创建的 Service

1	vim nginx/templates/service.yaml

apiVersion: v1
kind: Service
metadata:
  labels:
    app: nginx-pod
  name: nginx-svc
spec:
  ports:
  - port: 80
    protocol: TCP
    targetPort: 80
  selector:
    app: nginx-pod
  type: NodePort

(2) 安装自定义的 Chart

安装自定义的 Chart

1 2	# 这里的 web 是 Release 的名称 helm install web nginx/

NAME: web
LAST DEPLOYED: Wed Oct 13 21:10:20 2025
NAMESPACE: default
STATUS: deployed
REVISION: 1
TEST SUITE: None

还可以将自定义的 Chart 打包成 .tgz 压缩包，共享给别人使用

1	helm package nginx/

1	nginx-1.0.0.tgz

查看实际的 Chart 模板被渲染过后的 YAML 资源文件

1 2	# 这里的 web 是 Release 的名称 helm get manifest web

---
# Source: nginx/templates/service.yaml
apiVersion: v1
kind: Service
metadata:
  labels:
    app: nginx-pod
  name: nginx-svc
spec:
  ports:
  - port: 80
    protocol: TCP
    targetPort: 80
  selector:
    app: nginx-pod
  type: NodePort
---
# Source: nginx/templates/deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deploy
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx-pod
  template:
    metadata:
      labels:
        app: nginx-pod
    spec:
      containers:
        - name: nginx
          image: nginx:1.15
          ports:
            - containerPort: 80

(3) 验证自定义的 Chart

查看发布（Release）的列表

helm list

1 2	NAMENAMESPACEREVISIONUPDATED STATUS CHART APP VERSION web default 1 2025-10-13 21:10:20.593922287 +0800 CSTdeployednginx-1.0.01.15

查看所有 Pod 的运行状态

1	kubectl get pods

1 2	NAME READY STATUS RESTARTS AGE nginx-deploy-85b7dd6b6d-2dswj 1/1 Running 0 104s

查看所有 Service

1	kubectl get svc

1
2
3

NAME         TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)        AGE
kubernetes   ClusterIP   10.0.0.1             443/TCP        86d
nginx-svc    NodePort    10.0.0.150           80:32377/TCP   2m20s

1	最后通过任意一个集群节点的 IP 与 Service 对外暴露的端口（比如 `http://192.168.2.191:32377`），就可以在 Kubernetes 集群外部通过浏览器访问 Nginx 的首页面

Chart 的版本升级

在 Chart 安装（发布）后，如果 Chart 的模板文件发生了变更，可以执行以下命令对已部署的应用进行升级

1 2	# 这里 web 是 Release 的名称 helm upgrade web nginx/

Release "web" has been upgraded. Happy Helming!
NAME: web
LAST DEPLOYED: Wed Oct 13 21:37:23 2025
NAMESPACE: default
STATUS: deployed
REVISION: 2
TEST SUITE: None

或者使用 - 参数进行升级（指定包含覆盖配置信息的 YAML 文件）

1 2	# 这里 web 是 Release 的名称 helm upgrade -f values.yaml web nginx/

或者使用 --set 参数进行升级（直接传入参数值）

1 2	# 这里 web 是 Release 的名称 helm upgrade --set imageTag=1.17 web nginx/

Chart 的版本回滚

提示

在 Chart 安装（发布）后，如果没有达到预期的效果，则可以使用 helm rollback 将 Release 回滚到之前的版本。

查看 Release 的列表

helm list

1 2	NAMENAMESPACEREVISIONUPDATED STATUS CHART APP VERSION web default 1 2025-10-13 21:10:20.593922287 +0800 CSTdeployednginx-1.0.01.15

查看指定 Release 的历史版本

1 2	# 这里的 web 是 Release 的名称 helm history web

1
2
3

REVISIONUPDATED                 STATUS    CHART      APP VERSIONDESCRIPTION     
1       Wed Oct 13 21:10:20 2025supersedednginx-1.0.01.15       Install complete
2       Wed Oct 13 21:23:26 2025deployed  nginx-1.0.01.15       Upgrade complete

将 Release 回滚到指定的历史版本

1 2	# 这里的 web 是 Release 的名称，1 是要 Release 回滚到的历史版本号 helm rollback web 1

查看 Release 的版本是否成功回滚

1 2	# 这里的 web 是 Release 的名称 helm status web

NAME: web
LAST DEPLOYED: Wed Oct 13 21:31:56 2025
NAMESPACE: default
STATUS: deployed
REVISION: 3
TEST SUITE: None

推送 Chart 到仓库

对于自定义的 Chart，除了可以打包成 .tgz 压缩包，还可以将其推送到 Chart 仓库（如 Harbor、ChartMuseum 等），详细的推送步骤可以参考网上的资料，这里不再累述。

Helm 中 Chart 模板的使用

Chart 模板的简单介绍

Helm 的核心在于模板化的 Kubernetes Manifests 文件，这些模板本质上是基于 Go Template 的模板文件。在原生 Go 模板语法的基础上，Helm 还扩展了许多功能，例如：

自定义的元数据定义（如 Chart.yaml）
内置函数库和模板函数
类似编程语言的控制语句（如条件判断、循环、管道等）

这些扩展使模板具备了强大的灵活性和复用性。为了将用户的具体配置与模板结合，Helm 使用 values.yaml 文件来提供参数化的配置数据。

提示

模板文件与 values 文件的结合，这就是 Helm Chart 的核心机制 —— 通过模板化 + 参数化的方式，实现 Kubernetes 应用的灵活部署与管理。

Chart 模板的使用案例

(1) 构建自定义的 Chart

创建一个 Chart，自动生成 Chart 的模板文件（YAML 配置文件）

1	helm create nginx

1	tree nginx/

nginx/
├── charts
├── Chart.yaml
├── templates
│   ├── deployment.yaml
│   ├── _helpers.tpl
│   ├── hpa.yaml
│   ├── ingress.yaml
│   ├── NOTES.txt
│   ├── serviceaccount.yaml
│   ├── service.yaml
│   └── tests
│       └── test-connection.yaml
└── values.yaml

文件 / 目录名	类型	描述	主要作用
`charts/`	目录	存放 Chart 依赖的所有子 Chart	管理当前 Chart 所依赖的其他 Chart，支持复杂的应用依赖关系
`Chart.yaml`	文件	描述 Chart 的基本信息	定义 Chart 的名称、描述、版本、依赖关系等元数据
`values.yaml`	文件	存储模板文件中使用的变量值	提供用户可配置的参数默认值，支持部署时的自定义配置
`templates/`	目录	存放所有 YAML 模板文件	包含 Kubernetes 资源清单模板，如 Deployment、Service、ConfigMap 等
`NOTES.txt`	文件	介绍 Chart 的帮助信息	在 `helm install` 部署后展示给用户，包含使用指南和默认设置说明
`_helpers.tpl`	文件	放置模板助手的地方	定义可以在整个 Chart 中重复使用的模板片段或函数，提高模板代码的复用性和可维护性

删除自动生成的 Chart 模板文件（可选步骤）

1	rm -rf nginx/templates/*

编辑 Chart 的 Chart.yaml 文件，定义 Chart 的名称、描述、版本等信息

1	vim nginx/Chart.yaml

apiVersion: v2
name: nginx
description: A Helm chart for Nginx
type: application
version: 0.1.0
appVersion: 1.15

编辑 Chart 的 values.yaml 文件，定义全局的变量值

1	vim nginx/values.yaml

image: nginx
tag: 1.15
replicas: 3
serviceport: 80
targetport: 80
containerPort: 80
label: nginx-app

创建或编辑 Chart 的模板文件 NOTES.txt，定义 Chart 的帮助信息（使用指南）

1	vim nginx/templates/NOTES.txt

1 2	Get service expose port: `kubectl get svc` Access nginx by: `http://:`

创建或编辑 Chart 的模板文件 deployment.yaml，定义要创建的 Deployment

1	vim nginx/templates/deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: {{ .Release.Name }}
  labels:
    app: {{ .Values.label }}
spec:
  replicas: {{ .Values.replicas }}
  selector:
    matchLabels:
      app: {{ .Values.label }}
  template:
    metadata:
      labels:
        app: {{ .Values.label }}
    spec:
      containers:
        - name: web
          image: {{ .Values.image }}:{{ .Values.tag }}
          ports:
            - containerPort: {{ .Values.containerPort }}

创建或编辑 Chart 的模板文件 service.yaml，定义要创建的 Service

1	vim nginx/templates/service.yaml

apiVersion: v1
kind: Service
metadata:
  name: {{ .Release.Name }}
  labels:
    app: {{ .Values.label }}
spec:
  type: NodePort
  selector:
    app: {{ .Values.label }}
  ports:
    - port: {{ .Values.serviceport }}
      targetPort: {{ .Values.targetport }}
      protocol: TCP

(2) 安装自定义的 Chart

安装自定义的 Chart

1 2	# 这里的 web 是 Release 的名称 helm install web nginx/

NAME: web
LAST DEPLOYED: Wed Oct 13 17:39:32 2025
NAMESPACE: default
STATUS: deployed
REVISION: 1
TEST SUITE: None
NOTES:
Get service expose port: `kubectl get svc`
Access nginx by: `http://:`

查看实际的 Chart 模板被渲染过后的 YAML 资源文件

1 2	# 这里的 web 是 Release 的名称 helm get manifest web

---
# Source: nginx/templates/service.yaml
apiVersion: v1
kind: Service
metadata:
  name: web
  labels:
    app: nginx-app
spec:
  type: NodePort
  selector:
    app: nginx-app
  ports:
    - port: 80
      targetPort: 80
      protocol: TCP
---
# Source: nginx/templates/deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: web
  labels:
    app: nginx-app
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx-app
  template:
    metadata:
      labels:
        app: nginx-app
    spec:
      containers:
        - name: web
          image: nginx:1.15
          ports:
            - containerPort: 80

(3) 验证自定义的 Chart

查看发布（Release）的列表

helm list

1 2	NAMENAMESPACEREVISIONUPDATED STATUS CHART APP VERSION web default 1 2025-10-29 17:39:32.267654796 +0800 CSTdeployednginx-0.1.01.15

查看所有 Pod 的运行状态

1	kubectl get pods

NAME                   READY   STATUS    RESTARTS   AGE
web-766795cc8b-6knwm   1/1     Running   0          100s
web-766795cc8b-7nlr4   1/1     Running   0          100s
web-766795cc8b-q4h8q   1/1     Running   0          100s

查看所有 Service

1	kubectl get svc

1
2
3

NAME         TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)        AGE
kubernetes   ClusterIP   10.0.0.1             443/TCP        86d
web          NodePort    10.0.0.197           80:30654/TCP   2m13s

1	最后通过任意一个集群节点的 IP 与 Service 对外暴露的端口（比如 `http://192.168.2.191:30654`），就可以在 Kubernetes 集群外部通过浏览器访问 Nginx 的首页面

Chart 模板的调试技巧

Helm 提供了 --dry-run 和 --debug 调试参数，可用于在执行 helm install 命令之前，验证 Chart 模板文件的正确性。
当 helm install 命令加上这两个参数后，Helm 会将模板文件与对应的 values.yaml 文件进行渲染，并打印出生成的 YAML 资源清单，而不会实际部署任何 Release。
比如，调试上面案例中自定义的 Chart 包，可以使用以下命令：

1 2	# 这里的 web 是 Release 的名称 helm install web --dry-run nginx/

Chart 模板的内置对象

上面使用 {{.Release.Name}} 将 Release 的名称插入到 Chart 模板中。这里的 Release 就是 Helm 的内置对象，下面是一些常用的内置对象：

Helm 内置对象	描述
`Release.Name`	Release 名称
`Release.Namespace`	Release 命名空间
`Release.Service`	Release 服务的名称
`Release.Revision`	Release 修订版本号，从 1 开始累加

Chart 模板的 Values 对象

Values 对象用于为 Chart 模板文件提供参数值，其来源主要有以下四个：

(1) Chart 包中的 values.yaml 文件
(2) 父 Chart 包中的 values.yaml 文件
(3) 通过 helm install 或 helm upgrade 命令使用 -f 或 --values 参数传入的自定义 YAML 配置文件
(4) 通过 helm install 或 helm upgrade 命令使用 --set 参数直接传入的值

参数值不同来源的优先级关系

Chart 参数值的优先级遵循一定的覆盖顺序（优先级）：Chart 包中的 values.yaml 文件 < 用户通过 -f 参数自定义的 YAML 配置文件 < 用户通过 --set 参数传入的值。

举个例子，通过 --set 参数更新 Chart（比如，Pod 的副本数量）

1 2	# 这里的 web 是 Release 的名称 helm upgrade web --set replicas=5 nginx/

Release "web" has been upgraded. Happy Helming!
NAME: web
LAST DEPLOYED: Wed Oct 13 18:04:34 2025
NAMESPACE: default
STATUS: deployed
REVISION: 2
TEST SUITE: None
NOTES:
Get service expose port: `kubectl get svc`
Access nginx by: `http://:`

查看指定 Release 的历史版本

1 2	# 这里的 web 是 Release 的名称 helm history web

1
2
3

REVISIONUPDATED                 STATUS    CHART      APP VERSIONDESCRIPTION     
1       Wed Oct 13 17:39:32 2025supersedednginx-0.1.01.15       Install complete
2       Wed Oct 13 18:04:34 2025deployed  nginx-0.1.01.15       Upgrade complete

查看所有 Pod 的运行状态

1	kubectl get pods

NAME                   READY   STATUS    RESTARTS   AGE
web-766795cc8b-6knwm   1/1     Running   0          28m
web-766795cc8b-7nlr4   1/1     Running   0          28m
web-766795cc8b-lpr27   1/1     Running   0          3m57s
web-766795cc8b-q4h8q   1/1     Running   0          28m
web-766795cc8b-vpdh4   1/1     Running   0          3m57s

Chart 模板的函数与管道

模板函数与管道的简单介绍

前面讲的内容，其实就是将参数值传给 Go 模板引擎进行渲染，模板引擎还支持通过模板函数和管道对拿到数据（参数值）进行二次处理。Helm 支持的模板函数和管道如下所示：

默认值处理
- default
  - 为不存在或空的值提供默认值
  - 调用语法：{{ .Values.name | default "nginx" }}
大小写转换
- upper
  - 将字符串转换为大写
  - 调用语法：{{ upper .Values.resources }}
- lower
  - 将字符串转换为小写
  - 调用语法：{{ lower .Values.resources }}
- title
  - 将首字母大写
  - 调用语法：{{ title .Values.resources }}
布尔、数字、长度
- bool
  - 将值转换为布尔
  - 调用语法：{{ bool .Values.featureFlag }}
- int
  - 将值转换为整数
  - 调用语法：{{ int .Values.replicaCount }}
- float
  - 将值转换为浮点数
  - 调用语法：{{ float .Values.cpus }}
- len
  - 获取列表（数组）、字典或字符串的长度
  - 调用语法：{{ len .Values.env }}
字符串转换、拼接与替换
- quote
  - 将参数值转换为带双引号的字符串
  - 调用语法：{{ quote .Values.label }}
- cat
  - 拼接多个字符串
  - 调用语法：{{ cat .Release.Name "-" .Chart.Name }}
- replace
  - 替换字符串
  - 调用语法：{{ .Values.name | replace "_" "-" }}
- trim
  - 去除字符串首尾空格
  - 调用语法：{{ .Values.name | trim " " }}
- trimAll
  - 去除指定字符
  - 调用语法：{{ .Values.name | trimAll "-" }}
加空格与缩进
- indent
  - 每行前加指定空格数
  - 调用语法：{{ .Values.resources | indent 10 }}
- nindent
  - 每行缩进并加换行
  - 调用语法：{{ .Values.resources | nindent 10 }}
对象转换
- toYaml
  - 将对象转换为 YAML
  - 调用语法：{{ .Values.resources | toYaml }}
- toJson
  - 将对象转换为 JSON
  - 调用语法：{{ .Values.config | toJson | quote }}
条件 / 验证
- hasKey
  - 判断字典中是否存在某个键
  - 调用语法：{{- if hasKey .Values.env "JAVA_HOME" }}
- required
  - 必填参数验证，参数不存在时报错
  - 调用语法：{{ required "image.repository is required" .Values.image.repository }}

模板函数 quote 的使用案例

在上面案例的基础上，通过模板函数 quote 将从 .Values 中读取到的参数值转换成字符串

1	vim nginx/templates/deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: {{ .Release.Name }}
  labels:
    app: {{ quote .Values.label }}
spec:
  replicas: {{ .Values.replicas }}
  selector:
    matchLabels:
      app: {{ quote .Values.label }}
  template:
    metadata:
      labels:
        app: {{ quote .Values.label }}
    spec:
      containers:
        - name: web
          image: {{ .Values.image }}:{{ .Values.tag }}
          ports:
            - containerPort: {{ .Values.containerPort }}

将模板文件与对应的 values.yaml 文件进行渲染，并打印出生成的 YAML 资源清单，不会实际部署任何 Release

1 2	# 这里的 web 是 Release 的名称 helm install web --dry-run nginx/

...(省略)

apiVersion: apps/v1
kind: Deployment
metadata:
  name: web
  labels:
    app: "nginx-app"    # 参数值已经被 quote 模板函数转换为字符串
spec:
  replicas: 3
  selector:
    matchLabels:
      app: "nginx-app"
  template:
    metadata:
      labels:
        app: "nginx-app"
    spec:
      containers:
        - name: web
          image: nginx:1.15
          ports:
            - containerPort: 80

Chart 模板的流程控制语句

流程控制是为 Chart 模板提供了一种能力，满足更复杂的数据逻辑处理。Helm 模板语言提供以下流程控制语句：

if/else：条件块
with：指定范围
range：循环块

if/else

if/else 的简单介绍

if/else 块是用于在模板中有条件地包含文本块的方法，条件块的基本结构如下：

{{ if PIPELINE }}
# Do something
{{ elseif OTHER PIPELINE }}
# Do something else
{{ else }}
# Default case
{{ end }}

条件判断支持使用 eq 运算符来判断是否相等，除此之外，还支持 ne、lt、gt、and、or 等运算符，请注意数据类型。
条件判断就是判断条件是否为 true，如果值为以下几种情况之一则为 false：
- 一个布尔类型的 false
- 一个数字零
- 一个空的字符串
- 一个空的集合（map、slice、tuple、dict、array）
除了上面的这些情况外，其他所有条件都为 true。

if/else 的使用案例一，演示如何使用基本的条件判断

在 Chart 包中，values.yaml 文件的内容如下

1	cat values.yaml

1	devops: k8s

在 Chart 包中，deployment.yaml 文件的内容如下

1	cat templates/deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: web
  labels:
    app: nginx-app
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx-app
  template:
    metadata:
      labels:
        app: nginx
        {{ if eq .Values.devops "k8s" }}
        devops: true
        {{ else }}
        devops: false
        {{ end }}
    spec:
      containers:
        - name: web
          image: nginx:1.15
          ports:
            - containerPort: 80

通过模板引擎渲染后，会得到如下结果

1 2	# 这里的 web 是 Release 的名称 helm install web --dry-run nginx/

apiVersion: apps/v1
kind: Deployment
metadata:
  name: web
  labels:
    app: nginx-app
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx-app
  template:
    metadata:
      labels:
        app: nginx
        
        devops: true
        
    spec:
      containers:
        - name: web
          image: nginx:1.15
          ports:
            - containerPort: 80

可以看到渲染出来结果会有多余的空行，这是因为当模板引擎渲染时，会将控制指令删除掉，所以之前占的位置也就空白了，需要使用 {{- if ... }} 的方式来消除空行

1	cat templates/deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: web
  labels:
    app: nginx-app
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx-app
  template:
    metadata:
      labels:
        app: nginx
        {{- if eq .Values.devops "k8s" }}
        devops: true
        {{- else }}
        devops: false
        {{- end }}
    spec:
      containers:
        - name: web
          image: nginx:1.15
          ports:
            - containerPort: 80

如果使用 -}} 需谨慎，比如在上面的模板文件中：

...(省略)

env:
  {{- if eq .Values.devops "k8s" -}}
  - devops: true
  {{- end }}

最终会渲染成下面这样子，因为 -}} 它会删除双方的换行符，导致模板文件渲染失败

1	env:- devops: true

if/else 的使用案例二，演示如何判断一个数组是否为空

在 Chart 包中，values.yaml 文件的内容如下

1	cat values.yaml

resources: {}
  # limits:
  #   cpu: "100m"
  #   memory: "128Mi"
  # requests:
  #   cpu: "100m"
  #   memory: "128Mi"

在 Chart 包中，deployment.yaml 文件的内容如下

1	cat templates/deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: web
  labels:
    app: nginx-app
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx-app
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
        - name: nginx
          image: nginx:1.16
          {{- if .Values.resources }}
          resources:
{{ toYaml .Values.resources | indent 12 }}
          {{- end }}

if/else 的使用案例三，演示如何判断一个布尔值是否为 true

在 Chart 包中，values.yaml 文件的内容如下

1	cat values.yaml

service:
  type: ClusterIP
  port: 80
ingress:
  enabled: true
  host: example.ingress.com

在 Chart 包中，ingress.yaml 文件的内容如下

1	cat templates/ingress.yaml

{{- if .Values.ingress.enabled }}
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: {{ .Release.Name }}-ingress
spec:
  rules:
    - host: {{ .Values.ingress.host }}
      http:
        paths:
          - path: /
            pathType: Prefix
            backend:
              service:
                name: {{ .Release.Name }}
                port:
                  number: {{ .Values.service.port }}
{{- end }}

range

在 Helm 模板语言中，可以使用 range 语句来进行循环操作。

range 的使用案例，演示如何通过 range 读取一个数组的所有元素值

在 Chart 包中，values.yaml 文件的内容如下

1	cat values.yaml

list:
  - 1
  - 2
  - 3

在 Chart 包中，deployment.yaml 文件的内容如下

1	cat templates/deployment.yaml

在 Chart 包中，deployment.yaml 文件的内容如下（在循环内部使用的是一个 . 符号，这是因为当前的作用域就在当前循环内，这个 . 符号用于表示当前读取到的元素）

apiVersion: v1
kind: ConfigMap
metadata:
  name: {{ .Release.Name }}
data:
  list: |
  {{- range .Values.list }}
    {{ . }}
  {{- end }}

通过模板引擎渲染后，会得到如下结果

apiVersion: v1
kind: ConfigMap
metadata:
  name: web
data:
  list: |
    1
    2
    3

with

with 的简单介绍

with 语句就可以用来控制变量的作用域范围。
with 的使用语法和一个简单的 if 语句比较类似：

1
2
3

{{ with PIPELINE }}
  # restricted scope
{{ end }}

值得注意的是，在 with 语句块内不能使用内置对象（比如 .Release.Name），否则模板渲染会失败，可以将内置对象赋值给一个变量来解决该问题。
with 语句可以允许将当前范围 . 设置为特定的对象，比如前面一直使用的 .Values.label，就是使用 with 语句来将当前范围 . 指向 .Values.label。
还记得之前的 {{ .Release.xxx }} 或者 {{ .Values.xxx }} 吗？其中的 . 符号就是表示对当前范围的引用，.Values 就是告诉模板引擎在当前范围中查找 Values 对象的值。

with 的使用案例，演示如何使用 with 来控制变量作用域

在 Chart 包中，values.yaml 文件的内容如下

1	cat values.yaml

1
2
3

nodeSelector:
  team: python
  gpu: yes

在 Chart 包中，deployment.yaml 文件的内容如下

1	cat templates/deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: {{ .Release.Name }}-deployment
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      {{- with .Values.nodeSelector }}
      nodeSelector:
        team: {{ .team }}
        gpu: {{ .gpu }}
      {{- end }}
      containers:
        - name: nginx
          image: nginx:1.16

通过模板引擎渲染后，会得到如下结果

apiVersion: apps/v1
kind: Deployment
metadata:
  name: web-deployment
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      nodeSelector:
        team: python
        gpu: true
      containers:
        - name: nginx
          image: nginx:1.16

上面的配置内容还可以继续优化一下

apiVersion: apps/v1
kind: Deployment
metadata:
  name: {{ .Release.Name }}-deployment
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      {{- with .Values.nodeSelector }}
      nodeSelector:
        {{ toYaml . | nindent 8 }}
      {{- end }}
      containers:
        - name: nginx
          image: nginx:1.16

Chart 模板的变量

在 Chart 模板中，使用变量的场景不多，但下面将看到如何使用变量来简化模板代码，并更好地使用 with 和 range 语句。

变量的使用案例一，演示如何通过变量获取数组的键值

在 Chart 包中，values.yaml 文件的内容如下

1	cat values.yaml

1
2
3

env:
  NAME: "gateway"
  JAVA_OPTS: "-Xmx2G"

在 Chart 包中，deployment.yaml 文件的内容如下（在 range 循环中，使用 $k 和 $v 这两个变量来接收后面数组循环的键和值）

1	cat templates/deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: gateway-deploy
  labels:
    app: gateway-app
spec:
  replicas: 3
  selector:
    matchLabels:
      app: gateway-app
  template:
    metadata:
      labels:
        app: gateway-app
    spec:
      containers:
        - name: gateway
          image: gateway:2.13
          env:
            {{- range $k, $v := .Values.env }}
            - name: {{ $k }}
              value: {{ $v | quote }}
            {{- end }}

通过模板引擎渲染后，会得到如下结果

apiVersion: apps/v1
kind: Deployment
metadata:
  name: gateway-deploy
  labels:
    app: gateway-app
spec:
  replicas: 3
  selector:
    matchLabels:
      app: gateway-app
  template:
    metadata:
      labels:
        app: gateway-app
    spec:
      containers:
        - name: gateway
          image: gateway:2.13
          env:
            - name: NAME
              value: "gateway"
            - name: JAVA_OPTS
              value: "-Xmx2G"

变量的使用案例二，演示如何解决在 with 语句块中不能使用内置对象的问题

在 Chart 包中，values.yaml 文件的内容如下

1	cat values.yaml

replicas: 3

label:
  project: my-project
  app: nginx

在 Chart 包中，deployment.yaml 文件的内容如下（模板文件渲染会报错，因为在 with 语句块内不能再使用内置对象，比如 .Release.Name）

1	cat templates/deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: {{ .Release.Name }}-deploy
spec:
  replicas: {{ .Values.replicas }}
  template:
    metadata:
      labels:
        {{- with .Values.label }}
        project: {{ .project }}
        app: {{ .app }}
        release: {{ .Release.Name }}
        {{- end }}

上面的模板内容会渲染失败，但可以将内置对象赋值给一个变量来解决该问题

apiVersion: apps/v1
kind: Deployment
metadata:
  name: {{ .Release.Name }}-deploy
spec:
  replicas: {{ .Values.replicas }}
  selector:
    matchLabels:
      app: {{ .Values.label.app }}
  template:
    metadata:
      labels:
        {{- $releaseName := .Release.Name -}}
        {{- with .Values.label }}
        project: {{ .project }}
        app: {{ .app }}
        release: {{ $releaseName }}
        {{- end }}

通过模板引擎渲染后，会得到如下结果

apiVersion: apps/v1
kind: Deployment
metadata:
  name: web-deploy
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        project: my-project
        app: nginx
        release: web

Chart 模板的命名模板

命名模板的简单介绍

命名模板
- 用于在 Chart 中复用模板代码片段。
- 使用 {{- define "templateName" }} ... {{- end }} 定义模板。
- 使用 {{ template "templateName" . }} 引用模板，并传递上下文 .。
公共模板文件
- Helm 中，templates 目录下以下划线 _ 开头的文件（如 _helpers.tpl）都会被视作公共模板文件。
- 这些公共模板文件不会直接渲染成 Kubernetes 对象，而是用于存放命名模板或函数，供其他模板使用。
使用注意事项
- template 函数不能用于 Go 模板的管道，可以使用 include 语句来解决该问题。

命名模板的使用案例一，演示命名模板的基础使用

在 Chart 包中，_helpers.tpl 文件的内容如下

1	cat templates/_helpers.tpl

1
2
3

{{- define "demo.fullname" -}}
{{- .Chart.Name -}}-{{ .Release.Name }}
{{- end -}}

在 Chart 包中，deployment.yaml 文件的内容如下

1	cat templates/deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: {{ template "demo.fullname" . }}
  labels:
    app: nginx-app
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx-app
  template:
    metadata:
      labels:
        app: nginx-app
    spec:
      containers:
        - name: web
          image: nginx:1.15
          ports:
            - containerPort: 80

通过模板引擎渲染后，会得到如下结果

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-web
  labels:
    app: nginx-app
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx-app
  template:
    metadata:
      labels:
        app: nginx-app
    spec:
      containers:
        - name: web
          image: nginx:1.15
          ports:
            - containerPort: 80

命名模板的使用案例二，演示如何解决 template 函数不能用于 Go 模板的管道的问题

在 Chart 包中，_helpers.tpl 文件的内容如下

1	cat templates/_helpers.tpl

{{- define "demo.fullname" -}}
{{- .Chart.Name -}}-{{ .Release.Name }}
{{- end -}}

{{- define "demo.labels" -}}
app: {{ template "demo.fullname" . }}
chart: "{{ .Chart.Name }}-{{ .Chart.Version }}"
release: "{{ .Release.Name }}"
{{- end -}}

在 Chart 包中，deployment.yaml 文件的内容如下（模板文件渲染会报错，因为 template 函数不能用于 Go 模板的管道）

1	cat templates/deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: {{ template "demo.fullname" . }}
  labels:
    {{- template "demo.labels" . | nindent 4 }}
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx-app
  template:
    metadata:
      labels:
        app: nginx-app
    spec:
      containers:
        - name: web
          image: nginx:1.15
          ports:
            - containerPort: 80

上面的模板内容会渲染失败，但可以使用 include 语句来解决该问题

apiVersion: apps/v1
kind: Deployment
metadata:
  name: {{ include "demo.fullname" . }}
  labels:
    {{- include "demo.labels" . | nindent 4 }}
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx-app
  template:
    metadata:
      labels:
        app: nginx-app
    spec:
      containers:
        - name: web
          image: nginx:1.15
          ports:
            - containerPort: 80

通过模板引擎渲染后，会得到如下结果

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-web
  labels:
    app: nginx-web
    chart: "nginx-0.1.0"
    release: "web"
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx-app
  template:
    metadata:
      labels:
        app: nginx-app
    spec:
      containers:
        - name: web
          image: nginx:1.15
          ports:
            - containerPort: 80

Kubernetes 入门教程之十

2025-09-13T13:12:19.000Z

大纲

Kubernetes 核心技术

部署集群性能监控平台

开源软件 cAdvisor（Container Advisor）可用于监控所在节点的容器运行状态，当前已经被默认集成到 Kubernetes 的 Kubelet 组件内，默认使用 TCP 4194 端口。在中小型规模容器集群中，通常使用 Prometheus + Grafana 来实现容器集群性能数据的采集、存储与展示。

集群可监控的指标

在 Kubernetes 集群中，可以监控的指标有以下这些：

节点级（Node Metrics）：监控每个工作节点（Worker Node）的系统资源使用情况
- CPU 使用率 / 空闲率 / 负载（Load Average）
- 内存使用量 / 可用内存
- 磁盘使用量 / I/O 吞吐
- 网络流量（带宽、收发包量、错误包）
- 节点状态（Ready / NotReady）
- 节点文件系统使用率（根分区、容器存储路径）
Pod / 容器级（Pod & Container Metrics）：监控集群中每个 Pod 或容器的资源使用情况
- Pod 的 CPU 使用率 / 限额 / 请求
- Pod 的内存使用量 / 限额 / 请求
- 容器重启次数
- 容器启动时间、运行时间
- 网络收发流量（in/out bytes）
- 文件系统使用（容器内存储卷）
- 容器状态（Running / Waiting / Terminated）
Kubernetes 组件指标（Control Plane Metrics）：监控 K8s 控制面（Control Plane）自身的健康状态
- API Server 请求速率 / 延迟 / 错误率
- Scheduler 调度延迟 / 排队任务数
- Controller Manager 队列长度 / 事件处理速率
- Etcd 存储延迟 / Leader 选举状态 / 写入吞吐
服务与网络（Service & Network Metrics）：监控 Service、Ingress、DNS、网络插件等组件
- Service 请求速率 / 成功率 / 延迟
- Ingress 访问量 / 响应时间 / 4xx、5xx 错误率
- DNS 查询速率 / 失败率（CoreDNS）
- CNI 插件流量、丢包、延迟
工作负载与资源对象状态（Workload Metrics）：反映 K8s 资源对象（如 Deployment、DaemonSet、Job 等）的运行健康度
- Deployment 可用副本数 / 期望副本数
- ReplicaSet、StatefulSet 状态
- Job 成功 / 失败次数
- CronJob 最近执行时间
- Namespace 级资源使用量
- HPA（HorizontalPodAutoScaler）触发状态
存储指标（Storage Metrics）：监控 PV、PVC、StorageClass 的使用与性能
- PV 容量使用率
- PVC 绑定状态
- I/O 延迟、读写吞吐
- 挂载错误 / 超时
应用与业务指标（Application Metrics）: 通过 Prometheus Exporter 或 SDK 自定义的应用性能指标
- 请求 QPS（请求数每秒）
- 错误率（Error Rate）
- 响应时间（Latency）
- 业务统计（订单数、任务完成数等）
- 自定义计数器 / 计时器 / 直方图（Histogram）
告警与事件（Events & Alerts）：用于监控异常行为与故障
- Pod CrashLoopBackOff
- 节点不可用
- 资源超限（CPU / 内存）
- Deployment 副本不足
- PV 绑定失败 / 存储空间不足
- API 请求超时 / 错误率过高

集群性能监控方案

常见的 Kubernetes 集群性能监控方案

Heapster + InfluxDB + Grafana
- 架构：Heapster + InfluxDB + Grafana
- 功能：Heapster 汇聚各 Node 上 cAdvisor 的监控数据，存入 InfluxDB 后通过 Grafana 展示。
- 状态：已被 Kubernetes 官方弃用，自 Kubernetes v1.13 起不再维护。
- 适用场景：早期集群监控，仅作学习了解。
Metrics Server
- 角色：Heapster 的官方替代品。
- 功能：提供实时的资源用量指标（CPU、内存）给 kubectl top、Horizontal Pod Autoscaler（HPA）等使用。
- 限制：不存储历史数据，不提供可视化界面或持久化存储。
- 状态：Kubernetes 官方的核心组件。
- 适用场景：HPA 自动扩缩容、轻量实时监控。
Prometheus + Grafana
- 架构：Prometheus + Grafana
- 功能：
  - Prometheus = 数据收集 + 存储 + 告警。
  - Grafana = 数据展示 + 可视化分析界面。
- 优点：
  - Prometheus 会周期性自动拉取 kubelet、cAdvisor、kube-state-metrics、node-exporter 等监控指标
  - 监控维度丰富（节点、容器、Pod、Service、集群状态）
  - 数据查询灵活（PromQL）
  - 支持历史数据存储
- 状态：当前主流的开源监控方案。
- 适用场景：中小型或自建环境中的主力方案。
Prometheus Operator + kube-prometheus-stack
- 架构组件：
  - Prometheus（采集与存储指标）
  - Alertmanager（告警）
  - Grafana（可视化）
  - kube-state-metrics（集群资源状态）
  - node-exporter（节点系统指标）
- 特点：
  - Operator 自动化管理 Prometheus、Alertmanager、Grafana 等部署与配置。
  - 社区维护的 “kube-prometheus-stack” Helm Chart 是生产级推荐方案。
- 状态：功能最全、生态最活跃。
- 适用场景：生产级集群的监控、告警、可视化一体化方案。
Weave Scope / Weave Cloud
- 功能：
  - 直观展示 Pod、容器、Service 之间的拓扑关系与状态。
  - 支持查看部分性能指标（CPU、内存、网络流量）。
- 定位：
  - 更偏向于可视化与运维调试工具。
  - 不属于严格意义上的 “性能监控方案”。
- 适用场景：
  - 集群拓扑观测、实时诊断、开发或测试环境。
  - 可作为 Prometheus 或 Metrics Server 的补充。

不同 Kubernetes 集群性能监控方案的对比

性能监控方案	类型	是否官方推荐	是否可替代 Heapster	可视化展示	是否持久化存储
Heapster + InfluxDB + Grafana	旧版指标监控	❌ 已弃用	✔	✔	✔
Metrics Server	资源指标采集	✔ 官方推荐	✔	❌	❌
Prometheus + Grafana	指标监控	✔ 官方推荐	✔	✔	✔
Prometheus Operator Stack	生产级集群监控告警平台	✔ 官方推荐	✔	✔	✔
Weave Scope / Weave Cloud	拓扑与可视化	⚙️ 可选	❌	✔	部分

性能监控平台部署

本节将基于 Prometheus + Grafana 搭建 Kubernetes 集群的性能监控平台。

版本说明

组件	版本
Kubernetes	`v1.19.10`
Prometheus	`v2.0.0`
Grafana	`v4.4.3`
NodeExporter	`v1.10.2`

准备工作

拉取镜像

在 Kubernetes 部署服务时，为了避免部署过程中出现镜像拉取超时（Image Pull Timeout）的问题，建议：

提前将相关镜像预拉取到所有节点里面，确保部署时无需从远程仓库重新下载镜像；
或者搭建本地镜像仓库（比如 Harbor），提高镜像拉取的速度与可靠性。

在 Kubernetes 集群的所有节点上（包括 Master 和 Worker），分别执行以下命令，提前将镜像拉取到本地

# 拉取 Node Exporter 镜像
docker pull prom/node-exporter:v1.10.2

# 拉取 Prometheus 镜像
docker pull prom/prometheus:v2.0.0

# 拉取 Grafana 镜像
docker pull grafana/grafana:4.2.0

安装 CoreDNS

Kubernetes 安装 CoreDNS 组件

安装 Ingress

Kubernetes 安装 Ingress 组件

特别注意

建议先安装 CoreDNS，然后再安装 Ingress，因为 Ingress 在启动时需要解析域名，有时候会依赖集群 DNS 组件（比如 CoreDNS）。

部署步骤

Prometheus 部署

创建 YAML 配置文件 prometheus-config.yml，用于部署 Prometheus 的 ConfigMap

apiVersion: v1
kind: ConfigMap
metadata:
  name: prometheus-config
  namespace: kube-system
data:
  prometheus.yml: |
    global:
      scrape_interval:     15s
      evaluation_interval: 15s
    scrape_configs:

    - job_name: 'kubernetes-apiservers'
      kubernetes_sd_configs:
      - role: endpoints
      scheme: https
      tls_config:
        ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
      bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
      relabel_configs:
      - source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_service_name, __meta_kubernetes_endpoint_port_name]
        action: keep
        regex: default;kubernetes;https

    - job_name: 'kubernetes-nodes'
      kubernetes_sd_configs:
      - role: node
      scheme: https
      tls_config:
        ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
      bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
      relabel_configs:
      - action: labelmap
        regex: __meta_kubernetes_node_label_(.+)
      - target_label: __address__
        replacement: kubernetes.default.svc:443
      - source_labels: [__meta_kubernetes_node_name]
        regex: (.+)
        target_label: __metrics_path__
        replacement: /api/v1/nodes/${1}/proxy/metrics

    - job_name: 'kubernetes-cadvisor'
      kubernetes_sd_configs:
      - role: node
      scheme: https
      tls_config:
        ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
      bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
      relabel_configs:
      - action: labelmap
        regex: __meta_kubernetes_node_label_(.+)
      - target_label: __address__
        replacement: kubernetes.default.svc:443
      - source_labels: [__meta_kubernetes_node_name]
        regex: (.+)
        target_label: __metrics_path__
        replacement: /api/v1/nodes/${1}/proxy/metrics/cadvisor

    - job_name: 'kubernetes-service-endpoints'
      kubernetes_sd_configs:
      - role: endpoints
      relabel_configs:
      - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scrape]
        action: keep
        regex: true
      - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scheme]
        action: replace
        target_label: __scheme__
        regex: (https?)
      - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_path]
        action: replace
        target_label: __metrics_path__
        regex: (.+)
      - source_labels: [__address__, __meta_kubernetes_service_annotation_prometheus_io_port]
        action: replace
        target_label: __address__
        regex: ([^:]+)(?::\d+)?;(\d+)
        replacement: $1:$2
      - action: labelmap
        regex: __meta_kubernetes_service_label_(.+)
      - source_labels: [__meta_kubernetes_namespace]
        action: replace
        target_label: kubernetes_namespace
      - source_labels: [__meta_kubernetes_service_name]
        action: replace
        target_label: kubernetes_name

    - job_name: 'kubernetes-services'
      kubernetes_sd_configs:
      - role: service
      metrics_path: /probe
      params:
        module: [http_2xx]
      relabel_configs:
      - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_probe]
        action: keep
        regex: true
      - source_labels: [__address__]
        target_label: __param_target
      - target_label: __address__
        replacement: blackbox-exporter.example.com:9115
      - source_labels: [__param_target]
        target_label: instance
      - action: labelmap
        regex: __meta_kubernetes_service_label_(.+)
      - source_labels: [__meta_kubernetes_namespace]
        target_label: kubernetes_namespace
      - source_labels: [__meta_kubernetes_service_name]
        target_label: kubernetes_name

    - job_name: 'kubernetes-ingresses'
      kubernetes_sd_configs:
      - role: ingress
      relabel_configs:
      - source_labels: [__meta_kubernetes_ingress_annotation_prometheus_io_probe]
        action: keep
        regex: true
      - source_labels: [__meta_kubernetes_ingress_scheme,__address__,__meta_kubernetes_ingress_path]
        regex: (.+);(.+);(.+)
        replacement: ${1}://${2}${3}
        target_label: __param_target
      - target_label: __address__
        replacement: blackbox-exporter.example.com:9115
      - source_labels: [__param_target]
        target_label: instance
      - action: labelmap
        regex: __meta_kubernetes_ingress_label_(.+)
      - source_labels: [__meta_kubernetes_namespace]
        target_label: kubernetes_namespace
      - source_labels: [__meta_kubernetes_ingress_name]
        target_label: kubernetes_name

    - job_name: 'kubernetes-pods'
      kubernetes_sd_configs:
      - role: pod
      relabel_configs:
      - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
        action: keep
        regex: true
      - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path]
        action: replace
        target_label: __metrics_path__
        regex: (.+)
      - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port]
        action: replace
        regex: ([^:]+)(?::\d+)?;(\d+)
        replacement: $1:$2
        target_label: __address__
      - action: labelmap
        regex: __meta_kubernetes_pod_label_(.+)
      - source_labels: [__meta_kubernetes_namespace]
        action: replace
        target_label: kubernetes_namespace
      - source_labels: [__meta_kubernetes_pod_name]
        action: replace
        target_label: kubernetes_pod_name

创建 YAML 配置文件 prometheus-deploy.yml，用于部署 Prometheus 的 Deployment

apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    name: prometheus-deployment
  name: prometheus
  namespace: kube-system
spec:
  replicas: 1
  selector:
    matchLabels:
      app: prometheus
  template:
    metadata:
      labels:
        app: prometheus
    spec:
      containers:
      - image: prom/prometheus:v2.0.0
        name: prometheus
        command:
        - "/bin/prometheus"
        args:
        - "--config.file=/etc/prometheus/prometheus.yml"
        - "--storage.tsdb.path=/prometheus"
        - "--storage.tsdb.retention=24h"
        ports:
        - containerPort: 9090
          protocol: TCP
        volumeMounts:
        - mountPath: "/prometheus"
          name: data
        - mountPath: "/etc/prometheus"
          name: config-volume
        resources:
          requests:
            cpu: 100m
            memory: 100Mi
          limits:
            cpu: 500m
            memory: 2500Mi
      serviceAccountName: prometheus    
      volumes:
      - name: data
        emptyDir: {}
      - name: config-volume
        configMap:
          name: prometheus-config

创建 YAML 配置文件 prometheus-svc.yml，用于部署 Prometheus 的 Service

apiVersion: v1
kind: Service
metadata:
  labels:
    app: prometheus
  name: prometheus
  namespace: kube-system
spec:
  type: NodePort
  ports:
  - port: 9090
    targetPort: 9090
    nodePort: 30003
  selector:
    app: prometheus

创建 YAML 配置文件 prometheus-rbac.yml，用于对 Prometheus 进行 RBAC 授权

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: prometheus
rules:
- apiGroups: [""]
  resources:
  - nodes
  - nodes/proxy
  - services
  - endpoints
  - pods
  verbs: ["get", "list", "watch"]
- apiGroups:
  - extensions
  resources:
  - ingresses
  verbs: ["get", "list", "watch"]
- nonResourceURLs: ["/metrics"]
  verbs: ["get"]

---
apiVersion: v1
kind: ServiceAccount
metadata:
  name: prometheus
  namespace: kube-system

---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: prometheus
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: prometheus
subjects:
- kind: ServiceAccount
  name: prometheus
  namespace: kube-system

通过上述的 YAML 配置文件，快速部署 Prometheus（注意 K8s 资源对象的部署顺序）

# 部署 ConfigMap
kubectl apply -f prometheus-config.yml

# 部署 Deployment
kubectl apply -f prometheus-deploy.yml

# 部署 Service
kubectl apply -f prometheus-svc.yml

# RBAC 授权
kubectl apply -f prometheus-rbac.yml

查看相关的 Pod

1	kubectl get pods -n kube-system -l app=prometheus

1 2	NAME READY STATUS RESTARTS AGE prometheus-68546b8d9-bg69k 1/1 Running 0 96s

查看相关的 Service

1	kubectl get svc -n kube-system -l app=prometheus

1 2	NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE prometheus NodePort 10.0.0.21 9090:30003/TCP 2m12s

Grafana 部署

创建 YAML 配置文件 grafana-deploy.yml，用于部署 Grafana 的 Deployment

apiVersion: apps/v1
kind: Deployment
metadata:
  name: grafana-core
  namespace: kube-system
  labels:
    app: grafana
    component: core
spec:
  replicas: 1
  selector:
    matchLabels:
      app: grafana
      component: core
  template:
    metadata:
      labels:
        app: grafana
        component: core
    spec:
      containers:
      - image: grafana/grafana:4.2.0
        name: grafana-core
        imagePullPolicy: IfNotPresent
        # env:
        resources:
          # keep request = limit to keep this container in guaranteed class
          limits:
            cpu: 100m
            memory: 100Mi
          requests:
            cpu: 100m
            memory: 100Mi
        env:
          # The following env variables set up basic auth twith the default admin user and admin password.
          - name: GF_AUTH_BASIC_ENABLED
            value: "true"
          - name: GF_AUTH_ANONYMOUS_ENABLED
            value: "false"
          # - name: GF_AUTH_ANONYMOUS_ORG_ROLE
          #   value: Admin
          # does not really work, because of template variables in exported dashboards:
          # - name: GF_DASHBOARDS_JSON_ENABLED
          #   value: "true"
        readinessProbe:
          httpGet:
            path: /login
            port: 3000
          # initialDelaySeconds: 30
          # timeoutSeconds: 1
        volumeMounts:
        - name: grafana-persistent-storage
          mountPath: /var
      volumes:
      - name: grafana-persistent-storage
        emptyDir: {}

创建 YAML 配置文件 grafana-svc.yml，用于部署 Grafana 的 Service

apiVersion: v1
kind: Service
metadata:
  name: grafana
  namespace: kube-system
  labels:
    app: grafana
    component: core
spec:
  type: NodePort
  ports:
    - port: 3000
  selector:
    app: grafana
    component: core

创建 YAML 配置文件 grafana-ingress.yml，用于部署 Ingress 的路由规则

apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: grafana
  namespace: kube-system
spec:
  rules:
  - host: k8s.grafana.com
    http:
      paths:
      - path: /
        pathType: Prefix
        backend:
          service:
            name: grafana
            port:
              number: 3000

通过上述的 YAML 配置文件，快速部署 Grafana（注意 K8s 资源对象的部署顺序）

# 部署 Deployment
kubectl apply -f grafana-deploy.yml

# 部署 Service
kubectl apply -f grafana-svc.yml

# 部署 Ingress 的路由规则
kubectl apply -f grafana-ingress.yml

查看相关的 Pod

1	kubectl get pods -n kube-system -l app=grafana -o wide

1 2	NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES grafana-core-6d6fb7566-5tv6t 1/1 Running 0 13m 10.244.0.16 k8s-node1

查看相关的 Service

1	kubectl get svc -n kube-system -l app=grafana

1 2	NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE grafana NodePort 10.0.0.242 3000:31671/TCP 3m41s

查看相关的 Ingress 路由规则

1	kubectl get ingress -n kube-system

1 2	NAME CLASS HOSTS ADDRESS PORTS AGE grafana k8s.grafana.com 80 86m

对外暴露节点

创建 YAML 配置文件 node-exporter.yml，用于对外暴露节点（Node）

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: node-exporter
  namespace: kube-system
  labels:
    k8s-app: node-exporter
spec:
  selector:
    matchLabels:
      k8s-app: node-exporter
  template:
    metadata:
      labels:
        k8s-app: node-exporter
    spec:
      containers:
      - image: prom/node-exporter:v1.10.2
        name: node-exporter
        ports:
        - containerPort: 9100
          protocol: TCP
          name: http

---
apiVersion: v1
kind: Service
metadata:
  labels:
    k8s-app: node-exporter
  name: node-exporter
  namespace: kube-system
spec:
  ports:
  - name: http
    port: 9100
    nodePort: 31672
    protocol: TCP
  type: NodePort
  selector:
    k8s-app: node-exporter

通过上述的 YAML 配置文件，对外暴露节点（Node）

1 2	# 部署 DaemonSet 和 Service kubectl apply -f node-exporter.yml

查看相关的 Pod

1	kubectl get pods -n kube-system -l k8s-app=node-exporter

NAME                  READY   STATUS    RESTARTS   AGE
node-exporter-2xgh6   1/1     Running   0          37s
node-exporter-6r2jz   1/1     Running   0          37s
node-exporter-l5hjf   1/1     Running   0          37s
node-exporter-q5zc2   1/1     Running   0          37s

查看相关的 Service

1	kubectl get svc -n kube-system -l k8s-app=node-exporter

1 2	NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE node-exporter NodePort 10.0.0.118 9100:31672/TCP 5m16s

查看相关的 Ingress 规则

1	kubectl get ingress -n kube-system

1 2	NAME CLASS HOSTS ADDRESS PORTS AGE grafana k8s.grafana.com 80 86m

验证步骤

通过 Service 访问 Grafana

首先，查看 Grafana 相关的 Service

1	kubectl get svc -n kube-system

NAME            TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)                  AGE
grafana         NodePort    10.0.0.242           3000:31671/TCP           20m
kube-dns        ClusterIP   10.0.0.2             53/UDP,53/TCP,9153/TCP   8d
node-exporter   NodePort    10.0.0.153           9100:31672/TCP           38m
prometheus      NodePort    10.0.0.21            9090:30003/TCP           31m

通过任意一个集群节点的 IP 与 Grafana 的 Service 对外暴露的端口（比如 http://192.168.2.191:31671），就可以在 Kubernetes 集群外部通过浏览器访问 Grafana 的控制台页面（如下图所示）

特别注意

在 Kubernetes 集群外部，浏览器通过任意集群节点的 IP + Service 对外暴露的端口（NodePort）来访问 Grafana 的控制台页面（比如 http://192.168.2.191:31671），这并没有使用到 Ingress。

通过 Ingress 访问 Grafana

查看 Grafana 相关的 Ingress 路由规则

1	kubectl get ingress -n kube-system

1 2	NAME CLASS HOSTS ADDRESS PORTS AGE grafana k8s.grafana.com 80 86m

查看 Nginx Ingress Controller 所在的节点（Node）

1	kubectl get pods -n ingress-nginx -o wide

1 2	NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES nginx-ingress-controller-5dc64b58f-s82x6 1/1 Running 0 6m51s 192.168.2.131 k8s-node2

在 K8s 集群外部的操作系统中，编辑系统配置文件 /etc/hosts，添加域名映射记录，其中 192.168.2.131 是 Nginx Ingress Controller 所在节点的 IP 地址（请自行更改 IP 地址）

1 2	# 编辑系统配置文件，添加以下内容 vim /etc/hosts

1	192.168.2.131 k8s.grafana.com

在 K8s 集群外部的操作系统中，浏览器通过域名 k8s.grafana.com 访问 Ingress。如果可以成功访问 Grafana 的控制台页面（如下图所示），则说明 Ingress + Service + Grafana 可以正常运行

Grafana 展示监控数据图表

首先，查看所有 Service，记住 Prometheus 的 ClusterIP（比如 10.0.0.21）

1	kubectl get svc -n kube-system

NAME            TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)                  AGE
grafana         NodePort    10.0.0.242           3000:31671/TCP           20m
kube-dns        ClusterIP   10.0.0.2             53/UDP,53/TCP,9153/TCP   8d
node-exporter   NodePort    10.0.0.153           9100:31672/TCP           38m
prometheus      NodePort    10.0.0.21            9090:30003/TCP           31m

在 Grafana 的控制台页面中，添加相应的数据源，这里数据源地址里的 IP 是 Prometheus 的 Pod 在 K8s 集群内部的 IP 地址（ClusterIP），比如 10.0.0.21，端口号是 9090

在 Grafana 的控制台页面中，导入 DashBoard 模板

在模板输入框中填写数字 315（Grafana 模板的编号），然后让模板输入框失去焦点（或者点击 Load 按钮），等待一会模板信息就会加载出来

模板信息加载出来后，手动选择之前添加的数据源，然后点击 Import 按钮就可以导入模板

模板导入成功后，Grafana 会自动跳转到 DashBoard 页面

在 DashBoard 页面中，如果可以看到 K8s 集群的监控图表，则说明基于 Prometheus + Grafana 的 K8s 集群性能监控平台搭建成功

实战部署 Java 应用程序

本节将介绍如何在 Kubernetes 环境中实现 Java 项目的 CI/CD（持续集成与持续交付），其中 Docker 镜像仓库采用阿里云容器镜像服务（ACR）。

容器交付的完整流程

Java 项目开发 / 部署的流程

Kubernetes 部署项目的流程

Kubernetes 实现 CI / CD 的流程

创建 Java 应用的镜像

制作 Java 应用的镜像

运行环境说明

制作镜像的所有操作，都可以在任意一台安装了 JDK + Maven + Docker 的机器上执行。

(1) 准备一个 Java 项目（基于 SpringBoot），项目结构如下（点击下载完整的项目源码）：

demojenkins
├── demojenkins.iml
├── Dockerfile
├── pom.xml
└── src
    ├── main
    │   ├── java
    │   │   └── com
    │   │       └── clay
    │   │           └── demojenkins
    │   │               ├── controller
    │   │               │   └── UserController.java
    │   │               └── DemoJenkinsApplication.java
    │   └── resources
    │       └── application.yml
    └── test
        └── java
            └── com
                └── clay
                    └── demojenkins
                        └── DemoJenkinsApplicationTests.java

(2) 使用 Maven 命令将 Java 项目打包成可执行的 Jar 包或者 War 包（运行依赖 Tomcat 等外部 Web 容器），比如 demojenkins.jar

# 进入项目根目录
# cd demojenkins

# 编译打包项目
# mvn clean package

(3) 使用 Docker 命令构建镜像

# 进入项目根目录（该目录下有 Dockerfile 文件）
# cd demojenkins

# 构建镜像（注意，命令的末尾有一个点号）
# docker build -t demojenkins:0.0.1 .

(4) 查看构建生成的 Docker 镜像

1 2	# 查看镜像列表 # docker images

REPOSITORY                              TAG                 IMAGE ID            CREATED             SIZE
demojenkins                             0.0.1               51ecb07ed574        48 seconds ago      122MB
openjdk                                 8-jdk-alpine        a3562aa0b991        6 years ago         105MB
...

(5) 测试 Docker 镜像是否可用

1 2	# 启动容器（后台启动） # docker run -d --name demojenkins -p 8111:8111 demojenkins:0.0.1

1 2	# 查看容器的运行状态，输出示例如下所示 # docker ps -a

1
2
3

CONTAINER ID        IMAGE                         COMMAND                  CREATED             STATUS                     PORTS                    NAMES
85d0ce0e5edd        demojenkins:0.0.1             "java -jar /demojenk…"   7 seconds ago       Up 6 seconds               0.0.0.0:8111->8111/tcp   demojenkins
...

1 2	# 通过 Curl 工具测试 Java 项目的接口，输出示例如下所示 # curl http://127.0.0.1:8111/user/findAll

1	hello 1763004675787

(6) 最后删除前面启动的 Docker 容器

1	# docker rm -f demojenkins

推送 Java 应用的镜像

运行环境说明

推送镜像的所有操作，都可以在任意一台安装了 JDK + Maven + Docker 的机器上执行。

(1) 浏览器打开阿里云的容器镜像服务（ACR）页面（选择个人版实例）

(2) 创建命名空间（比如 java-dev）

(3) 创建镜像仓库（比如 demojenkins），需要选择上面创建的命名空间，且代码源必须选择本地仓库

(4) 在终端中使用命令登录阿里云镜像仓库（用于登录的用户名为阿里云账号全名，密码为开通容器镜像服务时设置的密码，镜像仓库域名可以从阿里云特定镜像仓库的详情页面获取）

# 登录阿里云镜像仓库
# docker login --username=xxxxx [镜像仓库域名]

# 比如
# docker login --username=xxxxx registry.cn-beijing.aliyuncs.com

(5) 推送镜像到阿里云镜像仓库

# 镜像打上标签
# docker tag [镜像ID] [镜像仓库域名]/[命名空间]/[镜像名称]:[镜像版本号]

# 比如
# docker tag 51ecb07ed574 registry.cn-beijing.aliyuncs.com/java-dev/demojenkins:0.0.1

# 推送镜像
# docker push [镜像仓库域名]/[命名空间]/[镜像名称]:[镜像版本号]

# 比如
# docker push registry.cn-beijing.aliyuncs.com/java-dev/demojenkins:0.0.1

部署 Java 应用的镜像

运行环境说明

部署镜像所有操作，必须在 Kubernetes 集群的任意一个 Master 节点上执行。

(1) 在 Kubernetes 集群中，创建镜像拉取凭据 Secret（用于登录的用户名为阿里云账号全名，密码为开通容器镜像服务时设置的密码，邮箱地址可以自定义，镜像仓库域名可以从阿里云特定镜像仓库的详情页面获取）

# 创建Secret
# kubectl create secret docker-registry aliyun-regcred \
  --docker-server=<镜像仓库域名> \
  --docker-username=<登录用户名> \
  --docker-password=<登录密码> \
  --docker-email=<邮箱地址>

1 2	# 查看创建的Secret，输出示例如下 # kubectl get secret aliyun-regcred

1 2	NAME TYPE DATA AGE aliyun-regcred kubernetes.io/dockerconfigjson 1 14s

(2) 创建一个 YAML 配置文件（比如 demojenkins-deploy.yaml），用于部署 Deployment 和 Service，使用了阿里云镜像仓库中的 Docker 镜像

apiVersion: v1
kind: Service
metadata:
  name: demojenkins         # Service 的名称
spec:
  type: NodePort            # ervice 类型为 NodePort，可通过节点 IP 访问
  selector:
    app: demojenkins        # 选择标签为 app=demojenkins 的 Pod 作为后端
  ports:
    - port: 80              # Service 对外暴露的端口，集群内部访问时也可以使用该端口
      targetPort: 8111      # Pod 内容器实际监听的端口（即将请求转发到容器的 xxxx 端口）

---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: demojenkins
spec:
  replicas: 3       # Pod 的副本数量
  selector:
    matchLabels:
      app: demojenkins
  template:
    metadata:
      labels:
        app: demojenkins
    spec:
      containers:
      - name: demojenkins
        image: <镜像仓库域名>/<命名空间>/<镜像名称>:<镜像版本号>    # 阿里云镜像地址，比如：registry.cn-beijing.aliyuncs.com/java-dev/demojenkins:0.0.1
        ports:
        - containerPort: 8111     # 容器内应用（比如 Tomcat）监听的端口
      imagePullSecrets:           # 引用镜像拉取凭据 Secret
      - name: aliyun-regcred

(3) 应用 YAML 配置文件，创建 Deployment 和 Service 资源对象

1 2	# 应用YAML配置文件 # kubectl apply -f demojenkins-deploy.yaml

(4) 查看 Service 的列表

1 2	# 查看Service列表，输出示例如下 # kubectl get svc

1
2
3

NAME          TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)        AGE
demojenkins   NodePort    10.0.0.112           80:30577/TCP   2m25s
kubernetes    ClusterIP   10.0.0.1             443/TCP        30h

(5) 查看 Deployment 的列表

1 2	# 查看Deployment列表，输出示例如下 # kubectl get deployments

1 2	NAME READY UP-TO-DATE AVAILABLE AGE demojenkins 3/3 3 3 171m

(6) 查看所有 Pod 的运行状态

1 2	# 查看所有Pod的运行状态，输出示例如下 # kubectl get pods -o wide

NAME                           READY   STATUS    RESTARTS   AGE    IP            NODE          NOMINATED NODE   READINESS GATES
demojenkins-5486657b45-9ck68   1/1     Running   0          169m   10.244.4.10   k8s-node1                
demojenkins-5486657b45-n6t88   1/1     Running   0          169m   10.244.2.6    k8s-node3                
demojenkins-5486657b45-v6zsl   1/1     Running   0          169m   10.244.3.8    k8s-node2

# 如果Pod启动失败，可以查看Pod的详细运行情况来定位问题
# kubectl describe pod 

# 删除启动失败的Pod，触发Deployment对Pod的重建
# kubectl delete pod

(7) 在 Kubernetes 集群外部，通过 curl 网络工具访问容器内的 Java 应用（IP 可以是 Kubernetes 集群任意一个节点的 IP 地址，端口号可以通过 kubectl get svc 命令获取得到）

1 2	# 访问Java应用的接口，输出示例如下 # curl http://:30577/user/findAll

1	hello 1763023637288

(8) 若希望删除上面创建的 Secret、Deployment、Service、Pod 所有资源对象，可以执行以下命令

# 删除Deployment、Service、Pod
# kubectl delete -f demojenkins-deploy.yaml

# 删除Secret
# kubectl delete secret aliyun-regcred

扩容 / 缩容 Java 应用程序

运行环境说明

扩容和缩容操作，必须在 Kubernetes 集群的任意一个 Master 节点上执行。

扩容 Java 应用程序

(1) 当完成上述步骤并将 Java 应用部署到 Kubernetes 集群后，可以通过以下命令调整该应用对应 Pod 的副本数量，实现扩容操作

# 对Pod的副本进行扩容（比如，扩容至 5 个副本）
# kubectl scale deployment  --replicas=5

# 比如
# kubectl scale deployment demojenkins --replicas=5

(2) 查看所有 Pod 的运行状态

1 2	# 查看所有Pod的运行状态，输出示例如下 # kubectl get pods -o wide

NAME                           READY   STATUS    RESTARTS   AGE    IP            NODE          NOMINATED NODE   READINESS GATES
demojenkins-5486657b45-9ck68   1/1     Running   0          177m   10.244.4.10   k8s-node2                
demojenkins-5486657b45-bkc6s   1/1     Running   0          52s    10.244.1.8    k8s-node1                
demojenkins-5486657b45-n6t88   1/1     Running   0          177m   10.244.2.6    k8s-node3                
demojenkins-5486657b45-v6zsl   1/1     Running   0          177m   10.244.3.8    k8s-node2                
demojenkins-5486657b45-vjpxq   1/1     Running   0          58s    10.244.0.8    k8s-node1

缩容 Java 应用程序

(1) 当完成上述步骤并将 Java 应用部署到 Kubernetes 集群后，可以通过以下命令调整该应用对应 Pod 的副本数量，实现缩容操作

# 对Pod的副本进行缩容（比如，缩容至 2 个副本）
# kubectl scale deployment  --replicas=2

# 比如
# kubectl scale deployment demojenkins --replicas=2

(2) 查看所有 Pod 的运行状态

1 2	# 查看所有Pod的运行状态，输出示例如下 # kubectl get pods -o wide

1
2
3

NAME                           READY   STATUS    RESTARTS   AGE    IP            NODE          NOMINATED NODE   READINESS GATES
demojenkins-5486657b45-9ck68   1/1     Running   0          3h4m   10.244.4.10   k8s-node2                
demojenkins-5486657b45-n6t88   1/1     Running   0          3h4m   10.244.2.6    k8s-node3

升级 / 回滚 Java 应用程序

运行环境说明

升级和回滚操作，必须在 Kubernetes 集群的任意一个 Master 节点上执行。值得注意的是，这里的升级和回滚操作针对的是 Pod 所使用的 Docker 镜像版本，也就意味着在实际执行时，相当于对 Java 应用的版本进行升级或回退。

升级 Java 应用程序

(1) 项目代码迭代更新后，重新制作 Java 应用的镜像，且镜像使用新的版本号（比如 0.0.2），并推送新版本镜像到阿里云仓库
(2) 为了更好观察 Java 应用的升级过程，先查看所有 Pod 的运行状态

1 2	# 查看所有Pod的运行状态，输出示例如下 # kubectl get pods -o wide

1
2
3

NAME                           READY   STATUS    RESTARTS   AGE    IP            NODE          NOMINATED NODE   READINESS GATES
demojenkins-5486657b45-9ck68   1/1     Running   0          3h4m   10.244.4.10   k8s-node2                
demojenkins-5486657b45-n6t88   1/1     Running   0          3h4m   10.244.2.6    k8s-node3

(3) 当新版本镜像推送到阿里云仓库后，可以通过以下命令来升级 Java 应用对应 Pod 的版本（比如，升级到 0.0.2 版本）

# 升级Pod的版本
# kubectl set image deployment  <容器名称>=<镜像仓库域名>/<命名空间>/<镜像名>:<版本号>

# 比如
# kubectl set image deployment demojenkins demojenkins=registry.cn-beijing.aliyuncs.com/java-dev/demojenkins:0.0.2

(4) 查看 Java 应用升级版本的状态（过程）

# 查看升级版本的状态
# kubectl rollout status deployment 

# 比如，输出示例如下
# kubectl rollout status deployment demojenkins

Waiting for deployment "demojenkins" rollout to finish: 1 out of 2 new replicas have been updated...
Waiting for deployment "demojenkins" rollout to finish: 1 out of 2 new replicas have been updated...
Waiting for deployment "demojenkins" rollout to finish: 1 out of 2 new replicas have been updated...
Waiting for deployment "demojenkins" rollout to finish: 1 old replicas are pending termination...
Waiting for deployment "demojenkins" rollout to finish: 1 old replicas are pending termination...
deployment "demojenkins" successfully rolled out

(5) 再次查看所有 Pod 的运行状态，发现 Pod 名称已经发生变化

1 2	# 查看所有Pod的运行状态，输出示例如下 # kubectl get pods -o wide

1
2
3

NAME                          READY   STATUS    RESTARTS   AGE     IP           NODE        NOMINATED NODE   READINESS GATES
demojenkins-6c58b8c7b-mt8hp   1/1     Running   0          6m50s   10.244.1.9   k8s-node1              
demojenkins-6c58b8c7b-tng8r   1/1     Running   0          6m20s   10.244.3.9   k8s-node2

回滚 Java 应用程序

(1) 为了更好观察 Java 应用的回滚过程，先查看所有 Pod 的运行状态

1 2	# 查看所有Pod的运行状态，输出示例如下 # kubectl get pods -o wide

1
2
3

NAME                          READY   STATUS    RESTARTS   AGE   IP           NODE        NOMINATED NODE   READINESS GATES
demojenkins-6c58b8c7b-mt8hp   1/1     Running   0          10m   10.244.1.9   k8s-node1              
demojenkins-6c58b8c7b-tng8r   1/1     Running   0          10m   10.244.3.9   k8s-node2

(2) 查看指定 Deployment 的所有历史版本

# 查看指定Deployment的所有历史版本
# kubectl rollout history deployment 

# 比如，输出示例如下
# kubectl rollout history deployment demojenkins

deployment.apps/demojenkins 
REVISION  CHANGE-CAUSE
1         
2

(3) 当执行完上述步骤将 Java 应用的版本从 0.0.1 升级到 0.0.2 后，若希望回滚到旧的版本（即用旧版本的 Pod 替换掉所有新版本的 Pod），可以执行以下命令

# 回滚指定Deployment到上一个版本
# kubectl rollout undo deployment 

# 比如
# kubectl rollout undo deployment demojenkins

# 或者，回滚指定Deployment到指定的版本
# kubectl rollout undo deployment  --to-revision=<版本>

# 比如
# kubectl rollout undo deployment demojenkins --to-revision=1

(4) 再次查看所有 Pod 的运行状态，发现 Pod 名称已经发生变化

1 2	# 查看所有Pod的运行状态，输出示例如下 # kubectl get pods -o wide

1
2
3

NAME                           READY   STATUS    RESTARTS   AGE   IP            NODE          NOMINATED NODE   READINESS GATES
demojenkins-5486657b45-knbnp   1/1     Running   0          66s   10.244.4.11   k8s-node2                
demojenkins-5486657b45-md6lh   1/1     Running   0          64s   10.244.2.7    k8s-node3

平滑重启 Java 应用程序

运行环境说明

平滑重启操作，必须在 Kubernetes 集群的任意一个 Master 节点上执行。

什么是平滑重启

在 Kubernetes 中实现 Java 应用程序的平滑重启，本质上是通过 Deployment 滚动更新（Rolling Update）的方式实现，也就是逐个重建 Pod，而不是将全部 Pod 停掉再重建，这样可以保证服务在重启过程中尽量不丢失请求。
所谓 Java 应用平滑重启（Graceful Restart）有两个关键点：
- (1) 不中断现有请求：Java 应用在收到 SIGTERM 信号时，应该先停止接收新请求，但允许正在处理的请求完成，再退出。
- (2) 保证服务可用性：Kubernetes 通过 Deployment 的滚动更新或 Pod 生命周期钩子来保证至少有一部分实例在运行，避免服务全部不可用。

扩展阅读

更多关于 Kubernetes 如何实现 Java 应用程序平滑重启的详细介绍，可以看这里。

平滑重启的实现

(1) 手动触发 Deployment 滚动更新（Rolling Update），也就是说，Kubernetes 会逐个重建 Pod，而不是将全部 Pod 停掉再重建

# 触发Deployment滚动更新
# kubectl rollout restart deployment 

# 比如
# kubectl rollout restart deployment demojenkins

(2) 特别注意，光是依靠 kubectl rollout restart deployment 命令，不一定就可以真正实现 Java 应用的平滑重启，它是有几个前提条件的，详细说明请看这里。

参考资料

Spring Cloud Gateway 实现动态路由和灰度发布

2025-09-12T14:33:05.000Z

Gateway 动态路由

创建数据库表

CREATE TABLE `gateway_api_route` (
   `id` varchar(50) NOT NULL,
   `path` varchar(255) NOT NULL,
   `service_id` varchar(50) DEFAULT NULL,
   `url` varchar(255) DEFAULT NULL,
   `retryable` tinyint(1) DEFAULT NULL,
   `enabled` tinyint(1) NOT NULL,
   `strip_prefix` int(11) DEFAULT NULL,
   `api_name` varchar(255) DEFAULT NULL,
   PRIMARY KEY (`id`)
 ) ENGINE=InnoDB DEFAULT CHARSET=utf8;

插入表数据

1	INSERT INTO gateway_api_route (id, path, service_id, retryable, strip_prefix, url, enabled) VALUES ('order-service', '/order/**', 'order-service',0,1, NULL, 1);

提示

企业项目中可以使用 Spring MVC 结合前端页面，开发一个可视化网关管理工作台。当新服务开发完成后，可以通过这个工作台对网关配置进行管理，比如为某个服务绑定对应的 URL 路径，并支持增删改查操作，实现服务路由配置的可视化管理。

Gateway 灰度发布

创建数据库表

CREATE TABLE `gray_release_config` (
   `id` int(11) NOT NULL AUTO_INCREMENT,
   `service_id` varchar(255) DEFAULT NULL,
   `path` varchar(255) DEFAULT NULL,
   `enable_gray_release` int(11) DEFAULT NULL,
   PRIMARY KEY (`id`)
 ) ENGINE=InnoDB DEFAULT CHARSET=utf8;

参考资料

Kubernetes 入门教程之三

2025-09-10T13:12:19.000Z

大纲

Kubernetes 核心技术

Controller 的介绍

Pod 与 Controller（控制器）的关系

Pod 通过 Controller 进行运维管理，包括创建、扩缩容、滚动更新等操作。
Pod 与 Controller 之间是通过 Label（标签）和 Label Selector（标签选择器）机制建立关联关系。
Controller 通过识别 Pod 的 Label（标签）来实现对一组 Pod 的集中管理。

Replication Controller（RC）

RC 的概念

Replication Controller（RC）是 Kubernetes 系统中的核心概念之一。当定义一个 RC 并将其提交到 Kubernetes 集群后，Master 节点上的 Controller Manager 组件会接收到通知，并持续监控集群中 Pod 的运行状态。

RC 的作用

Pod 的副本数量管理
- 确保集群中实际运行的 Pod 副本数量与 RC 定义的期望值（spec.replicas）保持一致：
  - 如果运行的 Pod 副本数量过多，RC 会自动停止并删除多余的 Pod；
  - 如果运行的 Pod 副本数量不足，RC 会自动创建新的 Pod 来补足数量。
Pod 的自动修复能力
- 当 Pod 因故障或异常退出时，RC 会自动创建新的 Pod 来替代，确保服务始终可用。
Pod 的弹性伸缩能力
- 用户可以通过调整 RC 定义中的副本数，实现 Pod 的动态扩缩容（Scaling），从而根据业务需求灵活提升或降低服务处理能力。
- 比如：kubectl scale rc nginx --replicas=5

RS 替代 RC

从 Kubernetes 1.2 版本开始，Replica Set（RS）已经逐渐取代 Replication Controller（RC），成为更常用的 Pod 副本管理控制器。二者的演进说明如下：

命名冲突
- 由于 Replication Controller 与 Kubernetes 代码模块中同名，在 Kubernetes 1.2 版本中，RC 升级为新的概念 Replica Set ，官方将其定义为 RC 的下一代版本。
主要区别
- Replication Controller：只支持基于等式的 Label Selector，如 app=nginx。
- Replica Set ：除了支持等式的 Label Selector 外，还支持基于集合式的 Label Selector，如 in、notin、exists 等更复杂的匹配规则。
使用场景
- 在实际工作中，很少单独使用 Replica Set，它通常由 Deployment 管理。Deployment 提供了更高层次的功能，包括 Pod 创建、删除、更新的完整编排与滚动升级机制。
- 在生产环境中，通常通过 Deployment → Replica Set → Pod 这一管理链路进行编排和管理。

使用 RC / RS 管理 Pod 的原因

避免直接创建 Pod
- 不建议越过 RC / RS 直接创建 Pod，因为直接创建的 Pod 无法自动修复或扩缩容。
- RC 或 RS 通过副本管理机制，可以实现 Pod 的自动创建、补足、替换和删除。
提升容灾能力
- 当节点故障或 Pod 异常退出时，RC / RS 会自动创建新的 Pod，确保服务稳定可用，减少因节点崩溃等意外带来的损失。
适用于单副本场景
- 即使应用只有一个 Pod 副本，也强烈建议使用 RC / RS 来管理 Pod，以获得自动恢复和高可用能力。

Replica Set（RS）

RS 的概念

从 Kubernetes 1.2 版本开始，Replica Set（RS）已经逐渐取代 Replication Controller（RC），成为更常用的 Pod 副本管理控制器。Replica Set 是 Replication Controller 的升级版本，支持更强大的 Label Selector，二者的关系如下：

功能一致
- Replica Set 与 Replication Controller 在功能上没有本质的区别，二者的核心作用都是确保 Pod 副本数量与预期值保持一致。
用法差异
- Replication Controller 只支持基于等式的 Label Selector，例如 app=nginx。
- Replica Set 除了支持等式的 Label Selector 外，还支持基于集合式的 Label Selector，如 in、notin、exists 等更复杂的匹配规则。
官方建议
- Kubernetes 官方强烈建议避免直接使用 Replica Set，而是通过 Deployment 来创建和管理 Replica Set 及其 Pod，以此获得滚动更新、回滚等高级功能。
- 在生产环境中，通常通过 Deployment → Replica Set → Pod 这一管理链路进行编排和管理。

Deployment

Deployment 的概念

Deployment 控制器是 Kubernetes 在 1.2 版本中引入的新概念，主要目的是为了更好地解决 Pod 的编排问题。

主要功能
- 部署和管理无状态应用；
- 维护期望数量的 Pod 实例，支持自动修复异常 Pod；
- 提供滚动升级、灰度发布、快速回滚等版本管理功能；
- 支持自动扩缩容（结合 HPA 使用）；
- 与 Service 配合，实现应用的高可用与负载均衡。
实现机制
- Deployment 内部通过 Replica Set 管理 Pod 副本：
  - Replica Set 负责 Pod 的实际创建、扩容和缩容；
  - Deployment 作为更高一层控制器，可以管理多个 Replica Set，从而支持版本管理和回滚。
- 当更新镜像或配置时，Deployment 会创建新的 Replica Set 并逐步替换旧 Pod，实现平滑升级。
定义特点
- 定义结构与 Replica Set 类似，但提供了更高层的编排能力：
  - Replica Set 的 Kind 类型：ReplicaSet；
  - Deployment 的 Kind 类型：Deployment，支持滚动更新、回滚、暂停、恢复、历史版本管理等高级功能。
- 可通过 YAML 文件、命令行等多种方式定义，易于集成到 CI/CD 流水线中。
适用场景
- 部署无状态 Web 应用，如 Nginx、前端服务、API 网关；结合 Service 实现高可用和负载均衡，支持滚动更新不中断访问；
- 部署微服务中的业务服务实例，支持自动扩缩容，满足不同流量需求；通过滚动更新和灰度发布，保证服务持续迭代；
- 部署无状态的计算或处理任务，如日志收集、ETL、数据清洗等；
- 部署一些无状态的基础设施，如 Prometheus、Grafana、Fluentd；
- 通过 Deployment 的版本控制能力，实现持续交付流程；支持分批滚动更新、A/B 测试和金丝雀发布。

StatefulSet

StatefulSet 的概念

StatefulSet 控制器是 Kubernetes 在 1.5 版本中引入的控制器，主要用于管理有状态应用，为每个 Pod 提供固定身份标识、稳定的网络标识符和持久化存储，确保 Pod 的部署和管理有序进行。

主要功能
- 部署和管理有状态应用；
- 保证每个 Pod 具有固定的标识符（名称、网络标识）；
- 按照顺序有序创建、有序扩容、有序删除 Pod；
- 结合 PersistentVolume 为每个 Pod 提供独立的持久化存储；
- 确保 Pod 在重启或迁移后仍能保持原有的存储和网络标识。
实现机制
- StatefulSet 内部通过 Headless Service 实现固定 DNS 解析，为 Pod 提供稳定的网络标识；
- 每个 Pod 会被分配一个有序的编号，例如 mysql-0、mysql-1；
- Pod 与 PersistentVolumeClaim（PVC）绑定，确保数据不会因 Pod 重建而丢失；
- Pod 创建、扩容、更新、删除等操作严格按照顺序进行，保证集群一致性。
定义特点
- StatefulSet 的定义与 Deployment 类似，但支持更多有状态特性：
  - Pod 命名固定：Pod 名称由 StatefulSet 名称 + 编号组成，如 mysql-0；
  - 网络标识稳定：通过 Headless Service 绑定，Pod 拥有固定 DNS，如 mysql-0.mysql；
  - 持久化存储：每个 Pod 自动绑定独立 PVC，与 Pod 生命周期解耦；
  - 严格的顺序控制：Pod 启动、扩容和删除过程严格有序。
适用场景
- 部署数据库服务，如 MySQL 主从、PostgreSQL；
- 部署分布式存储，如 HDFS、Ceph；
- 部署分布式协调服务，如 ZooKeeper、Etcd；
- 部署需要稳定网络标识的集群，如 Kafka、RabbitMQ。

DaemonSet

DaemonSet 的概念

DaemonSet 控制器是 Kubernetes 在 1.2 版本中引入的重要控制器，主要用于确保集群中每个（或指定）Node（工作节点）上都运行一个 Pod，非常适合运行节点级的后台服务或守护进程。

主要功能
- 在每个节点上运行一个指定的 Pod
  - 自动在集群中每个符合条件的节点上部署且只运行一个指定的 Pod 实例。
- 节点加入自动部署
  - 当新节点加入集群时，DaemonSet 会自动在该节点上调度并启动 Pod。
- 节点移除自动回收
  - 节点被移除或不可用时，对应 Pod 会自动删除，保持一致性。
- 不支持手动扩容 / 缩容
  - Pod 的副本数量与节点数量直接关联，不支持手动管理 replicas。
- 支持滚动更新与回滚
  - 可平滑升级版本，并在出现问题时快速回滚。
- 可结合节点选择器、节点亲和性、污点 / 容忍等使用
  - 支持精确控制 DaemonSet Pod 部署在哪些节点上。
- 与 Deployment 区别
  - Deployment：通常用于无状态服务，副本数固定，由用户定义。
  - DaemonSet：与节点数量绑定，强调 “每个节点一个 Pod”。
- 删除行为可控
  - 使用 kubectl delete daemonset 删除 DaemonSet 时，可通过 --cascade=orphan 参数控制是否保留关联的 Pod。
实现机制
- DaemonSet 控制器实时监听集群节点变化：
  - 当新节点加入时，DaemonSet 会根据调度规则自动为该节点创建一个 Pod；
  - 当节点下线或被删除时，DaemonSet 会清理对应的 Pod；
  - 通过 updateStrategy 配置支持滚动更新，保证节点上的 Pod 平滑升级；
- 一个 DaemonSet 只能管理一组相同功能的 Pod，不会像 Deployment 那样创建多个 Replica Set（RS）；
- 与 Deployment 不同，DaemonSet 的 Pod 不通过调度器进行普通调度，而是直接绑定到目标节点。
定义特点
- Kind 类型是 DaemonSet；
- Pod 数量等于匹配规则的节点数量；
- 支持的更新策略：
  - RollingUpdate：逐个节点更新 Pod，保证服务连续性；
  - OnDelete：需要手动删除旧 Pod 时，DaemonSet 才会创建新 Pod；
- 可通过节点标签、节点亲和性、污点 / 容忍等配置精确控制 Pod 的分布；
- YAML 文件定义结构与 Deployment 类似，但 spec.strategy 配置略有不同。
- 使用 kubectl delete daemonset 删除 DaemonSet 时，可通过 --cascade=orphan 参数控制是否保留关联的 Pod。
适用场景
- 日志收集：如 Fluentd、Logstash、Filebeat，保证每个节点日志都能被采集。
- 监控代理：如 Prometheus Node Exporter、Datadog Agent、cAdvisor 等，采集节点和 Pod 的监控指标。
- 网络插件：如 Flannel、Calico、Cilium 等 CNI 插件，需要在所有节点上运行网络代理；
- 存储插件：如 Ceph、GlusterFS、CSI Driver 等，部署存储卷管理进程；
- 安全与合规审计：如 Falco、Sysdig Secure 等安全审计、防护 Agent；
- 节点运维任务：自动在每个节点运行健康检查、系统运维脚本或运维工具；
- 边缘计算场景：在特定节点部署边缘服务或代理。

总结对比

特性	Deployment	DaemonSet
Pod 数量控制	支持自定义 Pod 的副本数量	每个节点部署 1 个 Pod，自动匹配节点
调度机制	由调度器调度	直接绑定到目标节点
适用场景	无状态应用、微服务、Web 服务	节点级服务、日志、监控、网络插件等
支持扩缩容	支持 HPA 自动扩缩容	不支持扩缩容，Pod 数量由节点数决定
更新策略	滚动更新、回滚、暂停、恢复	滚动更新，或者手动删除更新

Job

Job 的概念

Job 控制器是 Kubernetes 中用于一次性任务管理的重要控制器，适合运行批处理作业或有限执行次数的任务。Job 会确保指定数量的 Pod 成功执行完成（即运行到 Completed 状态），通常用于离线计算、数据处理或临时任务。

主要功能
- 执行一次性任务，保证任务至少成功执行一次
  - Job 会确保定义的 Pod 按照预期执行，直到成功完成（运行状态为 Completed）。
  - Pod 运行失败时，Job 会根据重试策略自动重新创建新的 Pod 继续执行任务。
- 支持并行或串行执行
  - 可以通过 spec.parallelism 控制同时运行的 Pod 数量；
  - 可以通过 spec.completions 控制任务总共需要成功完成的 Pod 数量。
- 适合一次性任务，执行完成后不会再次运行
  - Job 完成后，Pod 不会被自动删除，但状态保持为 Completed；
  - 可以通过配置 TTL 控制器自动清理已完成的 Job 及 Pod。
实现机制
- Job 控制器实时监听任务的执行状态：
  - 创建 Pod：Job 根据并发配置启动一个或多个 Pod；
  - 失败重试：如果 Pod 执行失败（运行状态为 Failed），Job 会根据 backoffLimit 限制重试次数；
  - 完成判断：当成功完成的 Pod 数量达到 spec.completions 时，Job 进入 Completed 状态；
  - 清理策略：可通过 ttlSecondsAfterFinished 设置任务完成后延迟删除资源。
- Pod 调度：Job 创建的 Pod 由调度器进行普通调度，可结合节点选择策略运行在特定节点。
- Job 控制器本身不做并发同步逻辑，任务并发控制需通过应用自身或外部工具实现。
定义特点
- Kind 类型：Job
- 核心参数：
  - spec.completions：任务需要成功完成的 Pod 总数量；
  - spec.parallelism：允许同时运行的 Pod 数量；
  - spec.backoffLimit：Pod 失败时的最大重试次数，超过该次数后 Job 会被标记为失败；
  - spec.ttlSecondsAfterFinished：Job 完成后延迟清理的时间（秒）；
  - spec.template.spec.restartPolicy：Pod 的重启策略，Job 必须设置为：
    - Never：Pod 失败时，不会在同一个 Pod 内重启，而是由 Job 创建新的 Pod；
    - OnFailure：Pod 失败时，会在同一个 Pod 内重启一次，仍未成功则由 Job 重新创建 Pod。
- YAML 定义结构与 Deployment 类似，但 spec.strategy 等部署策略不适用。
更新策略
- Job 通常不支持直接滚动更新：
  - 如果需要修改 Job 逻辑，通常是删除旧 Job 后重新创建新 Job；
  - 可以通过 kubectl replace 或者 kubectl apply 覆盖更新。
适用场景
- 一次性批处理作业
  - 数据清理、日志分析、批量数据转换等。
- 离线计算任务
  - 机器学习模型训练、视频转码、大数据计算等。
- 自动化任务
  - 备份数据库、生成报表、执行临时脚本等。
- 测试任务
  - 压力测试、集成测试或单次验证任务。

CronJob

CronJob 的概念

CronJob 控制器是 Kubernetes 中用于定时任务调度的重要控制器，适合周期性执行任务或在特定时间点自动运行一次性任务。CronJob 基于 Linux 的 cron 语法定义任务调度规则，本质上是按时间计划自动创建 Job 资源，由 Job 再去管理 Pod 的执行与重试。

主要功能
- 周期性任务调度
  - 使用 cron 表达式定义执行计划，精确到分钟；
  - 可在每天、每周、每月或特定时间点自动运行任务。
- 自动创建 Job
  - CronJob 在到达调度时间后，会自动创建对应的 Job 资源；
  - CronJob 不直接创建和运行 Pod，所有 Pod 都由其生成的 Job 进行管理；
  - Job 负责任务的执行、失败重试和状态维护。
- 控制并发执行
  - 可通过 concurrencyPolicy 控制多次调度的 Job 是否允许并发执行：
    - Allow：允许多个任务并发运行；
    - Forbid：禁止并发，若上一个任务未完成，跳过新的调度；
    - Replace：如果上一个任务未完成，先删除旧任务，再启动新任务。
- 支持任务历史管理
  - 可以配置保留的成功任务和失败任务历史数量，避免资源无限增长。
- 支持一次性定时任务
  - 通过指定一次性运行的时间点，实现一次性定时触发的 Job。
实现机制
- CronJob 控制器周期性检查当前时间是否符合 schedule 定义的规则：
  - (1) 到达调度时间点 → 创建新的 Job；
  - (2) Job 执行任务 → 根据 Pod 模板启动 Pod；
  - (3) 任务执行失败 → 根据 Job 的重试策略进行管理；
  - (4) 任务历史清理 → 按配置保留一定数量的成功和失败记录。
- CronJob 仅负责调度和 Job 创建，实际的 Pod 管理由 Job 负责；
- 当控制器或 API Server 不可用时，会在恢复后补偿执行任务（可通过 startingDeadlineSeconds 控制补偿的时间窗口）。
定义特点
- Kind 类型：CronJob
- 核心参数：
  - spec.schedule：调度时间，使用标准 cron 表达式；
  - spec.concurrencyPolicy：任务并发执行策略；
  - spec.startingDeadlineSeconds：任务延迟启动的容忍时间（秒）；
  - spec.successfulJobsHistoryLimit：保留的成功 Job 数量；
  - spec.failedJobsHistoryLimit：保留的失败 Job 数量；
  - spec.jobTemplate：定义要运行的 Job 模板
    - spec.jobTemplate.spec.template.spec.restartPolicy：Pod 的重启策略，CronJob 必须设置为：
      - Never：Pod 失败后不重启（常用于一次性任务）；
      - OnFailure：Pod 失败后自动重启，直到成功或超过 backoffLimit 限制。
更新策略
- CronJob 更新时：
  - 新的调度规则在应用后立即生效；
  - 已经创建的 Job 不会被中断或自动更新；
  - 修改任务逻辑需更新 jobTemplate 并等待下一个调度周期生效。
- 如果需要中断已生成的 Job，需要手动删除 Job 或 Pod。
适用场景
- 定时数据处理
  - 每天凌晨自动跑批处理作业，生成统计报表；
  - 定时清理临时文件或过期数据。
- 数据库备份
  - 每天或每小时自动执行数据库备份任务。
- 日志归档
  - 定期收集、压缩和上传日志文件到集中存储。
- 周期性健康检查
  - 定时执行诊断脚本或检查任务，输出报告。
- 定时通知或消息推送
  - 定时触发消息发送、告警提醒或业务事件。
- 一次性延时执行任务
  - 通过设置特定时间点，完成一次性延时任务的执行。
Linux 的 Cron 表达式规则
- 常用示例（仅支持精确到分钟）：
  - "*/5 * * * *" → 每 5 分钟执行一次；
  - "0 0 * * *" → 每天 0 点执行；
  - "0 2 * * 1" → 每周一凌晨 2 点执行。
  字段位置含义取值范围
  第 1 位分钟 0–59
  第 2 位小时 0–23
  第 3 位日期（日） 1–31
  第 4 位月份 1–12
  第 5 位星期 0–7（0 和 7 都表示星期日）

Horizontal Pod Autoscaler

HPA 的概念

Horizontal Pod Autoscaler（Pod 横向自动扩容，简称 HPA）与 Replication Controller（RC）、Deployment 一样，都是 Kubernetes 的资源对象。HPA 的实现原理是：通过持续追踪和分析 Replication Controller（RC）或 Deployment 控制的目标 Pod 的负载变化，判断是否需要针对性地调整 Pod 的副本数量（自动扩容和缩容）。

HPA 的两种模式

Kubernetes 对 Pod 的扩容与缩容提供了手动和自动两种模式。

手动扩容和缩容：
- 通过 kubectl scale 命令对 Deployment 或 Replication Controller 的 Pod 副本数量进行设置；
- 比如：kubectl scale deployment frontend --replicas 1。
自动扩容和缩容（HPA）：
- 用户需要根据某个性能指标或自定义业务指标，指定 Pod 副本数量的最小值和最大值范围，Kubernetes 会根据实时指标变化，在这个范围内自动调整 Pod 的副本数量。
- HPA 控制器通过 Master 节点的 kube-controller-manager 服务的启动参数 --horizontal-pod-autoscaler-sync-period（默认值为 30 秒）来周期性运行，包括：
  - HPA 控制器会定期监测目标 Pod 的 CPU 使用率；
  - 当 Pod 的 CPU 平均使用率达到用户设定的阈值条件时，HPA 控制器会自动调整 Replication Controller 或 Deployment 中的 Pod 副本数量，以使实际 Pod 副本数满足用户定义的 CPU 平均使用率要求。

HPA 的扩容配置示例

配置示例

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deployment
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
        - name: nginx
          image: nginx
          resources:
            requests:
              cpu: 50m
          ports:
            - containerPort: 80

---

apiVersion: v1
kind: Service
metadata:
  name: nginx-svc
spec:
  ports:
    - port: 80
      targetPort: 80
  selector:
    app: nginx

---

apiVersion: autoscaling/v1
kind: HorizontalPodAutoscaler
metadata:
  name: nginx-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: nginx-deployment
  minReplicas: 1
  maxReplicas: 10
  targetCPUUtilizationPercentage: 50    # 当 Pod 的 CPU 平均使用率超过 50% 时扩容

配置说明：
- Deployment（nginx-deployment）
  - 核心作用：
    - 创建并管理 Nginx Pod，实现副本管理、自动恢复。
  - 核心配置：
    - replicas: 1：初始创建 1 个 Pod 副本。
    - selector.matchLabels：用于匹配 Pod 的标签，这里为 app: nginx，确保 Deployment 管理正确的 Pod。
    - template.metadata.labels：Pod 模板的标签，与 selector 对应。
    - containers：定义容器信息
      - name / image：容器名称及镜像（nginx）
      - resources.requests.cpu: 50m：CPU 请求资源，保证 Pod 调度时的资源预留（50m 表示 0.05 个 CPU 核心）
      - ports.containerPort: 80：容器端口
- Service（nginx-svc）
  - 核心作用：
    - 为 Pod 提供统一访问入口，实现负载均衡。
  - 核心配置：
    - ports.port: 80：Service 暴露的端口
    - ports.targetPort: 80：转发到 Pod 的容器端口
    - selector.app: nginx：Service 选择带有 app=nginx 标签的 Pod 作为后端
- HorizontalPodAutoscaler（nginx-hpa）
  - 核心作用：
    - 基于 CPU 使用率自动调整 Pod 副本数量，实现弹性伸缩（自动扩容和缩容）。
  - 核心配置：
    - scaleTargetRef：指定 HPA 控制器管理的对象，这里为 Deployment/nginx-deployment
    - minReplicas: 1：Pod 副本数量的最小值
    - maxReplicas: 5：Pod 副本数量的最大值
    - targetCPUUtilizationPercentage: 50：HPA 控制器会根据 Pod 的 CPU 平均使用率是否达到 50% 来自动扩缩容

HPA 的扩容高级配置

在 HPA 中，除了 targetCPUUtilizationPercentage 这种基于 CPU 使用率的扩缩容条件外，还可以配置更多维度的指标，例如内存、Pod 自定义指标、外部 Kubernetes 对象指标、外部监控系统指标等。

API 版本 autoscaling/v1（最基础版本）
- 核心作用：
  - 只支持 CPU 使用率指标；
  - 无法基于内存或自定义指标来扩容或缩容，只适用于简单场景。
- 配置字段：
  1
  2
  spec:
  targetCPUUtilizationPercentage: 50 # 当 Pod 的 CPU 平均使用率超过 50% 时扩容

API 版本 autoscaling/v2beta2 或者 autoscaling/v2（推荐版本）

核心作用：
- 支持基于多种指标类型来扩容或缩容，通过 metrics 字段配置。
四种核心指标类型：

指标类型	用途	示例场景	是否需要结合 Metrics Adapter（比如 Prometheus Adapter）使用
Resource	基于 Pod 资源指标（CPU、内存等）	当 Pod 的 CPU 平均使用率超过 `50%` 时扩容	不需要
Pods	基于每个 Pod 计算出的指标	当每个 Pod 处理的业务请求数超过 1000 时扩容	需要
Object	基于外部 Kubernetes 对象指标	根据某个 Service 的 QPS 来扩容	需要
External	基于外部监控系统指标	根据 Prometheus 或外部监控系统的 QPS 扩容	需要

基于资源指标（CPU / 内存）自动扩容和缩容，不需要结合 Metrics Adapter（比如 Prometheus Adapter）使用

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: nginx-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: nginx-deployment
  minReplicas: 1
  maxReplicas: 10
  metrics:
    - type: Resource
      resource:
        name: cpu
        target:
          type: Utilization
          averageUtilization: 50   # 当 Pod 的 CPU 平均使用率超过 50% 时扩容
    - type: Resource
      resource:
        name: memory
        target:
          type: AverageValue
          averageValue: 200Mi      # 当 Pod 的内存平均使用量超过 200Mi 时扩容

配置字段	配置作用
`averageUtilization`	百分比，基于 Pod CPU 或内存的使用率
`averageValue`	绝对值，基于 Pod CPU 或内存的使用量

基于每个 Pod 的自定义指标来自动扩容和缩容，需要结合 Metrics Adapter（比如 Prometheus Adapter）使用，适用于：根据每个 Pod 处理的业务请求数、活跃连接数等指标来扩容

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: nginx-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: nginx-deployment
  minReplicas: 1
  maxReplicas: 10
  metrics:
    - type: Pods
      pods:
        metric:
          name: requests_per_second    # Prometheus Adapter 暴露的指标名称
        target:
          type: AverageValue
          averageValue: "1000"   # 当每个 Pod 每秒所处理的业务请求数大于 1000 时扩容

基于外部 Kubernetes 对象指标来自动扩容和缩容，需要结合 Metrics Adapter（比如 Prometheus Adapter）使用，适用于：根据 Service、Ingress 等对象的指标来扩容

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: nginx-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: nginx-deployment
  minReplicas: 1
  maxReplicas: 10
  metrics:
    - type: Object
      object:
        describedObject:
          apiVersion: networking.k8s.io/v1
          kind: Ingress
          name: my-ingress
        metric:
          name: requests_per_second    # Prometheus Adapter 暴露的指标名称
        target:
          type: Value
          value: "1000"   # 当该 Ingress 的每秒请求数超过 1000 时扩容

基于外部监控系统指标来自动扩容和缩容，需要结合 Metrics Adapter（比如 Prometheus Adapter）使用，适用于：根据 Prometheus、CloudWatch、阿里云 ARMS 等外部监控系统指标来扩容

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: nginx-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: nginx-deployment
  minReplicas: 1
  maxReplicas: 10
  metrics:
    - type: External
      external:
        metric:
          name: nginx_ingress_qps   # Prometheus Adapter 暴露的指标名称
        target:
          type: AverageValue
          averageValue: "2000"  # 当外部系统的 QPS 大于 2000 时扩容

总结说明

Kubernetes 的 Metrics Server：仅提供 CPU、内存指标，适用于简单扩缩容场景。
推荐使用 Prometheus + Prometheus Adapter：采集并适配 QPS、连接数、延迟等复杂业务指标供 HPA 使用。
多个指标组合使用：HPA 支持同时配置 CPU、内存、QPS 等多个指标，最终副本数取最大值，确保系统稳定性。
生产最佳实践：统一部署 Metrics Server + Prometheus + Prometheus Adapter，构建完整的自动扩缩容体系。

HPA 的缩容高级配置

在 Kubernetes 的 Horizontal Pod Autoscaler（HPA）中，自动缩容实际上是自动扩容机制的一部分，一般不需要单独写一个专门的 “缩容配置”。HPA 会根据用户设定的 Metrics 指标，自动计算目标 Pod 副本数量，既包括扩容，也包括缩容。

缩容的核心逻辑
- HPA 会根据当前负载和目标值计算期望 Pod 副本数量：
  - 计算公式：desiredReplicas = ceil(currentReplicas × currentMetricValue ÷ targetMetricValue)
  - 如果 desiredReplicas > currentReplicas，HPA 会进行扩容
  - 如果 desiredReplicas < currentReplicas，HPA 会进行缩容
- 假设配置里有以下内容，这意味着 Pod 缩容最小会缩到 1 个副本，不会被缩容到 0 个副本
  1
  2
  minReplicas: 1
  maxReplicas: 10

如何让缩容生效

(1) HPA 默认就支持缩容，一般不需要额外配置
- 比如，当 CPU 或内存使用率持续低于目标值时，Pod 的数量会被逐步缩减，直到达到 minReplicas 限制

(2) 如果想控制 Pod 缩容的速度和行为，可以在 spec.behavior 中配置策略

必须使用 API 版本 autoscaling/v2 或者 autoscaling/v2beta2

配置示例：

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: nginx-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: nginx-deployment
  minReplicas: 1
  maxReplicas: 10
  metrics:
    - type: Resource
      resource:
        name: cpu
        target:
          type: Utilization
          averageUtilization: 50             # 当 Pod 的 CPU 平均使用率超过 50% 时扩容
  behavior:
    scaleDown:
      stabilizationWindowSeconds: 300        # 缩容前观察 5 分钟，避免波动
      policies:
        - type: Percent
          value: 50                          # 每次最多缩减 50%
          periodSeconds: 60                  # 每 60 秒评估一次缩容

配置字段：
- stabilizationWindowSeconds：稳定窗口，只有指标持续低于目标值这段时间后才缩容，避免频繁抖动
- policies：定义缩容速率，可以按百分比或固定数量缩减 Pod 的数量
- periodSeconds：缩容策略评估的时间间隔

Pod 缩容为 0 个副本
- 在 Kubernetes 中，当 Pod 缩容到 0 个副本时，指的是 Pod 数量为 0，即一个 Pod 都不会存在（相当于删除所有正在运行的 Pod）。
- 如果希望 Pod 完全缩到 0 个副本，HPA 本身做不到，需要配合 KEDA 或 VPA 或 Deployment 的 scale-to-zero 机制。
- 但是，如果只是普通业务场景，直接设置 minReplicas: 0 即可让 HPA 在负载极低时将 Pod 缩到 0 个副本：
  1
  2
  3
  spec:
  minReplicas: 0
  maxReplicas: 10
- 注意：当 Pod 缩容到 0 个副本后
  - 如果没有请求进来，这个服务将处于完全停机状态
  - 如果之后有请求到达，Kubernetes 不会自动重建 Pod
  - 必须由 HPA 再次检测到指标上升，将 Pod 的副本数量从 0 调整为 1 或更多，Pod 才会被重新启动
  - 这期间会有冷启动延迟（Pod 拉取镜像、启动应用、健康检查等）

完整的扩缩容配置示例

配置示例：

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: nginx-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: nginx-deployment
  minReplicas: 1
  maxReplicas: 10
  metrics:
    - type: Resource
      resource:
        name: cpu
        target:
          type: Utilization
          averageUtilization: 50             # 当 Pod 的 CPU 平均使用率超过 50% 时扩容
  behavior:
    scaleDown:
      stabilizationWindowSeconds: 300        # 缩容前观察 5 分钟，避免波动
      policies:
        - type: Percent
          value: 50                          # 每次最多缩减 50%
          periodSeconds: 60                  # 每 60 秒评估一次缩容

配置效果
- 当 Pod 的 CPU 平均使用率超过 50% 时扩容
- 当 Pod 的 CPU 平均使用率低于 50% 且持续 5 分钟时，每 60 秒最多缩容 50%，直到达到 minReplicas 限制
验证缩容
- 实时查看 HPA 的决策过程：kubectl get hpa nginx-hpa -w，命令的输出结果如下：
  1
  2
  NAME REFERENCE TARGETS MINPODS MAXPODS REPLICAS AGE
  nginx-hpa Deployment/nginx 10%/50%, 80Mi 1 10 3 10m
- TARGETS：当前值 VS 目标值
- 当 10%/50% 持续低于目标值，REPLICAS（Pod 的副本数量）会逐步减少。

Kubernetes 入门教程之四

2025-09-10T13:12:19.000Z

大纲

Kubernetes 核心技术

Controller 的使用

部署应用

部署无状态应用

学习目标

本节将演示在 Kubernetes 集群中，如何通过 Deployment 部署一个 Nginx 的 Pod，并通过 Service 暴露端口，以便从 Kubernetes 集群外部访问 Nginx。

Kubernetes 无状态应用（Stateless）的特点

主要特点：
- Pod 之间完全一致
  - 所有 Pod 完全等价，没有区别，任意一个 Pod 都可以处理请求。
- 没有启动顺序要求
  - Pod 启动、停止的先后顺序不影响整体业务。
- 不依赖固定 Node 节点
  - Pod 可以在任意 Node 节点上调度和运行，不需要绑定特定节点。
- 可随意扩缩容
  - Pod 数量可以随时增加或减少，自动水平扩容（HPA）非常适合。
- 无持久化存储依赖
  - 不保存本地状态，数据通常存储在外部系统中，例如：数据库、对象存储、缓存服务等。
- Kubernetes 控制器
  - 通常使用 Deployment 管理，支持滚动升级和回滚。
典型代表：
- Nginx、Web 服务、后端接口、无状态微服务。

Kubernetes 通过 Deployment 部署无状态应用

生成用于部署一个 Nginx 的 Deployment 的 YAML 配置文件，其中 Deployment 的名称为 nginx

1	kubectl create deployment nginx --image=nginx --dry-run=client -o yaml > nginx_deployment.yaml

自动生成的 YAML 配置文件的内容如下所示

apiVersion: apps/v1
kind: Deployment
metadata:
  creationTimestamp: null
  labels:             # 标签：标识 Deployment 自身
    app: nginx
  name: nginx
spec:
  replicas: 1
  selector:
    matchLabels:      # 标签：在 Deployment 与 Pod 之间建立管理关系
      app: nginx
  strategy: {}
  template:
    metadata:
      creationTimestamp: null
      labels:         # 标签：定义 Pod 的身份（标签）
        app: nginx
    spec:
      containers:
      - image: nginx
        name: nginx
        resources: {}
status: {}

配置信息	作用对象	核心作用	简单解释
`metadata.labels`	Deployment 自身	标识 Deployment 自身	给 Deployment 资源对象自己打上标签，用于被其他资源（如 Service、HPA）查询和选择，或者方便用户管理。它说：” 我是谁。”
`spec.selector.matchLabels`	Deployment 的选择器	在 Deployment 与 Pod 之间建立管理关系	Deployment 用来寻找和管理拥有指定标签的 Pod 的规则。它说：” 哪些 Pod 归我管。”
`spec.template.metadata.labels`	Pod 模板	定义 Pod 的身份（标签）	规定了 Deployment 在创建新 Pod 时会为其打上的标签。它确保了新 Pod 都带有能被选择器识别的标签。它说：” 我创建的 Pod 长这样。”

创建或更新 YAML 文件中定义的 Kubernetes 资源对象（比如 Deployment）

1	kubectl apply -f nginx_deployment.yaml

查看所有 Pod 的运行状态

1	kubectl get pods -o wide

1 2	NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES nginx-6799fc88d8-jwp6g 1/1 Running 0 29m 10.244.2.18 k8s-node3

Kubernetes 通过 Service 暴露无状态应用

生成 YAML 配置文件，用于为名称为 nginx 的 Deployment 创建一个 NodePort 类型的 Service，将该 Deployment 的 80 端口暴露到 Kubernetes 集群每个节点的静态端口上，以便从集群外部访问 Nginx

1	kubectl expose deployment nginx --port=80 --type=NodePort --target-port=80 --name=nginx --dry-run=client -o yaml > nginx_service.yaml

自动生成的 YAML 配置文件的内容如下所示

apiVersion: v1
kind: Service
metadata:
  creationTimestamp: "2025-09-11T10:15:16Z"
  labels:
    app: nginx
  managedFields:
  - apiVersion: v1
    fieldsType: FieldsV1
    fieldsV1:
      f:metadata:
        f:labels:
          .: {}
          f:app: {}
      f:spec:
        f:externalTrafficPolicy: {}
        f:ports:
          .: {}
          k:{"port":80,"protocol":"TCP"}:
            .: {}
            f:port: {}
            f:protocol: {}
            f:targetPort: {}
        f:selector:
          .: {}
          f:app: {}
        f:sessionAffinity: {}
        f:type: {}
    manager: kubectl-expose
    operation: Update
    time: "2025-09-11T10:15:16Z"
  name: nginx
  namespace: default
  resourceVersion: "491002"
  selfLink: /api/v1/namespaces/default/services/nginx
  uid: e3729f4c-17f9-4100-86dd-2178fe1aa65f
spec:
  clusterIP: 10.0.0.106
  externalTrafficPolicy: Cluster
  ports:
  - nodePort: 30754
    port: 80
    protocol: TCP
    targetPort: 80
  selector:
    app: nginx
  sessionAffinity: None
  type: NodePort
status:
  loadBalancer: {}

创建或更新 YAML 文件中定义的 Kubernetes 资源对象（比如 Service）

1	kubectl apply -f nginx_service.yaml

查看 Servcie 列表

1	kubectl get svc

1
2
3

NAME         TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)        AGE
kubernetes   ClusterIP   10.0.0.1             443/TCP        38d
nginx        NodePort    10.0.0.106           80:30754/TCP   30s

通过浏览器访问 http://192.168.2.112:30754，请自行更改 IP 和端口；其中 IP 可以是 Kubernetes 集群任意节点的 IP 地址，端口由 kubectl get svc 命令可得知。若 Ngninx 容器在 Kubernetes 集群中创建并启动成功，则浏览器可以正常访问 Nginx 的首页（如下图所示）。

Kubernetes 删除 Deployment 和 Service

如果需要删除上面创建的 Deployment 和 Service，可以执行以下命令：

# 删除Service
kubectl delete service nginx

# 删除Deployment
kubectl delete deployment nginx

部署有状态应用

学习目标

本节将演示在 Kubernetes 集群中，如何通过 StatefulSet 部署一个 Nginx 的 Pod，并通过 Headless Service（无头服务）暴露应用，以便从 Kubernetes 集群内部访问。

Kubernetes 有状态应用（Stateful）的特点

主要特点：
- 每个 Pod 独立且不可互换
  - 每个 Pod 都有自己的身份、配置、存储，不能随意替换或重建。
- 需要固定的网络标识
  - Pod 需要固定的名称（DNS）或网络标识符，便于集群内通信，比如 mysql-0.mysql。
- 有启动和停止顺序
  - Pod 必须按照特定顺序启动或停止。
  - 例如，先启动主节点，再启动从节点。
- 需要持久化存储
  - 必须使用 PersistentVolume（PV）保证数据不随 Pod 删除而丢失。
- Pod 调度位置需要考虑
  - Pod 可能需要绑定特定的 Node 节点，确保存储卷挂载一致性或性能需求。
- Kubernetes 控制器
  - 使用 StatefulSet 管理，支持：
    - 固定的 Pod 命名（如 mysql-0, mysql-1）；
    - 有序部署、有序扩容和缩容；
    - 持久化存储与 Pod 一一对应。
典型代表：
- MySQL、Kafka、ZooKeeper、ElasticSearch、Redis Cluster。

Kubernetes 通过 StatefulSet 部署有状态应用

创建 YAML 配置文件（比如 nginx_statefulset.yaml），用于通过 StatefulSet 部署一个 Nginx 的 Pod

apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: nginx-statefulset
  namespace: default
spec:
  serviceName: nginx
  replicas: 3
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx:latest
        ports:
        - containerPort: 80

创建或更新 YAML 文件中定义的 Kubernetes 资源对象（比如 StatefulSet）

1	kubectl apply -f nginx_statefulset.yaml

查看所有 Pod 的运行状态，可以看到 Pod 的名称是根据一定规则生成的（全局唯一）

1	kubectl get pods -o wide

NAME                  READY   STATUS    RESTARTS   AGE   IP            NODE         NOMINATED NODE   READINESS GATES
nginx-statefulset-0   1/1     Running   0          77s   10.244.2.29   k8s-node3               
nginx-statefulset-1   1/1     Running   0          65s   10.244.3.11   k8s-node2               
nginx-statefulset-2   1/1     Running   0          37s   10.244.0.15   k8s-node1

Kubernetes 通过 Service 暴露有状态应用

创建 YAML 配置文件（如 nginx_service.yaml），用于通过 Service 暴露有状态应用

apiVersion: v1
kind: Service
metadata:
  name: nginx
  labels:
    app: nginx
spec:
  ports:
  - port: 60
    name: web
  clusterIP: None   # None 表示无头服务（Headless Service）
  selector:
    app: nginx

无头服务（Headless Service）是什么

无头服务是没有虚拟 IP（ClusterIP）的 Service（Headless Service），是一种没有 ClusterIP 的特殊 Service 类型，详细介绍请看这里。
无头服务可以用于暴露 Kubernetes 集群内 Pod 的真实 IP 和 DNS 名称（域名），而不是通过一个统一的虚拟 IP（ClusterIP）进行负载均衡，即 Kubernetes 不会做流量负载均衡。

创建或更新 YAML 文件中定义的 Kubernetes 资源对象（比如 Service）

1	kubectl apply -f nginx_service.yaml

查看 Servcie 列表，可以看到有状态应用的 ClusterIP 为 None

1	kubectl get svc

1
2
3

NAME         TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)   AGE
kubernetes   ClusterIP   10.0.0.1             443/TCP   53d
nginx        ClusterIP   None                 60/TCP    2m12s

提示

通过 Headless Service 暴露 Pod 后，每个 Pod 都有一个唯一的名称和 DNS 名称（域名），域名格式：...svc.cluster.local，默认的命名空间（namespace）是 default。
在 Kubernetes 集群内，可以通过 Pod 的 DNS 域名直接访问 Pod（前提是已经部署 CoreDNS），比如：http:://nginx-statefulset-0.nginx.default.svc.cluster.local:80。

在 Kubernetes 集群内部，通过 Service 的 DNS 名称（域名）访问有状态应用

特别注意

ClusterIP 为 None 的 Service（Headless Service）只能在 Kubernetes 集群内部访问，如果在集群外部机器（比如直接在集群的 Master 节点）上，通过 Pod 的 DNS 名称直接访问 Pod（比如 http://nginx-statefulset-0.nginx.default.svc.cluster.local:80），肯定是无法访问成功的。

创建一个临时 Pod，并进入 Pod 内部的交互式 Shell

1 2	# 添加 --rm 参数，为了在 Shell 中执行 exit 命令退出后自动销毁 Pod kubectl run test-pod --image=busybox:1.35 --restart=Never -it --rm -- sh

在临时 Pod 的内部，可以通过 Service 的 DNS 名称（域名）查询所有匹配 Pod 的 IP（必须保证临时 Pod 与 Service 处于同一个命名空间），域名格式：..svc.cluster.local

1	nslookup nginx.default.svc.cluster.local

Server:10.0.0.2
Address:10.0.0.2:53

Name:nginx.default.svc.cluster.local
Address: 10.244.3.11
Name:nginx.default.svc.cluster.local
Address: 10.244.2.29
Name:nginx.default.svc.cluster.local
Address: 10.244.0.15

在临时 Pod 的内部，还可以通过 Pod 的 DNS 名称（域名）直接访问指定的 Pod，域名格式：...svc.cluster.local

1	nslookup nginx-statefulset-0.nginx.default.svc.cluster.local

Server:10.0.0.2
Address:10.0.0.2:53

Name:nginx-statefulset-0.nginx.default.svc.cluster.local
Address: 10.244.2.29

1 2	# 或者通过 Pod 的 DNS 名称（域名）访问 Nginx 的首页面 wget -qO- http://nginx-statefulset-0.nginx.default.svc.cluster.local:80

Kubernetes 删除 StatefulSet 和 Service

如果需要删除上面创建的 StatefulSet 和 Service，可以执行以下命令

# 删除 Service
kubectl delete service nginx

# 删除 StatefulSet，--cascade=true 参数表示连同 Pod 一起删除，但 PVC 默认不会被删除（如果存在）
kubectl delete statefulset nginx-statefulset --cascade=true

部署守护进程

note

本节将演示在 Kubernetes 集群中，如何通过 DaemonSet 在每个 Node（工作节点）上分别部署一个守护进程。
这里的守护进程是指节点级的后台服务，比如日志收集（Filebeat）、网络插件（Flannel）、监控代理（Prometheus Node Exporter）等服务，为了方便演示，下面直接使用 Nginx 来代替。

Kubernetes 中 DaemonSet 的主要功能和适用场景

主要功能：
- 在每个节点上运行一个指定的 Pod
  - 自动在集群中每个符合条件的节点上部署且只运行一个指定的 Pod 实例。
- 节点加入自动部署
  - 当新节点加入集群时，DaemonSet 会自动在该节点上调度并启动 Pod。
- 节点移除自动回收
  - 节点被移除或不可用时，对应 Pod 会自动删除，保持一致性。
- 不支持手动扩容 / 缩容
  - Pod 的副本数量与节点数量直接关联，不支持手动管理 replicas。
- 支持滚动更新与回滚
  - 可平滑升级版本，并在出现问题时快速回滚。
- 可结合节点选择器、节点亲和性、污点 / 容忍等使用
  - 支持精确控制 DaemonSet Pod 部署在哪些节点上。
- 与 Deployment 区别
  - Deployment：通常用于无状态服务，副本数固定，由用户定义。
  - DaemonSet：与节点数量绑定，强调 “每个节点一个 Pod”。
- 删除行为可控
  - 使用 kubectl delete daemonset 删除 DaemonSet 时，可通过 --cascade=orphan 参数控制是否保留关联的 Pod。
适用场景：
- 日志收集
  - 部署日志收集 Agent（如 Fluentd、Logstash、Filebeat），保证每个节点日志都能被采集。
- 监控与指标采集
  - 例如 Prometheus Node Exporter、Datadog Agent、cAdvisor 等，采集节点和 Pod 的监控指标。
- 网络插件或 CNI 管理
  - Kubernetes CNI 插件通常以 DaemonSet 运行，例如 Calico、Flannel、Cilium 等。
- 存储插件或 CSI 驱动
  - 如 Ceph、Rook 等分布式存储系统的节点守护进程。
- 安全与合规审计
  - 如 Falco、Sysdig Secure 等安全审计或防护 Agent。
- 节点运维任务
  - 自动在每个节点运行健康检查、系统维护脚本或运维工具。

Kubernetes 通过 DaemonSet 部署守护进程

创建 YAML 配置文件（比如 nginx_daemonset.yaml），用于通过 DaemonSet 在每个节点上分别部署一个 Nginx 的 Pod，，并将宿主机内的 /var/log 目录挂载到容器内部的 /tmp/log 目录（可选操作）

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: nginx-daemonset
  labels:
    app: nginx   # DaemonSet 资源自身的标签，用于标识和选择这个 DaemonSet 资源
spec:
  selector:
    matchLabels:
      app: nginx   # DaemonSet 选择器标签，用于匹配和管理具有此标签的 Pod
  template:
    metadata:
      labels:
        app: nginx   # Pod 模板标签，DaemonSet 创建的每个 Pod 都会被打上这个标签
    spec:
      containers:
      - name: nginx
        image: nginx:1.15
        ports:
        - containerPort: 80
        volumeMounts:
        - name: varlog
          mountPath: /tmp/log
      volumes:
      - name: varlog
        hostPath:
          path: /var/log

创建或更新 YAML 文件中定义的 Kubernetes 资源对象（比如 DaemonSet）

1	kubectl apply -f nginx_daemonset.yaml

查看 DaemonSet 的状态

1	kubectl get daemonset nginx-daemonset

1 2	NAME DESIRED CURRENT READY UP-TO-DATE AVAILABLE NODE SELECTOR AGE nginx-daemonset 4 4 4 4 4 6m17s

查看所有 Pod 的运行状态，可以发现每个 Node（工作节点）都部署了一个 Nginx 的 Pod

1	kubectl get pods -o wide

NAME                    READY   STATUS    RESTARTS   AGE   IP            NODE         NOMINATED NODE   READINESS GATES
nginx-daemonset-mhxpg   1/1     Running   0          4s    10.244.2.35   k8s-node3               
nginx-daemonset-nsb7r   1/1     Running   0          4s    10.244.1.16   k8s-node1               
nginx-daemonset-p9k2d   1/1     Running   0          4s    10.244.3.17   k8s-node2

进入某个 Pod 内部查看挂载的日志文件

# 进入某个 Pod 的内部
kubectl exec -it nginx-daemonset-p9k2d bash

# 查看 Pod 内部的日志文件
ls /tmp/log/

Kubernetes 删除 DaemonSet

如果需要删除上面创建的 DaemonSet，可以执行以下命令

# 删除 DaemonSet，会级联删除该 DaemonSet 以及由它创建的所有 Pod
kubectl delete daemonset nginx-daemonset

# 或者使用 --cascade=orphan 参数，只删除 DaemonSet，但保留它创建的所有 Pod
kubectl delete daemonset nginx-daemonset --cascade=orphan

部署一次性任务

提示

本节将演示在 Kubernetes 集群中，如何通过 Job 执行一次性任务。

Kubernetes 中 Job 的主要功能和适用场景

主要功能
- 执行一次性任务，保证任务至少成功执行一次
  - Job 会确保定义的 Pod 按照预期执行，直到成功完成（运行状态为 Completed）。
  - Pod 运行失败时，Job 会根据重试策略自动重新创建新的 Pod 继续执行任务。
- 支持并行或串行执行
  - 可以通过 spec.parallelism 控制同时运行的 Pod 数量；
  - 可以通过 spec.completions 控制任务总共需要成功完成的 Pod 数量。
- 适合一次性任务，执行完成后不会再次运行
  - Job 完成后，Pod 不会被自动删除，但状态保持为 Completed；
  - 可以通过配置 TTL 控制器自动清理已完成的 Job 及 Pod。
适用场景
- 一次性批处理作业
  - 数据清理、日志分析、批量数据转换等。
- 离线计算任务
  - 机器学习模型训练、视频转码、大数据计算等。
- 自动化任务
  - 备份数据库、生成报表、执行临时脚本等。
- 测试任务
  - 压力测试、集成测试或单次验证任务。

Kubernetes 通过 Job 执行一次性任务

创建 YAML 配置文件（比如 pi_job.yaml），用于通过 Job 执行一次 Perl 脚本（计算圆周率）

apiVersion: batch/v1
kind: Job
metadata:
  name: pi-job
spec:
  # completions: 3                # 总共需要 3 个 Pod 完成任务
  # parallelism: 2                # 最多允许 2 个 Pod 并行运行
  # ttlSecondsAfterFinished: 60   # 任务执行完成后 60 秒自动清理
  backoffLimit: 4                 # 任务执行失败后，最大重试次数为 4
  template:
    spec:
      containers:
      - name: pi
        image: perl
        command: ["perl", "-Mbignum=bpi", "-wle", "print bpi(2000)"]    # 计算圆周率，并打印日志信息
      restartPolicy: Never        # Pod 失败（任务执行失败）时的重启策略

创建或更新 YAML 文件中定义的 Kubernetes 资源对象（比如 Job）

1	kubectl apply -f pi_job.yaml

查看所有 Job 的运行状态

1	kubectl get jobs

1 2	NAME COMPLETIONS DURATION AGE pi-job 1/1 25s 25s

查看所有 Pod 的运行状态，可以发现当 Job（一次性任务）执行完成后，Pod 的状态会切换为 Completed

1	kubectl get pods -o wide

1 2	NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES pi-ks6pn 0/1 Completed 0 41s 10.244.2.36 k8s-node3

查看 Pod 的日志信息

1	kubectl logs pi-ks6pn

3.1415926535897932384626433832795028841971693993751058209749445923078164062862089986280348253421170679821480865132823066470938446095505822317253594081284811174502841027019385211055596446229489549303819644288109756659334461284756482337867831652712019091456485669234603486104543266482133936072602491412737245870066063155881748815209209628292540917153643678925903600113305305488204665213841469519415116094330572703657595919530921861173819326117931051185480744623799627495673518857527248912279381830119491298336733624406566430860213949463952247371907021798609437027705392171762931767523846748184676694051320005681271452635608277857713427577896091736371787214684409012249534301465495853710507922796892589235420199561121290219608640344181598136297747713099605187072113499999983729780499510597317328160963185950244594553469083026425223082533446850352619311881710100031378387528865875332083814206171776691473035982534904287554687311595628638823537875937519577818577805321712268066130019278766111959092164201989380952572010654858632788659361533818279682303019520353018529689957736225994138912497217752834791315155748572424541506959508295331168617278558890750983817546374649393192550604009277016711390098488240128583616035637076601047101819429555961989467678374494482553797747268471040475346462080466842590694912933136770289891521047521620569660240580381501935112533824300355876402474964732639141992726042699227967823547816360093417216412199245863150302861829745557067498385054945885869269956909272107975093029553211653449872027559602364806654991198818347977535663698074265425278625518184175746728909777727938000816470600161452491921732172147723501414419735685481613611573525521334757418494684385233239073941433345477624168625189835694855620992192221842725502542568876717904946016534668049886272327917860857843838279679766814541009538837863609506800642251252051173929848960841284886269456042419652850222106611863067442786220391949450471237137869609563643719172874677646575739624138908658326459958133904780275901

Kubernetes 删除 Job

如果需要删除上面创建的 Job，可以执行以下命令

# 删除 Job，会级联删除该 Job 以及由它创建的所有 Pod
kubectl delete job pi-job

# 或者使用 --cascade=orphan 参数，只删除 Job，但保留它创建的所有 Pod
kubectl delete job pi-job --cascade=orphan

部署定时任务

提示

本节将演示在 Kubernetes 集群中，如何通过 CronJob 周期性（定时）执行任务。

Kubernetes 中 CronJob 的主要功能和适用场景

主要功能
- 周期性任务调度
  - 使用 cron 表达式定义执行计划，精确到分钟；
  - 可在每天、每周、每月或特定时间点自动运行任务。
- 自动创建 Job
  - CronJob 在到达调度时间后，会自动创建对应的 Job 资源；
  - Job 负责任务的执行、失败重试和状态维护。
- 控制并发执行
  - 可通过 concurrencyPolicy 控制多次调度的 Job 是否允许并发执行：
    - Allow：允许多个任务并发运行；
    - Forbid：禁止并发，若上一个任务未完成，跳过新的调度；
    - Replace：如果上一个任务未完成，先删除旧任务，再启动新任务。
- 支持任务历史管理
  - 可以配置保留的成功任务和失败任务历史数量，避免资源无限增长。
- 支持一次性定时任务
  - 通过指定一次性运行的时间点，实现一次性定时触发的 Job。
适用场景
- 定时数据处理
  - 每天凌晨自动跑批处理作业，生成统计报表；
  - 定时清理临时文件或过期数据。
- 数据库备份
  - 每天或每小时自动执行数据库备份任务。
- 日志归档
  - 定期收集、压缩和上传日志文件到集中存储。
- 周期性健康检查
  - 定时执行诊断脚本或检查任务，输出报告。
- 定时通知或消息推送
  - 定时触发消息发送、告警提醒或业务事件。
- 一次性延时执行任务
  - 通过设置特定时间点，完成一次性延时任务的执行。

Kubernetes 通过 CronJob 运行定时任务

创建 YAML 配置文件（比如 hello_cronjob.yaml），用于通过 CronJob 周期性地执行 Shell 脚本（打印日志信息）

apiVersion: batch/v1beta1
kind: CronJob
metadata:
  name: hello-cronjob
spec:
  schedule: "*/1 * * * *"            # Cron 表达式
  # concurrencyPolicy: Forbid        # 禁止并发执行任务
  # startingDeadlineSeconds: 300     # 最长允许任务延迟启动 5 分钟
  # successfulJobsHistoryLimit: 3    # 保留最近 3 次执行成功的任务
  # failedJobsHistoryLimit: 1        # 保留最近 1 次执行失败的任务
  jobTemplate:
    spec:
      template:
        spec:
          containers:
          - name: hello
            image: busybox
            args:
            - /bin/sh
            - -c
            - date; echo Hello from the Kubernetes cluster
          restartPolicy: OnFailure    # Pod 失败（任务执行失败）时的重启策略

创建或更新 YAML 文件中定义的 Kubernetes 资源对象（比如 CronJob）

1	kubectl apply -f hello_cronjob.yaml

查看所有 CronJob 的运行状态

1	kubectl get cronjobs

1 2	NAME SCHEDULE SUSPEND ACTIVE LAST SCHEDULE AGE hello-cronjob /1 * * * False 0 49s 52s

查看所有 Job 的运行状态，CronJob 不直接创建和运行 Pod，所有 Pod 都由其生成的 Job 进行管理

1	kubectl get jobs

NAME                       COMPLETIONS   DURATION   AGE
hello-cronjob-1759064520   1/1           17s        3m11s
hello-cronjob-1759064580   1/1           13s        2m20s
hello-cronjob-1759064640   1/1           17s        78s

查看所有 Pod 的运行状态，可以发现当 CronJob 每次执行完成后，Pod 的状态会切换为 Completed

1	kubectl get pods -o wide

NAME                             READY   STATUS      RESTARTS   AGE     IP            NODE        NOMINATED NODE   READINESS GATES
hello-cronjob-1759064340-mfppj   0/1     Completed   0          2m28s   10.244.2.38   k8s-node3              
hello-cronjob-1759064400-djk6l   0/1     Completed   0          86s     10.244.2.39   k8s-node3              
hello-cronjob-1759064460-5lbxj   0/1     Completed   0          25s     10.244.3.18   k8s-node2

查看 Pod 的日志信息

1	kubectl logs hello-cronjob-1759064460-5lbxj

1 2	Sun Sep 28 13:01:26 UTC 2025 Hello from the Kubernetes cluster

Kubernetes 删除 CronJob

如果需要删除上面创建的 CronJob，可以执行以下命令

# 删除 CronJob，会级联删除该 CronJob 以及由它创建的所有 Job 和 Pod
kubectl delete cronjob hello-cronjob

# 或者使用 --cascade=orphan 参数，只删除 CronJob，但保留它创建的所有 Job 和 Pod
kubectl delete cronjob hello-cronjob --cascade=orphan

应用升级回滚

学习目标

本节将演示在 Kubernetes 集群中部署 Nginx 后，如何升级 Nginx 的版本，还有如何回滚 Nginx 的版本，更详细的应用升级回滚实战可以看这里。

部署应用

生成用于部署一个 Nginx 的 Deployment 的 YAML 配置文件，其中 Deployment 的名称为 nginx，Nginx 的版本号为 1.14

1	kubectl create deployment nginx --image=nginx:1.14 --dry-run=client -o yaml > nginx_deployment.yaml

更改自动生成的 YAML 配置文件内容（如下所示），将 replicas 改为 2（表示 Pod 有两个副本）

apiVersion: apps/v1
kind: Deployment
metadata:
  creationTimestamp: null
  labels:             # 标签：标识 Deployment 自身
    app: nginx
  name: nginx
spec:
  replicas: 2
  selector:
    matchLabels:      # 标签：在 Deployment 与 Pod 之间建立管理关系
      app: nginx
  strategy: {}
  template:
    metadata:
      creationTimestamp: null
      labels:         # 标签：定义 Pod 的身份（标签）
        app: nginx
    spec:
      containers:
      - image: nginx:1.14
        name: nginx
        resources: {}
status: {}

创建或更新 YAML 文件中定义的 Kubernetes 资源对象（比如 Deployment）

1	kubectl apply -f nginx_deployment.yaml

查看所有 Pod 的运行状态

1	kubectl get pods -o wide

1
2
3

NAME                     READY   STATUS    RESTARTS   AGE   IP           NODE        NOMINATED NODE   READINESS GATES
nginx-5658bdf5d4-6sbmg   1/1     Running   0          31m   10.244.1.2   k8s-node1              
nginx-5658bdf5d4-ksjgm   1/1     Running   0          31m   10.244.3.2   k8s-node2

升级应用版本

当执行完上述步骤将 Nginx 部署到 Kubernetes 集群后，可以执行以下命令来升级 Nginx 的版本（比如，将 Nginx 升级到 1.15 版本）

1	kubectl set image deployment nginx nginx=nginx:1.15

查看应用升级版本的状态（过程）

1	kubectl rollout status deployment nginx

查看所有 Pod 的运行状态

1	kubectl get pods -o wide

1
2
3

NAME                     READY   STATUS    RESTARTS   AGE   IP           NODE        NOMINATED NODE   READINESS GATES
nginx-764b95f4c5-f744r   1/1     Running   0          31m   10.244.1.2   k8s-node3              
nginx-764b95f4c5-w96gl   1/1     Running   0          31m   10.244.3.2   k8s-node2

若执行完应用升级版本的命令后，在查看所有 Pod 的运行状态时，新 Pod 的 STATUS 一直显示 ContainerCreating，则说明应用升级版本存在问题

NAME                     READY   STATUS              RESTARTS   AGE     IP            NODE        NOMINATED NODE   READINESS GATES
nginx-5658bdf5d4-6sbmg   1/1     Running             0          77m     10.244.1.2    k8s-node1              
nginx-764b95f4c5-f744r   1/1     Running             0          27m     10.244.2.19   k8s-node3              
nginx-764b95f4c5-w96gl   0/1     ContainerCreating   0          3m36s           k8s-node2

可以执行以下命令来排查问题（比如，原因是一直卡在拉取镜像的环节上）

1	kubectl describe pod nginx-764b95f4c5-w96gl

若无法排查应用升级版本的问题，则可以删除卡住的 Pod 以触发重建

1	kubectl delete pod nginx-764b95f4c5-w96gl

若无法排查应用升级版本的问题，又急需恢复服务，最快捷的方法是回滚（回退）到上一个版本（即用旧版本的 Pod 替换掉所有新版本的 Pod），之后服务会逐渐恢复正常

1	kubectl rollout undo deployment nginx

特别注意

Kubernetes 在升级应用的版本时，是不会中断服务的（比如，升级期间 Nginx 依然可以对外提供服务），这主要归功于其精细的流量控制和渐进的替换过程。具体是通过 Deployment 控制器，先启动新版本的 Pod 并确认其就绪，然后逐步终止旧版本的 Pod，同时 Service 的负载均衡器会确保流量只路由到健康的 Pod 上，从而实现了服务的平滑升级。

回滚应用版本

当执行完上述步骤将 Nginx 的版本从 1.14 升级到 1.15 后，若希望回滚到旧的版本（即用旧版本的 Pod 替换掉所有新版本的 Pod），可以执行以下命令

1 2	# 查看指定 Deployment 的所有历史版本 kubectl rollout history deployment nginx

# 回滚指定 Deployment 到上一个版本
kubectl rollout undo deployment nginx

# 或者，回滚指定 Deployment 到指定的版本
kubectl rollout undo deployment nginx --to-revision=2

查看所有 Pod 的运行状态

1	kubectl get pods -o wide

1
2
3

NAME                     READY   STATUS    RESTARTS   AGE   IP           NODE        NOMINATED NODE   READINESS GATES
nginx-5658bdf5d4-6sbmg   1/1     Running   0          31m   10.244.1.2   k8s-node1              
nginx-5658bdf5d4-ksjgm   1/1     Running   0          31m   10.244.3.2   k8s-node2

应用弹性伸缩

学习目标

本节将演示在 Kubernetes 集群中部署 Nginx 后，如何对 Nginx 进行扩容（即增加 Pod 的副本数量），更详细的应用扩容缩容实战可以看这里。

部署应用

生成用于部署一个 Nginx 的 Deployment 的 YAML 配置文件，其中 Deployment 的名称为 nginx

1	kubectl create deployment nginx --image=nginx --dry-run=client -o yaml > nginx_deployment.yaml

自动生成的 YAML 配置文件的内容如下所示

apiVersion: apps/v1
kind: Deployment
metadata:
  creationTimestamp: null
  labels:             # 标签：标识 Deployment 自身
    app: nginx
  name: nginx
spec:
  replicas: 1
  selector:
    matchLabels:      # 标签：在 Deployment 与 Pod 之间建立管理关系
      app: nginx
  strategy: {}
  template:
    metadata:
      creationTimestamp: null
      labels:         # 标签：定义 Pod 的身份（标签）
        app: nginx
    spec:
      containers:
      - image: nginx
        name: nginx
        resources: {}
status: {}

创建或更新 YAML 文件中定义的 Kubernetes 资源对象（比如 Deployment）

1	kubectl apply -f nginx_deployment.yaml

查看所有 Pod 的运行状态

1	kubectl get pods -o wide

1 2	NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES nginx-5658bdf5d4-kt6fv 1/1 Running 0 29m 10.244.2.18 k8s-node3

应用扩缩容

当执行完上述步骤将 Nginx 部署到 Kubernetes 集群后，可以执行以下命令来对 Pod 的副本数进行扩缩容

1 2	# 对 Pod 的副本进行扩容（比如，扩容至 3 个副本） kubectl scale deployment nginx --replicas=3

查看所有 Pod 的运行状态

1	kubectl get pods -o wide

NAME                     READY   STATUS    RESTARTS   AGE     IP           NODE         NOMINATED NODE   READINESS GATES
nginx-5658bdf5d4-kt6fv   1/1     Running   0          29m     10.244.0.7   k8s-node3               
nginx-5658bdf5d4-tbvzz   1/1     Running   0          2m55s   10.244.1.3   k8s-node1               
nginx-5658bdf5d4-z48mx   1/1     Running   0          2m57s   10.244.3.6   k8s-node2

参考资料

Kubernetes 实战部署 Java 应用程序

如何设计支持动态扩缩容的分库分表方案

2025-08-22T13:12:19.000Z

大纲

前言

线上系统已经完成了分库分表方案的落地：库表建好、基于分库分表中间件的开发与测试也都顺利完成，数据能够均匀分布到各个库表中，系统也通过双写方案平滑迁移并成功切换到分库分表架构上。然而，随着业务持续增长，现有的库表再次面临瓶颈：单库容量接近上限、单表数据量过大、单库写入并发压力过高等问题，必须进行进一步的扩容。比如，原来是 3 个库，每个库 4 个表，现在需要扩容成 6 个库，每个库 8 个表。问题是：如何在不影响线上业务（即不停机）的情况下，进行动态扩容或缩容呢？

停机扩容

停机扩容与停机迁移数据类似，步骤基本相同，唯一的区别是需要使用数据导入工具，将现有库表中的数据抽取并导入到新的库表中。但这种方式并不推荐，原因在于：既然已经采用了分库分表，说明数据量非常庞大，可能达到数亿甚至几十亿条记录，此时再采用停机迁移的方式风险极高。从单库单表迁移到分库分表架构时，数据量尚可接受，单表最多两三千万条，通过开发数据迁移工具，使用多台机器并行处理，1 小时内就能完成导入。但当系统基于分库分表架构运行一段时间后，例如当前有一共 3 个库和 12 个表，数据量达到 1 亿～ 2 亿条，仅导入数据就需要数小时。假设 6 点开始导入数据，直到导入完成，后续还要修改数据库连接配置、重新部署系统、业务测试验证，往往到 10 点才能完成，停机时间过长，线上业务无法承受。

动态扩容

一开始就将分库分表架构规划为 32 个库，每个库 32 张表，共 1024 张表。这种设计基本能够满足国内大多数互联网公司的需求，无论是支撑并发能力还是数据容量都没有问题。通过一次性规划足够的库表数量（如 32 个库，每个库 32 张表）+ 固定取模路由规则（2^n）+ DBA 库级迁移工具支持，既能保证早期部署简单，又能支持后期平滑扩容或缩容，避免频繁停机迁移和复杂的数据重新分片工作。

性能预估：
- 每个库可承载约 1000 TPS（写入并发），则 32 个库总共可支撑 32000 TPS。
- 如果每个库承载到 1500 TPS，则总共可达 48000 TPS，接近 5 万 /s。
- 前端再加一个消息队列（MQ）进行削峰：
  - MQ 写入 QPS 可达 8 万 /s，MQ 消费 QPS 可达 5 万 /s，可平滑处理高并发写入。
容量规划：
- 32 个库，每个库 32 张表。
- 一共 1024 张表，每表存 500 万条数据，总容量可达 50 亿条数据。
- 对于国内绝大多数互联网公司，这个规模一般足够支撑多年。
路由规则：
- 库路由：orderId % 32 → 确定库。
- 表路由：(orderId / 32) % 32 → 确定表，必须先将 orderId 除以库数量，再对表数量进行取模运算，目的是：
  - 避免表内数据分布不均，导致热点数据集中在某几个表或库；
  - 将数据均匀打散到 32 个库 × 32 张表，每个库内部的 32 张表都能均匀分布数据；
  - 避免表的分布就和库的分布耦合在一起，比如库 0 里永远只会使用到表 0，库 1 永远只会使用到表 1；
- 这种基于 2^n 的取模方案，天然支持倍数扩容和缩容，减少扩容时路由规则变更的复杂度。
扩容策略：
- 首次分库分表就 “一步到位”，建立 32 个库，每个库 32 张表，避免频繁扩容。
- 早期阶段：
  - 可将多个逻辑库部署在同一台 MySQL 服务器上，例如 4 台 MySQL 服务器，每台 MySQL 服务器创建 8 个库，一共有 32 个库。
- 后期扩展：
  - 当 MySQL 单机实例压力过大，可以申请多台 MySQL 服务器，进行倍数扩容（如从 4 台扩展至 8 台）；
  - 扩容时只需要不断地在旧库和新的 MySQL 服务器之间做数据迁移，然后系统仅需更改库的连接地址，重新发布即可，路由规则无需变更；
  - 最多可扩展至 32 台 MySQL 服务器（每台一个库，每个库 32 张表）。
缩容策略：
- 如果需要减少 MySQL 服务器的数量，可以进行倍数缩容（如从 8 台扩展至 4 台），即物理合并 MySQL 服务器（保持逻辑库的总数量不变）；
- 比如，原来 32 个库分布在 8 台 MySQL 服务器上，现在迁移到 4 台 MySQL 服务器上，每台 MySQL 服务器上有 8 个库；
- 只需要将部分库的数据迁移到其他 MySQL 服务器，然后系统仅需更改库的连接地址，重新发布即可，路由规则无需变更。
优势总结：
- DBA 通过成熟的工具迁移旧库至新的 MySQL 服务器即可完成扩缩容，业务代码无需处理复杂的数据迁移逻辑。
- 这种分库分表规划减少了后期频繁改造的成本，也能较好应对未来业务增长。

分库分表后，生产环境如何实现不停机迁移数据

2025-08-21T13:12:19.000Z

大纲

前言

假设，目前线上系统是单库单表（即未分库分表），单表已有约 600 万条数据。计划将数据迁移到 3 个库、每个库 4 张表的分库分表架构中，每张表存放约 50 万条数据。已经选定了分库分表的中间件（例如 Sharding-JDBC 或 Mycat），问题是：如何在不影响线上业务（即不停机）的情况下，将系统平滑迁移到新的分库分表架构上？

为什么要分库分表？

分库分表主要有两个原因，要不就是单库并发压力太高，要不就是单库数据量太大。

停机迁移方案

停机迁移数据

这里先介绍一种不常用的方案 - 停机迁移，相对比较简单、粗暴，技术含量不高。在网站或 App 提前发布公告，通知用户 0 点到 6 点期间系统停机维护。凌晨 0 点开始运维，到点后先停机，系统停止服务，不再有新的流量写入，此时旧的单库单表数据库保持静止。接着运行事先准备好的一次性数据迁移工具，把单库单表中的数据批量导出，并按照分库分表规则导入到新库中。数据导入完成后，更新系统的数据库连接配置，同时上线新版本代码（因为分库分表后 SQL 或数据访问逻辑可能有改动）。最后启动系统，连接新的分库分表架构，进行业务验证。如果业务验证通过，就算迁移完成。不过，这种 “停机迁移” 的方案相对比较简单、粗暴，技术含量不高。

停机迁移方案通常包括以下几个核心步骤：

(1) 读取数据
- 按分页（limit/offset 或者主键范围）从旧表里分批读取数据，避免一次性读 600 万导致 OOM 或锁表。
- 典型做法：
  - 根据主键（比如自增 ID）按范围扫描：select * from old_table where id between x and y
  - 每次取 1w ~ 5w 条，批量处理。
(2) 路由规则计算（分库分表规则映射）
- 根据预设的分库分表规则（比如 user_id % 6 → 定位到某个库某个表）。
- 数据迁移工具对每一条数据计算：
  - 属于哪个分库
  - 属于哪个分表
- 举个例子：
  1
  2
  3
  4
  user_id = 1025
  库号 = user_id % 3 （0 ~ 2）
  表号 = user_id % 4 （0 ~ 3）
  最终落点 = db_2.user_table_1
(3) 写入新库
- 批量插入目标分表（batch insert），减少网络往返。
- 写入前可能需要做：
  - 字段映射（比如旧表字段和新表字段不完全一致）
  - 数据清洗（处理非法数据、空值等）
  - 主键处理（旧表用自增 ID，新表可能使用雪花 ID 或 UUID，需要重新生成）
(4) 数据校验
- 迁移完一批数据后，进行校验：
  - 数量校验：源表 10 万条数据，目标表分散后总和也应该是 10 万条数据。
  - 抽样校验：随机抽几条数据，对比新旧库的字段值是否一致。
  - 全量校验（可选）：做 MD5 校验，或者比对哈希值。
(5) 日志与容错
- 每批迁移要有日志，记录成功或者失败。
- 失败的数据要单独写入 “重试队列”。
- 支持断点续传（例如数据迁移中断，可以从上次 ID 继续跑）。
(6) 收尾工作
- 所有数据迁移完毕，全量校验通过。
- 更新系统的数据库连接配置，让系统指向新的分库分表架构。
- 上线新版本代码（因为分库分表后 SQL 或数据访问逻辑可能有调整）。
- 重启服务，进行业务验证，确认无误后切换工作正式完成。

不停机迁移方案

双写迁移数据

双写迁移是目前最常用且较为稳妥的一种迁移方式，优点是不需要停机，也不用熬夜等凌晨运维窗口。核心思路：在系统中对所有写库操作（增、删、改）进行改造，不仅写入旧库，同时也写入新库，即所谓的 “双写”。这样可以保证在迁移期间，新库持续写入最新数据。在此基础上，通常需要配合以下机制：

数据同步：迁移启动前，先通过全量复制将旧库的历史数据导入新库，再通过 Binlog 或数据同步程序保证新旧库实时增量同步。这样新库能够与旧库保持一致性，不会出现 “有新数据但未同步” 的情况。
数据比对：迁移过程中，需要定期进行新旧库的数据校验（例如按主键范围抽样比对行数、字段值校验、聚合校验等），确保两边数据在数量和内容上保持一致，避免出现漏同步、同步延迟或数据不一致的问题。
补偿机制：若比对过程中发现差异，可通过重放 Binlog、补偿 SQL 或自动修复任务进行数据回补，保证最终一致性。补偿一般在后台异步执行，不影响业务正常运行。

双写迁移方案通常包括以下几个核心步骤：

(1) 数据实时同步
- 首先开发并部署一个数据同步程序，将旧库的历史数据全量复制到新库中。由于旧库仍然在对外提供写服务（例如订单持续写入），同步程序还需要实时捕获旧库的增量变更并写入新库。核心思路是 “全量复制 + 增量实时同步”。
- 数据实时同步的常见做法是基于 MySQL Binlog 实时同步，通过解析 Binlog 日志捕获 INSERT/UPDATE/DELETE 操作，再写入新库，从而保证新旧库数据基本保持一致。
- 写入新库时，可以通过 gmt_modified 等时间戳字段进行判断：若新库不存在该数据，则直接插入；若新库已有该数据，但旧库的版本更新（修改时间更晚），则覆盖写入。
- 这一过程对旧库和业务系统无侵入性，不需修改应用代码，也无需回滚，仅需额外部署新库和同步程序；即使同步程序对旧库产生影响，也可随时停掉，不影响线上业务。
(2) 双写改造与部署
- 在业务系统中改造写操作，使所有增删改操作同时作用于旧库和新库。常见方案包括：
  - 数据库中间件拦截：利用 ShardingSphere、MyCAT 等支持双写或路由功能的中间件，在代理层统一拦截写操作，实现业务层零改动即可完成双写。但需关注复杂 SQL 与事务支持情况，确保中间件稳定可靠。
  - ORM/AOP 层拦截：在 ORM 框架或 AOP 拦截器层统一实现双写逻辑，例如通过 MyBatis 插件 + 多数据源实现。业务层透明感知数据库操作即可完成双写，同时可顺带处理幂等、异常重试和事务顺序控制，前提是系统使用统一的 ORM 框架。
  - Binlog 增量同步：也可继续使用 Binlog 方式（Canal、Maxwell、Debezium 等）捕获旧库变更并实时写入新库，这种方式对业务无侵入，适合大数据量场景，但需保证 Binlog、网络和同步工具的稳定性，并结合全量导入和校验机制保障数据完整性。
- 上线部署系统完成双写改造的新版本代码，然后停掉前期的数据同步程序，确保新写入数据由业务逻辑直接写入新库。
(3) 数据比对与补偿
- 由于双写策略也不保证新旧库的强一致性，此时需要上线一个数据比对与补偿程序。
- 数据比对与补偿程序会对比旧库近期的数据变更，逐表逐行校验新旧库的数据是否一致。
- 若发现不一致的数据，则从旧库读取并写入新库进行补偿。
- 该过程可能需要多轮循环，直至新旧库数据完全一致。
(4) 切换到新库
- 当确认新旧库数据完全一致后，可以停掉数据比对和补偿程序。
- 上线部署仅依赖分库分表、去掉双写逻辑的新版本代码。
- 重新部署系统，此时所有读写流量切换到新库，旧库逐步进入下线流程。

双写迁移方案需要注意以下地方：

事务一致性
- 旧库与新库之间无法保证强一致事务，必须容忍 “临时不一致”。
- 遇到异常时，至少要保证旧库优先成功，新库可以重试补偿。
异常与补偿机制
- 双写失败时（例如新库宕机），要记录失败日志或写入消息队列，后续重试补偿。
- 可设计一个数据补偿任务（定时比对旧库与新库的数据），保证最终一致性。
顺序与幂等
- 确保双写执行顺序与业务一致（例如先 INSERT 再 UPDATE），避免错序写入。
- 所有操作必须支持幂等，防止重试引起脏数据。
- 建议使用幂等写入，比如 MySQL 的 INSERT ... ON DUPLICATE KEY UPDATE。
更新操作特殊处理
- 新库数据可能不存在，直接执行 UPDATE 可能更新不到任何行。
- 建议采用 “存在则更新，否则插入” 的更新策略，例如 MySQL 的 INSERT ... ON DUPLICATE KEY UPDATE。
全量迁移与增量校验
- 在正式双写之前，最好先做一次全量迁移（减少新库缺少数据的概率）。
- 启用双写后，后台跑比对和补偿任务，抽查或全量校验新旧库数据，自动补偿不一致的数据。

这种方案在迁移过程中业务不会中断，用户几乎无感知，可靠性高。因此，目前大多数公司在迁移生产系统的数据时，都会采用这种 “双写 + 校验” 的方案。

扩展知识内容

数据库在线迁移工具

主流的数据库在线迁移工具有以下几种，支持迁移在线业务，通常依赖 “全量复制 + 增量实时同步 + 切换” 的方案。

(1) MySQL 原生工具
- MySQL Replication (主从复制)
  - 概述：
    - 将新库作为旧库的从库，开启基于 Binlog 的主从复制。通常先做全量数据同步，再实时同步增量数据，追平后切换主库。
  - 优点：
    - MySQL 自带、成熟稳定、社区支持广、对业务代码零侵入。
    - 基于 Binlog，增量数据实时同步，保证数据一致性。
  - 缺点：
    - 跨机房或网络延迟大时，复制延迟问题明显。
    - 切换为主库需要停写或短暂停机（秒级）。
    - 不适用于大规模 DDL 变更或 MySQL 版本跨度过大的迁移。
- MySQL Group Replication / InnoDB Cluster
  - 概述：
    - 基于 MySQL 官方的高可用集群，支持多主、多从、动态扩容。
    - 严格来说，这不是专门的 “在线迁移工具”，本质上是 MySQL 的高可用方案，只是可以顺便解决迁移问题。
  - 优点：
    - 支持多主写入、自动故障转移。
    - 支持自动处理节点加入 / 离开，迁移过程中可降低人为操作风险。
  - 缺点：
    - 部署复杂，对网络延迟和数据库版本有严格要求。
    - 多主模式下存在冲突处理问题。
    - 性能相对普通主从复制略差。
    - 跨机房支持不理想。
(2) 企业常用迁移工具
- Percona XtraBackup
  - 概述：
    - 用于 MySQL 的热备份，全量复制旧库数据到新库，然后结合 Binlog 或其他增量方案追平。
  - 优点：
    - 支持热备份，不锁表。
    - 备份速度快，适合大数据量（TB 级别）场景。
    - 一致性好，可与 MySQL 主从复制结合实现无缝切换。
    - 开源、社区成熟，企业使用广泛。
  - 缺点：
    - 只解决全量迁移问题，增量追平仍需依赖 Binlog 或其他方案；
    - 对磁盘空间和 I/O 有较高要求。
- pt-table-sync（Percona Toolkit）
  - 概述：
    - 用于全量数据校验、增量数据同步和比对，基于对比源库和目标库数据差异，按需补齐。
  - 优点：
    - 支持在线比对数据差异，自动修复，保证一致性。
    - 支持断点续传，适合长时间迁移。
    - 可用作双写迁移、切换后的数据一致性保障。
    - 可以作为 Binlog 同步之后的校验工具。
  - 缺点：
    - 性能开销大，对源库影响明显，尤其是大表，适合流量低峰期运行。
    - 仅适合 MySQL，且在大表场景下校验速度慢。
    - 配置和使用复杂，需要 DBA 熟悉其工作原理。
(3) 增量同步中间件
- Canal（阿里开源）
  - 基于 Binlog 订阅，支持异构同步（MySQL → MySQL / ElasticSearch / Kafka）。
- Debezium（国外开源）
  - 基于 CDC（Change Data Capture），是一个开源的分布式平台，支持多种数据库实时同步。
- Otter（阿里开源）
  - 基于 Canal + 分布式调度，适合分库分表场景。
- DTS（阿里云数据库传输服务） / DMS（腾讯云数据库传输服务）
- 主流云厂商的在线迁移工具，支持断点续传、实时增量同步。

数据库在线迁移工具的最佳实践

自建环境推荐使用 XtraBackup（全量复制） + MySQL Replication（增量追平） + Canal（增量消费、双写）
云环境推荐使用云厂商的 DTS / DMS，直接提供 “全量 + 增量 + 切换” 的托管能力。

数据库在线迁移数据的典型步骤如下：

(1) 新增 MySQL 服务器，创建好库表结构（与现有表结构保持一致）。
(2) 全量迁移历史数据（XtraBackup / 全量 Dump）。
(3) 开启 Binlog 增量订阅（Canal / DTS / MySQL 原生主从复制）。
(4) 实时同步增量数据，并进行数据校验。
(5) 业务切换流量到新库（通过中间件配置或 DNS / 服务发现）。
(6) 平滑下线旧库。

参考资料

Kubernetes 入门教程之二

2025-08-15T13:12:19.000Z

大纲

Kubernetes 核心技术

Pod

Pod 的基础概念

Pod 的概述

Pod 是 Kubernetes 中可以创建和管理的最小资源单元，是用户在资源对象模型中创建或部署的基本单位，也是 Kubernetes 上运行容器化应用的直接载体。Kubernetes 并不会直接管理容器，而是通过管理 Pod 来间接管理容器。一个 Pod 通常由一个或多个容器组成，这些容器共享网络、存储等资源，并作为一个整体被调度和管理。在 Kubernetes 中，其他资源对象主要用于支撑或扩展 Pod 的功能，例如：Controller 资源用于管理和控制 Pod 的生命周期；Service 或 Ingress 资源用于暴露和访问 Pod；而 PersistentVolume (PV) 等存储资源用于为 Pod 提供持久化存储支持。此外，每个 Pod 都包含一个特殊的系统容器，称为 Pause 容器，它作为 Pod 的 “根容器” 存在，用于占据 Pod 的网络命名空间等资源。除了 Pause 容器，Pod 中还包含一个或多个紧密相关的用户业务容器，所有业务容器都在同一个 Namespace 里面，可以实现网络共享；这些容器协同工作，共同完成某项具体的业务功能。

Pod 的特性

资源共享
- 一个 Pod 里的多个容器可以共享存储和网络，可以看作一个逻辑的主机（服务器），共享 Namespace（命名空间）、Cgroups（控制组）或者其他的隔离资源。
- 同一个 Pod 中的多个容器共享同一个 Network Namespace，因此它们共享同一个 IP 地址和端口空间。也就是说，Pod 内的容器可以通过 localhost 进行通信。需要注意的是，多个容器在同一个 Pod 中运行时，应避免端口冲突。不同的 Pod 之间具有各自独立的 IP 地址，默认情况下，不同 Pod 中的容器之间不能通过 IPC 机制通信（除非做了特殊配置），通常使用 Pod 的 IP 地址进行网络通信。
- 一个 Pod 中的多个容器可以共享同一个存储卷，该存储卷作为 Pod 的一部分被定义，并可以挂载到该 Pod 内所有容器的文件系统中，从而实现数据共享和持久化存储。
生命周期短暂
- Pod 是生命周期相对短暂的组件，例如当 Pod 所在的节点发生故障时，该节点上的 Pod 会被重新调度到其他节点上运行。但需要注意的是，重新调度后创建的是一个全新的 Pod，与原来的 Pod 没有任何关联，原有的状态、数据和标识都会丢失，二者之间没有任何直接关系。
平坦的网络
- Kubernetes 集群中的所有 Pod 都处于同一个共享的网络地址空间中，这意味着每个 Pod 都可以通过其他 Pod 的 IP 地址直接进行访问和通信，无需进行额外的网络配置。

Docker 容器与宿主机进程的关系

Docker 容器里的进程没有独立 Linux 内核，使用的是宿主机内核，它本质就是宿主机进程。
Docker 容器只是由 Linux 内核提供的隔离（Namespace） + 资源限制（Cgroups）环境。
当宿主机关掉 Docker 容器主进程，容器就会退出运行（容器生命周期依赖主进程）。换言之，Docker 容器主进程如果挂掉，容器就会停止运行。
Docker 容器的 Linux 内核版本永远等于宿主机的内核版本，更换镜像也换不掉内核。比如，当宿主机内核版本低（例如 3.3），容器里即使是最新版本的 Ubuntu，也无法使用高版本内核才有的特性（比如一些新 Cgroup 特性、eBPF）。

Pod 的分类

Pod 有两种类型：

普通 Pod
- 普通 Pod 被创建后会被存储到 Etcd 中，随后由 Kubernetes Master 调度到某个特定的 Node（工作节点）上并与之绑定。该 Node（工作节点）上的 kubelet 进程会负责将 Pod 实例化为一组相关的容器（如 Docker 容器）并启动它们。默认情况下，如果 Pod 中的某个容器停止运行，Kubernetes 会自动检测并重启该 Pod 内的所有容器。如果 Pod 所在的 Node（工作节点）发生宕机，Kubernetes 会将该 Node（工作节点）上的所有 Pod 重新调度到其他可用节点上。
静态 Pod
- 静态 Pod 是由 kubelet 直接管理的特殊 Pod，仅存在于特定的 Node（工作节点）上。它们不受 API Server 管理，也无法与 Replication Controller、Deployment 或 DaemonSet 等控制器关联。此外，kubelet 对静态 Pod 的健康检查能力有限，通常仅能监控其运行状态，而不会像普通 Pod 那样提供完整的健康检查机制。

Pod 的定义

定义 Pod 的 YAML 配置示例如下（是占位符，需要根据实际情况填写）：

apiVersion: v1
kind: Pod
# 元数据
metadata:
  name: 
  namespace: 
  labels:
    name: 
  annotations:
    name: 
# 时间配置
spec:
  periodSeconds: 0            # 检查间隔时间
  successThreshold: 0
  failureThreshold: 0
# 安全配置
  securityContext:
    privileged: false
  restartPolicy: Always       # 重启策略，可选值: Always、Never、OnFailure，默认 Always
  nodeSelector:               # 节点选择，将 Pod 调度到包含这些 Label 的 Node（工作节点）上
    key: value                # 以 key:value 格式指定
  imagePullSecrets:
    - name: 
  hostNetwork: false          # 是否使用主机网络模式，默认 false（不使用）
  # 共享存储卷列表
  volumes:
    - name: 
      emptyDir: {}
    - name: host-volume
      hostPath:
        path: /path/on/host
    - name: secret-volume
      secret:
        secretName: 
        items:
          - key: 
            path: 
    - name: configmap-volume
      configMap:
        name: 
        items:
          - key: 
            path:

Pod 的运行方式

在 Kubernetes 中，运行的容器要求其主程序必须始终在前台运行，而不能以后台方式执行。如果应用默认是以后台运行的方式启动，就需要进行修改，使其在前台运行。否则，当 kubelet 创建包含该容器的 Pod 并执行启动命令后，会因为容器立即退出而认为该 Pod 已经结束，从而立刻销毁该 Pod。如果该 Pod 是由控制器（如 Replication Controller）管理的，那么就会不断尝试重新创建和销毁 Pod，陷入无限循环。需要注意的是，一个 Pod 可以由一个或多个容器组成。

下面的 YAML 配置内容定义了一个包含单个容器的 Pod，容器使用的是官方 Tomcat 镜像，并包含基本的端口和挂载配置

apiVersion: v1
kind: Pod
metadata:
  name: mytomcat
  labels:
    app: tomcat
spec:
  containers:
    - name: tomcat-container
      image: tomcat:9.0
      ports:
        - containerPort: 8080
      volumeMounts:
        - name: tomcat-data
          mountPath: /usr/local/tomcat/webapps
  volumes:
    - name: tomcat-data
      emptyDir: {}

YAML 配置内容的详细说明

配置项	说明
`metadata.name`	Pod 的名称，必须唯一
`metadata.labels`	标签，用于标识和选择 Pod
`spec.containers`	容器列表，一个 Pod 可包含一个或多个容器
`spec.containers[].name`	容器的名称，在 Pod 内部唯一
`spec.containers[].image`	容器使用的镜像，这里是 `tomcat:9.0`
`spec.containers[].ports`	容器开放的端口列表
`spec.containers[].ports[].containerPort`	容器内部监听的端口号（如 Tomcat 默认 8080）
`spec.containers[].volumeMounts`	容器内挂载的卷配置
`spec.containers[].volumeMounts[].name`	要挂载的卷名称，对应 `spec.volumes` 中定义的名称
`spec.containers[].volumeMounts[].mountPath`	挂载点路径，如 `/usr/local/tomcat/webapps`
`spec.volumes`	定义 Pod 中使用的卷
`spec.volumes[].name`	卷的名称，与 `volumeMounts` 中的名称对应
`spec.volumes[].emptyDir`	使用一个空目录卷，Pod 删除时数据也会被清除

Pod 的生命周期

Pod 的生命周期状态有以下几种：

生命周期状态	说明
Pending	API Server 已创建该 Pod，但 Pod 中的一个或多个容器的镜像尚未创建（包括镜像下载过程）。
Running	Pod 内所有容器已创建，且至少有一个容器处于运行状态（包括正在启动或重启的状态）。
Completed	Pod 内所有容器均已成功执行并退出，且不会再重启。
Failed	Pod 内所有容器均已退出，但至少有一个容器退出失败。
Unknown	由于某些原因（如网络通信不畅）无法获取 Pod 的状态。

Pod 的状态条件

Pod 的状态条件（Conditions）有以下几种：

状态条件	触发时机	正常状态	说明
`PodScheduled`	当 Scheduler 为 Pod 分配了目标 Node（工作节点）后	`True`	表示 Pod 已被调度到某个 Node（工作节点）上。如果为 `False`，可能是集群资源不足或调度约束冲突。
`Initialized`	当所有 Init 容器（如果有）成功执行完成后	`True`	仅对包含 Init 容器的 Pod 有意义。若 Init 容器失败，此条件会显示 `False` 并记录原因。
`ContainersReady`	当 Pod 内所有主容器（非 Init 容器）的状态均为 `Running` 时	`True`	仅表示容器已启动，但不保证容器内应用已就绪（需结合 Readiness Probe（就绪探针）判断）。
`Ready`	当 Pod 满足以下条件时： 1. 所有主容器 `Running`； 2. 通过 Readiness Probe（就绪探针）检测（如果配置了）。	`True`	表示 Pod 可正常接收流量。若为 `False`，该 Pod 会被从 Service 的 Endpoints 中移除。

Pod 状态条件的附加说明

(1) 状态值：
- 每个 Condition 的状态可能是 True、False 或 Unknown。
(2) 依赖关系：
- PodScheduled → Initialized → ContainersReady → Ready（存在先后顺序）。
(3) 常见问题：
- 若 PodScheduled=False，需检查节点资源或亲和性规则。
- 若 Initialized=False，需排查 Init 容器的日志。
- 若 Ready=False 但 ContainersReady=True，通常是 Readiness Probe（就绪探针）配置问题。

(4) 查看命令：

# 以结构化格式提取 Pod 状态条件（Conditions）的详细信息
kubectl get pod  -o jsonpath='{.status.conditions}'

# 或使用 describe 查看 Pod 的详细状态
kubectl describe pod

Pod 的重启策略

Pod 的重启策略包括 Always、OnFailure 和 Never，默认值是 Always。

重启策略	说明
Always	默认值，当容器退出时，总是由 kubelet 自动重启该容器（适用于长期运行的 Pod，如 Web 服务）。
OnFailure	仅在容器异常退出（非 0 状态码）时，由 kubelet 自动重启该容器（适合批处理任务）。
Never	无论容器如何退出，kubelet 都不会重启该容器（适合一次性任务）。

Pode 重启策略的配置示例如下：

apiVersion: v1
kind: Pod
metadata:
  name: mynginx
spec:
  containers:
  - name: nginx
    image: nginx:1.14
    imagePullPolicy: Always
  restartPolicy: OnFailure  # Pod 的重启策略

Pod 的状态转换

Pod 生命周期状态的转换表（基于容器事件和重启策略）如下：

Pod 包含的容器数	Pod 当前的运行状态	发生的事件	Pod 的结果状态（RestartPolicy = Always）	Pod 的结果状态（RestartPolicy = OnFailure）	Pod 的结果状态（RestartPolicy = Never）
1 个容器	Running	容器成功退出	Running	Succeeded	Succeeded
1 个容器	Running	容器失败退出	Running	Running	Failed
2 个容器	Running	其中 1 个容器失败退出	Running	Running	Running
2 个容器	Running	2 个容器被 OOM 终止	Running	Running	Failed

关键说明：
- OOM：表示容器因内存不足（Out Of Memory）被系统终止
- 状态转换规则：
  - Always：任何容器终止都会触发重启（保持 Running 状态）
  - OnFailure：仅当容器异常退出（非 0 状态码 / OOM）时重启
  - Never：容器终止后直接反映最终状态（Succeeded/Failed）
- 多容器 Pod 的状态由所有容器的综合状态决定

Pod 的健康检查

Kubernetes 提供以下三种探针（Probe）来监控容器的运行状态：

存活探针（livenessProbe）

作用：检测容器是否正常运行。如果检测不通过，Kubernetes 会杀死容器并根据 restartPolicy（重启策略） 重启容器。
适用场景：用于修复死锁、无响应的应用（如数据库卡死）。

配置示例：

livenessProbe:
  exec:
    command: ["cat", "/tmp/healthy"]  # 执行命令检查文件是否存在
  initialDelaySeconds: 5              # 容器启动后等待5秒开始检查
  periodSeconds: 5                    # 每5秒检查一次
  failureThreshold: 3                 # 连续失败3次后判定为不健康

就绪探针（readinessProbe）

作用：检测容器是否准备好接收流量。如果检测不通过，Kubernetes 会将 Pod 从 Service 的 Endpoints 中剔除，并且 Pod 会被标记为 NotReady，但不会被重启。
适用场景：用于控制流量进入（如应用启动时需要加载大量数据，导致容器启动后无法立刻对外提供服务

配置示例：

readinessProbe:
  httpGet:
    path: /healthz                    # 发送 HTTP 请求进行检测
    port: 8080
  initialDelaySeconds: 10             # 容器启动后等待10秒开始检查
  periodSeconds: 3                    # 每3秒检查一次
  successThreshold: 1                 # 成功1次即标记为就绪

启动探针（startupProbe）

作用：从 Kubernetes 1.16+ 版本开始引入，专门检测慢启动应用是否完成初始化。在启动探针成功之前，其他探针不会生效。可以避免因应用启动过慢，导致被存活 / 就绪探针误杀。
适用场景：启动时间较长的应用（如 Java/SpringBoot 应用、需要加载大数据量的服务）。

配置示例：

startupProbe:
  httpGet:
    path: /actuator/health             # Spring Boot 健康检查端点
    port: 8080
  failureThreshold: 30                 # 允许的最大失败次数
  periodSeconds: 10                    # 每10秒检查一次

探针（Probe）支持以下三种检测方法（三种类型的探针都支持）：

检测方法	说明	配置示例
`exec`	- 在容器内执行命令，返回状态码为 `0` 表示检测成功。 - 适用于复杂检测逻辑或没有 HTTP 接口的服务。	`command: ["cat", "/tmp/healthy"]`
`httpGet`	- 通过发送 HTTP 请求检查服务是否正常。 - 返回状态码 `200 ~ 399` 表示检测成功。	`httpGet: { path: /health, port: 80 }`
`tcpSocket`	- 通过容器 IP + 端口建立 TCP 连接， - 连接成功，即表示容器健康。	`tcpSocket: { port: 3306 }`

探针（Probe）的三种探测结果状态：

探测结果状态	说明
`Success`	容器通过检查，状态正常。
`Failure`	容器未通过检查，状态异常。
`Unknown`	无法执行检查，因此不采取任何措施。

探针（Probe）的关键参数：

参数	作用	默认值	最小值	适用探针类型
`initialDelaySeconds`	容器启动后，等待多少秒才开始第一次执行探测，避免容器未完成启动就被误判为失败。	0 秒	0 秒	liveness、readiness、startup
`periodSeconds`	探测的执行频率，即两次探测之间的间隔时间。	10 秒	1 秒	liveness、readiness
`timeoutSeconds`	单次探测的超时时间，超过该时间未响应则判定为探测失败。	1 秒	1 秒	liveness、readiness
`failureThreshold`	探测成功后，连续失败多少次才会被认定为容器不健康。	3	1	liveness、readiness、startup
`successThreshold`	对于已标记为不健康的容器，需要连续成功多少次才会重新标记为健康。对于 Liveness Probe，该值必须为 `1`。	1	1	liveness、readiness

基于存活探针检测容器的健康状态

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: liveness
  name: liveness-exec
spec:
  containers:
  - name: liveness
    image: busybox
    args:
    - /bin/sh
    - -c
    - touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy
    # 存活检查
    livenessProbe:
      exec:
        command:
        - cat
        - /tmp/healthy
      initialDelaySeconds: 5
      periodSeconds: 5

启动探针、存活探针和就绪探针三者可以配合使用：

apiVersion: v1
kind: Pod
metadata:
  name: springboot-app
spec:
  containers:
  - name: app
    image: my-springboot-app:latest
    ports:
    - containerPort: 8080
    # 启动探针（给予充足启动时间）
    startupProbe:
      httpGet:
        path: /actuator/health
        port: 8080
      failureThreshold: 30
      periodSeconds: 10
    # 存活检查（启动探针成功后生效）
    livenessProbe:
      httpGet:
        path: /actuator/health
        port: 8080
      periodSeconds: 10
      timeoutSeconds: 3
    # 就绪检查（启动探针成功后生效）
    readinessProbe:
      httpGet:
        path: /actuator/health/readiness
        port: 8080
      initialDelaySeconds: 5
      periodSeconds: 5

Pod 的资源限制

每个 Pod 都可以对其可使用的 Node（工作节点）计算资源设置限额。Kubernetes 支持对以下两种计算资源进行配额限制：

资源类型
- CPU 资源：以绝对值的 CPU 数量为单位（比如 500m 表示 0.5 个 CPU 核心）。
- Memory 资源：内存大小以字节数为单位（比如 512Mi 表示 512 MiB 内存）。
配额参数
- 每种资源需要定义两个关键参数：
- Requests
  - 表示该资源的最小申请量。
  - Kubernetes 调度器会确保 Node（工作节点）剩余资源大于等于 Requests 值，否则 Pod 无法被调度。
- Limits
  - 表示该资源的最大允许使用量。若容器尝试使用超过 Limits 的资源：
    - 对于 CPU 资源，容器会被限制（Throttled）。
    - 对于 Memory 资源，容器可能被 Kubernetes 终止（OOM Kill）并重启。

Pod 资源限制的配置示例如下，表示 MySQL 容器申请最少 0.25 个 CPU 以及 64MiB 内存，在运行过程中容器所能使用的最大资源配额为 0.5 个 CPU 以及 128MiB 内存。

apiVersion: v1
kind: Pod
metadata:
  name: mysql-pod
spec:
  containers:
    - name: db
      image: mysql
      resources:
        requests:
          memory: "64Mi"
          cpu: "250m"
        limits:
          memory: "128Mi"
          cpu: "500m"

CPU 资源限制的单位

(1) 在 Kubernetes 的资源限制配置中，cpu: "500m" 表示 500 毫核（millicores）。
(2) 1m = 0.001 个 CPU 核心，而 500m 等价于 0.5 个 CPU 核心（即 50% 的单核算力）。
(3) Kubernetes 常见的 CPU 单位如下表所示：

CPU 单位	含义	配置示例
`1`	1 个完整的 CPU 核心	`cpu: "1"`
`1000m`	1 个完整的 CPU 核心	`cpu: "1000m"`
`500m`	0.5 核（即 50% 的单核算力）	`cpu: "500m"`
`250m`	0.25 核（即 25% 的单核算力）	`cpu: "250m"`

Pod 的镜像拉取策略

Pod 有以下几种镜像拉取策略：

策略名称	描述
`IfNotPresent`	默认值，只有当镜像在宿主机上不存在时才会拉取
`Always`	每次创建 Pod 时都会重新拉取一次镜像（即使宿主机上已存在）
`Never`	Pod 永远不会主动拉取镜像，仅使用宿主机上已有的镜像（若宿主机上不存在，则报错）

Pode 镜像拉取策略的配置示例如下：

apiVersion: v1
kind: Pod
metadata:
    name: mynginx
spec:
    containers:
    - name: nginx
      image: nginx:1.14
      imagePullPolicy: Always   # Pod 的镜像拉取策略

Pod 的调度策略

提示

更多关于 Kubernetes 调度器的介绍请看这里。

Pod 的创建流程

(1) 用户提交 Pod 创建请求
- 用户通过 kubectl 命令行工具或其他客户端工具提交 Pod 创建请求
- 请求会发送到 Master 节点的 API Server
(2) API Server 处理
- API Server 接收并验证请求
- 将 Pod 配置信息写入 Etcd 进行持久化存储
(3) Scheduler 调度
- Scheduler 组件监控 API Server，发现有未调度的新 Pod
- Scheduler 通过调度算法（考虑资源需求、节点亲和性等）选择最适合的 Node（工作节点）
- Scheduler 将调度决策（绑定信息）通过 API Server 更新到 Etcd
(4) Node（工作节点）执行
- 目标 Node（工作节点）上的 kubelet 组件会定期查询 API Server
- kubelet 发现分配给本节点的 Pod 信息（从 Etcd 读取）
- kubelet 根据 Pod 描述文件:
  - 通过容器运行时（如 Docker、Containerd）创建容器
  - 配置容器网络、存储等资源
  - 启动容器
(5) Pod 状态更新
- kubelet 监控容器状态，并将容器最新状态报告给 API Server
- API Server 将 Pod 状态信息写入 Etcd
- 用户可以通过 kubectl 命令行工具查看 Pod 的运行状态

影响 Pod 调度的因素

在 Kubernetes 中，影响 Pod 调度的主要因素有以下几种。

Pod 资源限制

Pod 资源限制（Resource Requests）
- 核心机制：
  - Pod 通过 resources.requests 声明所需的最小资源量
  - 调度器（Scheduler）根据这些请求寻找有足够资源的节点
- 配置示例：
  1
  2
  3
  4
  5
  6
  7
  8
  spec:
  containers:
  - name: db
  image: mysql
  resources:
  requests:
  memory: "64Mi"
  cpu: "250m"
- 调度行为：
  - 调度器会排除所有可用资源（Allocatable）小于请求值的节点
  - 资源包括 CPU、内存、GPU 等
  - 实际调度基于节点的剩余资源（Allocatable - Requested）

节点选择器

节点选择器（Node Selector）
- 核心机制：
  - 通过 nodeSelector 字段指定 Pod 必须运行在具有特定标签的节点上
  - 这是简单的节点选择约束方式
- 配置示例：
  1
  2
  3
  4
  5
  6
  spec:
  nodeSelector:
  env_role: dev
  containers:
  - name: nginx
  image: nginx:1.15
- 节点的标签操作：
  - 给节点打上标签：
    1
    kubectl label nodes env_role=prod
  - 查看节点上的标签：
    1
    kubectl get nodes --show-labels

节点亲和性

节点亲和性（Node Affinity）

概述：
- K8s 节点亲和性（Node Affinity）规则有两种：硬亲和性（required）、软亲和性（preferred）
作用：
- 节点亲和性调度使得 Pod 对象被吸引运行到一类特定的节点上。
特性：
- 比 nodeSelector 字段更灵活的规则
- 支持硬亲和性（约束条件必须满足）和软亲和性（尝试满足约束条件，但不保证满足）
- 支持常用操作：In、NotIn、Exists、Gt、Lt、DoesNotExist

配置示例：

spec:
  affinity:
    nodeAffinity:
      # 节点硬亲和性
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          - key: env_role
            operator: In
            values:
            - dev
            - test
      # 节点软亲和性
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: 1
        preference:
          matchExpressions:
          - key: group
            operator: In
            values:
            - otherprod

污点和容忍

污点（Taints）

污点的概述：
- 节点可以设置污点（Taints）来拒绝普通 Pod 的调度
污点的定义：
- 定义在节点（Node）上的键值型属性数据
- 字段 spec.taints，语法是 key=value:effect
污点的类型：
- NoSchedule
  - 作用：
    - 默认值，新 Pod 无法调度到该节点（除非明确容忍此污点）
    - 已运行的 Pod 若不容忍此污点，不会被驱逐（Evict）
  - 场景：保留节点给特定用途（如 GPU 节点、生产环境专用节点）
- PreferNoSchedule
  - 作用：
    - 调度器尽量避免将 Pod 分配到该节点，但若无其他可用节点仍会调度，不驱逐已运行的 Pod
    - 已运行的 Pod 若不容忍此污点，不会被驱逐（Evict）
  - 场景：软性隔离（如临时维护节点，但不强制拒绝调度）
- NoExecute
  - 作用：
    - 新 Pod 无法调度到该节点（同 NoSchedule）
    - 已运行的 Pod 若不容忍此污点，会被驱逐（Evict）
  - 场景：节点故障维护或紧急隔离（如节点磁盘故障需立即迁移所有 Pod）
污点的适用场景：
- 专用节点隔离：保留节点给特定 Pod（如 GPU 节点只运行 AI 任务）
- 节点维护：标记节点为不可调度（如 NoSchedule），避免新 Pod 被分配到正在维护的节点
- 特殊硬件限制：防止普通 Pod 调度到带特殊硬件（如 FPGA）的节点
节点的污点操作示例：

# 给节点添加污点
kubectl taint nodes  =:NoSchedule

# 举个例子
kubectl taint node kube-node1 node-type=production:NoShedule

# 查看节点的污点
kubectl describe node  | grep Taint

# 或者
kubectl get nodes  -o go-template={{.spec.taints}}

# 删除节点的单个污点（末尾的 "-" 符号表示删除）
kubectl taint nodes  :NoSchedule-

# 删除节点的指定键的所有污点（末尾的 "-" 符号表示删除）
kubectl taint nodes  -

# 删除节点的所有污点
kubectl patch nodes  -p '{"spec":{"taints":[]}}'

容忍（Tolerations）

容忍的概述：
- 节点设置污点后，Pod 必须声明可以容忍哪些污点，才允许其被调度到具有这些污点的节点上。
容忍的定义：
- 定义在 Pod 上的键值型属性数据。
- 字段 spec.tolerations，语法是 key=value:effect。
- 字段 tolerationSeconds 用于定义延迟驱逐 Pod 的时间
  - tolerationSeconds 仅在 effect: NoExecute 的容忍规则中生效；
  - 超过设定时间后，若节点上的污点仍存在，则 Pod 会被驱逐；
  - 如果未设置 tolerationSeconds，则表示 Pod 将无限期地容忍该污点，即 Pod 不会因为该污点被驱逐。
容忍的类型
- NoSchedule
  - 作用：允许 Pod 调度到带有 NoSchedule 污点的节点
  - 场景：让关键 Pod（如存储服务）无视节点的硬性隔离规则
- PreferNoSchedule
  - 作用：允许 Pod 调度到带有 PreferNoSchedule 污点的节点（但调度器仍可能优先选择其他节点）
  - 场景：非关键 Pod 在资源不足时仍可使用软隔离节点
- NoExecute
  - 作用：
    - 允许 Pod 调度到带有 NoExecute 污点的节点
    - 豁免驱逐：即使节点新增 NoExecute 污点，Pod 也不会被驱逐
  - 场景：守护进程（如日志收集器）需长期运行，无视节点维护状态
- 空值（不指定 effect 字段）
  - 作用：容忍所有污点类型（包括未来可能新增的类型）
  - 场景：超级特权 Pod（如集群管理组件）需在任何节点运行
容忍的适用场景：
- 特权 Pod 调度：允许关键 Pod（如日志收集组件）无视污点，调度到任意节点
- 故障恢复：容忍 NoExecute 污点，使 Pod 在节点故障时不被驱逐（如数据库 Pod）
- 共享特殊节点：让普通 Pod 通过容忍临时使用专用节点（如容忍 GPU 节点污点）
Pod 的容忍配置示例：

spec:
  tolerations:
    # 容忍 NoSchedule 污点
    - key: "dedicated"
      operator: "Equal"
      value: "gpu"
      effect: "NoSchedule"

    # 容忍 NoExecute 污点
    - key: "unreachable"
      operator: "Exists"
      effect: "NoExecute"
      tolerationSeconds: 600  # 延迟 600 秒后驱逐 Pod（可选）

    # 容忍所有污点（危险！慎用！）
    - operator: "Exists"

Pod 亲和性和反亲和性

Pod 亲和性

控制 Pod 倾向于与指定 Pod 调度到同一拓扑域（共存关系）。
适用于需要紧密协作或低延迟通信的场景，以降低网络延迟、提升性能。

配置示例：

spec:
  affinity:
    # Pod 亲和性
    podAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: app
            operator: In
            values: ["cache"]
        topologyKey: "kubernetes.io/hostname"

配置说明：
- Kubernetes 调度器会强制保证，Pod 调度到与匹配 labelSelector 条件的 Pod 所在的同一 zone 中。
- 如果集群中所有 zone 都没有匹配的 Pod，则新 Pod 会一直处于 Pending 状态。

Pod 反亲和性

控制 Pod 不与指定 Pod 调度到同一拓扑域（互斥关系）。
适用于高可用场景，比如：将 Pod 副本分布到不同机架（Rack）或可用区（Zone）中，避免单点故障。

配置示例：

spec:
  affinity:
    # Pod 反亲和性
    podAntiAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        - labelSelector:
            matchExpressions:
              - key: app
                operator: In
                values:
                  - cache
          topologyKey: zone

配置说明：
- Kubernetes 调度器会强制保证，同一 zone 下，不会与匹配 labelSelector 条件的 Pod 同时调度运行。
- 如果所有 zone 都有匹配的 Pod，则新 Pod 会一直处于 Pending 状态。

提示

Pod 亲和性和反亲和性的更详细介绍，可以看这里。

Pod 优先级与抢占式调度

在 Pod 上定义容忍（Tolerations）时，Pod 的优先级与抢占式调度机制如下：

优先级（Pod Priority）
- 表示 Pod 对象的重要程度。
- 作用：
  - 影响调度顺序：高优先级 Pod 会优先被调度。
  - 影响驱逐次序：节点资源不足时，低优先级 Pod 会先被驱逐。
抢占机制（Preemption）
- 当一个 Pod 无法被调度时，调度器会尝试驱逐节点上优先级更低的 Pod，为当前高优先级 Pod 腾出资源。
- 适合关键业务 Pod 需要资源保障的场景。
启用方法
- Pod 优先级与抢占式调度机制默认处于禁用状态，需要手动启用。
- 启用方式：在以下组件的启动参数中增加 --feature-gates=PodPriority=true：
  - kube-apiserver
  - kube-scheduler
  - kubelet

使用步骤

(1) 创建优先级类别（PriorityClass）

定义不同的优先级，如关键业务、高优先级、低优先级等。

配置示例：

apiVersion: scheduling.k8s.io/v1
kind: PriorityClass
metadata:
  name: high-priority                               # 优先级类别名称
value: 1000                                         # 优先级值，数值越大优先级越高
globalDefault: false                                # 是否为默认优先级类别
description: "用于关键业务 Pod，例如存储、网络组件"      # 优先级的描述信息

---

apiVersion: scheduling.k8s.io/v1
kind: PriorityClass
metadata:
  name: low-priority                                # 优先级类别名称
value: 100                                          # 优先级值，数值越大优先级越高
globalDefault: false                                # 是否为默认优先级类别
description: "用于低优先级 Pod，例如测试或批处理任务"     # 优先级的描述信息

(2) 在 Pod 中指定优先级

创建 Pod 时，通过 priorityClassName 属性绑定到对应的优先级类别。

配置示例：

apiVersion: v1
kind: Pod
metadata:
  name: critical-app
spec:
  priorityClassName: high-priority    # Pod 绑定高优先级类别
  containers:
    - name: critical-container
      image: nginx

Pod 的优先级与抢占式调度总结

高优先级 Pod 无法被调度 → 调度器检查目标节点 → 驱逐低优先级 Pod → 为高优先级 Pod 腾出资源 → 高优先级 Pod 调度成功。

Pod 的调度决策流程

(1) 预选阶段：排除不满足条件的节点（资源不足、标签不匹配等）。
(2) 优选阶段：对剩余节点打分 (考虑资源平衡、亲和性等因素)。
(3) 绑定阶段：选择最高分节点，将绑定信息写入 API Server。
(4) 执行阶段：目标 Node（工作节点）的 Kubelet 拉起 Pod。

提示

Kubernetes 调度器的详细工作流程，可以看这里。

Label

Label 的概念

Label 是 Kubernetes 中的核心概念之一，用于为集群中的各种资源对象打上自定义的标记。

Label 的核心概念：
- 一个 Label 是一个 key=value 形式的键值对，其中 key 和 value 由用户自定义。
- Label 可以附加到各种 Kubernetes 资源对象上，例如 Node、Pod、Service、Replication Controller（RC）等。
- 一个资源对象可以拥有任意数量的 Label，同一个 Label 也可以被应用到任意数量的资源对象上。
- Label 通常在资源对象创建时通过 metadata.labels 字段定义，也可以在对象创建后动态添加或删除。
Label 的核心作用
- Label 附加到 Kubernetes 资源对象上的主要目的是对这些对象进行分组管理。
- Kubernetes 分组管理的核心机制是 Label Selector（标签选择器）：
  - Label Selector 根据指定的匹配规则筛选出符合条件的资源对象，实现分组控制和管理。
  - Label 和 Label Selector 都不能单独存在，必须附加在某些资源对象的定义文件中，才能发挥作用。
  - 在实际使用中，Label 通常附加在 Pod 上，而 Label Selector 则常用于 Replication Controller（RC）、Replica Set（RS）或 Service 等资源定义文件中，通过匹配特定 Label 来选择和管理 Pod。
Label 的常见用途
- 通过在对象的定义中添加 metadata.labels，为对象打上标签。
- 其他资源（如 Service、Deployment）可以通过 spec.selector 来选择和关联具有特定 Label 的对象，实现分组管理和调度。
Label 的注意事项
- Label 和 Label Selector 都不能单独存在，必须附加在某些资源对象的定义文件中，常见组合是：
  - Pod + Label
  - Replication Controller（RC） / Replica Set（RS） / Service + Label Selector

Label 的使用

配置示例

apiVersion: v1
kind: Replication Controller
metadata:
  name: nginx
spec:
  replicas: 3
  selector:
    app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
        - name: nginx
          image: nginx
          ports:
            - containerPort: 80

---

apiVersion: v1
kind: Service
metadata:
  name: nginx
spec:
  type: NodePort
  ports:
    - port: 80
      nodePort: 3333
  selector:
    app: nginx

配置说明：
- Replication Controller（RC）：
  - 通过 selector 选择并管理所有带有 app=nginx 标签的 Pod。
  - 确保 Pod 的副本数量维持在 3 个，由 RC 创建的 Pod 会包含 app=nginx 标签。
- Service：
  - 通过 selector 匹配同样带有 app=nginx 标签的 Pod，并将流量分发给这些 Pod。
  - 通过 nodePort: 3333 在集群外部暴露服务。

Node（工作节点）的标签操作

给 Node（工作节点）打上标签：kubectl label nodes env_role=prod
查看 Node（工作节点）上的标签：kubectl get nodes --show-labels

Youtube 视频下载工具使用

2025-08-09T13:16:21.000Z

前言

yt-dlp 是一个功能丰富的命令行音频 / 视频下载器，支持数千个站点，支持断点续传和网络代理等功能。

开源项目

yt-dlp 安装步骤

Pip 安装（依赖 Python）

1 2	# Linux / Mac pip install -U yt-dlp

Linux 安装（二进制方式）

# Linux (可直接下载可执行文件)
# https://github.com/yt-dlp/yt-dlp/releases

# 下载文件
wget -O yt-dlp https://github.com/yt-dlp/yt-dlp/releases/download/2025.07.21/yt-dlp_linux

# 移动文件
sudo mv yt-dlp /usr/bin/

# 文件授权
sudo chmod +x /usr/bin/yt-dlp

Windows 安装（二进制方式）

1 2	# Windows (可直接下载 Exe 可执行文件) # https://github.com/yt-dlp/yt-dlp/releases

yt-dlp 使用方法

下载视频

下载命令

1	yt-dlp "https://www.youtube.com/watch?v=xxxx"

下载命令（支持断点续传 + 代理）

1	yt-dlp -c --proxy "http://127.0.0.1:7890" "https://www.youtube.com/watch?v=xxxx"

下载命令（支持断点续传 + 代理 + 多线程加速）

1	yt-dlp -c --proxy "http://127.0.0.1:7890" -N 4 "https://www.youtube.com/watch?v=xxxx"

下载命令（支持断点续传 + 代理 + 多线程加速 + 安全文件名）

1	yt-dlp --restrict-filenames -c --proxy "http://127.0.0.1:7890" -N 4 "https://www.youtube.com/watch?v=xxxx"

参数说明

参数	含义	说明
`-N`	指定线程数量	使用多个线程进行下载，可以加快下载速度
`-c`	支持断点续传	从已下载部分直接接着下载，不会重头开始下载
`--restrict-filenames`	使用安全文件名	文件名最终会变成类似 `2_HOUR_STUDY_WITH_ME.mp4`
`--proxy "http://127.0.0.1:7890"`	指定代理	支持 `http://`、`https://`、`socks5://` 等代理格式

特别注意

YouTube 视频通常分成音频 + 视频两个流下载，yt-dlp 会自动合并处理。
如果是长视频，建议 yt-dlp 配合 -c 断点续传和 -N 多线程加速，这样即使下载中途断了，也能很快恢复。
-N 参数对大部分 HTTP 分片流（DASH、HLS）有效，对单个 MP4 文件直链无效。有些代理或网络环境下，如果线程数太高，可能触发 YouTube 限制。

查看视频格式

查看视频支持的格式

1	yt-dlp -F --cookies-from-browser chrome -c --proxy "http://127.0.0.1:6860" "https://www.youtube.com/watch?v=xxxxx"

查看视频支持的格式（指定代理和 Cookie）

1	yt-dlp -F --cookies-from-browser chrome --proxy "http://127.0.0.1:6860" "https://www.youtube.com/watch?v=xxxxx"

yt-dlp 使用问题

问题描述：下载 YouTube 视频时，触发了人机验证 / 登录验证（如下所示），yt-dlp 没法直接绕过，所以它提示要用浏览器 Cookie 来模拟已登录的状态。

ERROR: [youtube] 5Q2Pc-e-8Qc: Sign in to confirm you’re not a bot. Use --cookies-from-browser or --cookies for the authentication. See  https://github.com/yt-dlp/yt-dlp/wiki/FAQ#how-do-i-pass-cookies-to-yt-dlp  for how to manually pass cookies. Also see  https://github.com/yt-dlp/yt-dlp/wiki/Extractors#exporting-youtube-cookies  for tips on effectively exporting YouTube cookies

解决方法一：使用浏览器插件

(1) 安装浏览器插件
- 推荐用 Get cookies.txt（Chrome）或 Firefox 的同类扩展插件。
(2) 导出 Cookie 文件
- 浏览器打开 https://www.youtube.com
- 确保已经登录 Youtube
- 点击扩展插件 → 导出 Cookies → 保存成 cookies.txt 文件

(3) 让 yt-dlp 用 Cookie 文件下载

1	yt-dlp -c --proxy "http://127.0.0.1:7890" --cookies cookies.txt "https://www.youtube.com/watch?v=xxxx"

解决方法二：从浏览器自动读取 Cookie

(1) yt-dlp 支持直接读取浏览器的 Cookie（需要本地环境支持）

1	yt-dlp --cookies-from-browser chrome -c --proxy "http://127.0.0.1:7890" "https://www.youtube.com/watch?v=xxxx"

(2) 参数说明
- --cookies-from-browser chrome 表示从 Chrome 读取 Cookie，也支持用 firefox、edge 等。
- 要求本地浏览器已经登录了 YouTube，并且浏览器没有关掉 Cookie 保存功能。

音频和视频合并失败

YouTube 视频通常分成音频 + 视频两个流下载，yt-dlp 会在两者下载完成后自动合并处理。但是，如果 .webm 音频是 Opus 编码，直接合并进 .mp4 会报错，如下所示：

[youtube] 5Q2Pc-e-8Qc: Downloading webpage
[youtube] 5Q2Pc-e-8Qc: Downloading tv client config
[youtube] 5Q2Pc-e-8Qc: Downloading tv player API JSON
[info] 5Q2Pc-e-8Qc: Downloading 1 format(s): 401+251
[download] 2_-HOUR_STUDY_WITH_ME-[5Q2Pc-e-8Qc].f401.mp4 has already been downloaded
[download] 100% of    3.27GiB
[download] 2_-HOUR_STUDY_WITH_ME-[5Q2Pc-e-8Qc].f251.webm has already been downloaded
[download] 100% of  111.71MiB
[Merger] Merging formats into "2_-HOUR_STUDY_WITH_ME-[5Q2Pc-e-8Qc].webm"
ERROR: Postprocessing: Conversion failed!

这种情况需要使用 Ffmpeg 先将音频转成 AAC 编码，然后再进行合并（前提是 yt-dlp 已经将 .webm 和 .mp4 文件都完整地下载到本地）

1	ffmpeg -i video.mp4 -i audio.webm -c:v copy -c:a aac -b:a 192k output.mp4

下载时合并音频和视频

YouTube 视频通常分成音频 + 视频两个流下载，若希望 yt-dlp 在下载两者的时候直接合并，可以参考以下命令：

1	yt-dlp -f "bv*+ba" --merge-output-format mp4 "https://www.youtube.com/watch?v=xxxx"

参数 -f "bv*+ba" 是 yt-dlp 里的格式选择表达式，意思是：

bv* = best video stream（最好画质的视频流），* 表示不限编码类型（AV1、VP9、H.264 都可以）
ba = best audio stream（最好音质的音频流）
+ = 选择视频流和音频流，并在下载后合并成一个文件

下载时指定视频的分辨率

查看视频支持的格式

1	yt-dlp -F --cookies-from-browser chrome -c --proxy "http://127.0.0.1:6860" "https://www.youtube.com/watch?v=xxxxx"

[info] Available formats for DXT9dF-WK-I:
ID      EXT   RESOLUTION FPS CH │   FILESIZE   TBR PROTO │ VCODEC          VBR ACODEC      ABR ASR MORE INFO
─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
249-drc webm  audio only      2 │   89.74MiB   51k https │ audio only          opus        51k 48k low, DRC, webm_dash
250-drc webm  audio only      2 │  119.84MiB   67k https │ audio only          opus        67k 48k low, DRC, webm_dash
249     webm  audio only      2 │   88.83MiB   50k https │ audio only          opus        50k 48k low, webm_dash
250     webm  audio only      2 │  118.56MiB   67k https │ audio only          opus        67k 48k low, webm_dash
140-drc m4a   audio only      2 │  229.94MiB  129k https │ audio only          mp4a.40.2  129k 44k medium, DRC, m4a_dash
251-drc webm  audio only      2 │  241.29MiB  136k https │ audio only          opus       136k 48k medium, DRC, webm_dash
140     m4a   audio only      2 │  229.94MiB  129k https │ audio only          mp4a.40.2  129k 44k medium, m4a_dash
251     webm  audio only      2 │  239.12MiB  135k https │ audio only          opus       135k 48k medium, webm_dash
244     webm  854x480     24    │  568.95MiB  320k https │ vp9            320k video only          480p, webm_dash
397     mp4   854x480     24    │  342.40MiB  193k https │ av01.0.04M.08  193k video only          480p, mp4_dash
136     mp4   1280x720    24    │  385.71MiB  217k https │ avc1.4d401f    217k video only          720p, mp4_dash
247     webm  1280x720    24    │    1.05GiB  603k https │ vp9            603k video only          720p, webm_dash
398     mp4   1280x720    24    │  653.15MiB  368k https │ av01.0.05M.08  368k video only          720p, mp4_dash
137     mp4   1920x1080   24    │    1.59GiB  915k https │ avc1.640028    915k video only          1080p, mp4_dash
248     webm  1920x1080   24    │    1.62GiB  934k https │ vp9            934k video only          1080p, webm_dash
399     mp4   1920x1080   24    │    1.21GiB  699k https │ av01.0.08M.08  699k video only          1080p, mp4_dash
271     webm  2560x1440   24    │    4.40GiB 2540k https │ vp9           2540k video only          1440p, webm_dash
400     mp4   2560x1440   24    │    3.72GiB 2146k https │ av01.0.12M.08 2146k video only          1440p, mp4_dash
313     webm  3840x2160   24    │   14.92GiB 8602k https │ vp9           8602k video only          2160p, webm_dash
401     mp4   3840x2160   24    │    8.33GiB 4805k https │ av01.0.12M.08 4805k video only          2160p, mp4_dash

下载视频时指定分辨率

1	yt-dlp -f 137+140 "https://www.youtube.com/watch?v=xxxxx"

参数说明：

137 表示 1920x1080 视频（avc1 编码标记，即 H.264 视频编码）
140 表示 MP4 音频（m4a 音频编码）

下载时指定视频编码为 H.264

若希望指定 yt-dlp 下载视频的编码格式为 H.264（在 YouTube 格式代码中，H.264 编码视频通常带有 avc1 标签），可以参考以下命令：

1	yt-dlp -f "bv[codec^=avc1]+ba" --merge-output-format mp4 "https://www.youtube.com/watch?v=xxxx"

参数说明：

-f "bv[codec^=avc1]+ba"
- bv = best video stream（最好画质的视频流）
- [codec^=avc1] = codec 字段以 avc1 开头（H.264 的编码标记）
- ba = best audio stream（最好音质的音频流）
- + = 选择视频流和音频流，并在下载后合并成一个文件
--merge-output-format mp4
- 限制输出容器是 MP4（和 H.264 配合更好）

Redis 哨兵机制详解

2025-07-27T13:15:32.000Z

哨兵机制的概念

Redis 有三种模式：分别是主从复制、哨兵模式、集群模式，后两者可以保证高可用。

哨兵（Sentinel）机制是什么
- 哨兵机制主要用于 Redis 主从架构下的故障检测与自动主从切换。
- 哨兵一个专门用于高可用的 Redis 组件（节点），不是用于存储数据的。
- 哨兵不参与数据同步和读写，而是专门负责监控、故障切换和通知客户端谁是主节点。
- 哨兵进程通常和 Redis 节点分开部署（也可以部署在同一台机器上，但进程独立）。
- 通常运行多个哨兵实例（即哨兵集群），实现冗余和仲裁。每个哨兵都会连接至 Master 节点和所有 Slave 节点，监控它们的状态信息。

哨兵（Sentinel）节点的作用是什么
- 监控（Monitor）：持续检查主节点和从节点是否存活（通过 PING 等）。
- 通知（Notification）：检测到故障后通知系统管理员或其他服务。
- 自动故障转移（Failover）：如果主节点不可用，选举一个从节点提升为新主节点。
- 服务发现（Discovery）：提供主节点的地址信息给客户端（可供自动重连）；如果发生了故障转移，会通知客户端新的主节点地址。
哨兵（Sentinel）节点不是从节点（Slave）
- 哨兵节点不负责同步数据，也不参与数据读写。
- 它只是通过 Redis 协议连接 Redis 实例，执行命令如 INFO、PING 来感知状态。
- 哨兵节点不保存业务数据，最多保存一些监控状态（内存中）。
为什么需要哨兵（Sentinel）机制
- Redis 的主从复制机制主要用于实现数据备份和读请求的负载分担，但它本身并不具备自动容错和主节点自动切换的能力。因此，单纯依赖主从复制并不能保证系统的高可用性。具体表现如下：
  - 需要人工介入：当主节点发生故障时，Redis 本身无法自动完成故障切换，需要运维人员手动将某个从节点提升为新的主节点，并重新配置其他从节点同步新的主节点。
  - 单点故障风险：主节点作为写操作的唯一入口，一旦宕机，系统的写操作将完全中断，严重影响服务可用性。
  - 主节点写入能力受限：Redis 是单线程模型，主节点的写入吞吐受限于单机性能，无法横向扩展。
  - 单机节点存储容量有限：Redis 通常运行在内存中，主节点的物理内存限制了存储能力。
- Redis 哨兵机制应运而生，用于增强 Redis 在主从架构下的高可用性。它具备以下能力：
  - 哨兵节点自动监控 Redis 实例状态（包括主节点和从节点）。
  - 主节点宕机时，自动完成主从切换（Failover）。
  - 通知支持 Sentinel 机制的客户端连接新的主节点。
  - 协助管理 Redis 主从结构并确保一致性。
- 若需要进一步提高 Redis 的可用性与扩展性，还可以使用 Redis Cluster（集群），它支持数据分片（水平扩展），具备原生的多主多从架构、高可用、以及容错能力。

哨兵机制的原理

Redis 哨兵机制是通过在独立的哨兵节点上运行特定的哨兵进程来实现的。这些哨兵进程监控主从节点的状态，并在出现故障时自动完成故障转移，并通知应用方，实现高可用性。

(1) 哨兵选举：
- 在启动时，每个哨兵节点都会参与选举，其中一个哨兵节点会被选为领导者（Leader），负责协调其他哨兵节点执行故障转移。选举过程如下：
  - 每个在线的哨兵节点都有资格成为领导者。当某个哨兵判断主节点不可用后，会向其他哨兵节点发送 is-master-down-by-addr 命令，请求判断主节点状态并征求选票，希望被选为本轮的领导者。
  - 其他哨兵节点在收到该命令后，会根据自身判断和是否已经投票的情况，决定是否同意对方成为领导者（每个哨兵在同一轮选举中只能投票一次）。
  - 如果某个哨兵节点获得的选票数达到或超过 总哨兵节点数 / 2 + 1（即超过半数），则该哨兵节点将成为本轮选举的领导者；如果未能获得足够票数，则会进入下一轮选举，直到选出领导者为止。
(2) 哨兵监控主从节点:
- 哨兵节点通过发送命令周期性地检查主从节点的健康状态，包括主节点是否在线、从节点是否同步等。
- 如果哨兵节点发现主节点不可用，它会触发一次故障转移操作，而且是由哨兵领导者负责处理主节点的故障转移。
(3) 哨兵执行故障转移：
- 一旦主节点被判定为不可用，哨兵节点会执行故障转移操作。它会从当前的从节点中选出一个新的主节点，并将其他从节点切换到新的主节点。这样，缓存系统可以继续提供服务，而无需人工介入。
- 故障转移过程：
  - 由哨兵节点定期监控主节点是否出现故障，哨兵节点会定期向主节点发送心跳 PING 来确认主节点是否存活。
  - 如果主节点在 “一定时间范围” 内不响应 PONG 或者是回复了一个错误消息，那么这个哨兵节点会主观地（单方面地）认为这个主节点已经不可用了。
- 确认新主节点：
  - 过滤掉不健康的从节点（如已下线、网络断连、长时间未响应哨兵 PING 命令的节点）。
  - 在剩余的健康从节点中，优先选择优先级（Priority）最高的节点。
  - 如果有多个从节点优先级相同，则选择复制偏移量（Replication Offset）最大的节点，即数据最接近原主节点的从节点。
  - 若优先级和复制偏移量都相等，则选择节点 ID 字典序最小的节点作为新主节点。
(4) 客户端重定向：
- 当主节点出现故障时，哨兵节点会自动发起主从切换（故障转移），选举一个新的从节点作为新的主节点。
- 哨兵节点不会直接通知客户端新的主节点地址，而是提供一个服务发现机制。客户端需要通过支持哨兵机制的客户端，从哨兵节点动态获取当前的主节点地址。
- 这样一来，客户端可以在主节点切换后，通过哨兵节点重新获取主节点信息，从而无感知地完成主节点重连，保证业务连续性。
- 此外，哨兵节点还会持续监控所有主节点和所有从节点的运行状态，如果某个从节点出现故障，哨兵节点会将其标记为下线；一旦从节点恢复，哨兵节点会自动将其重新加入主从复制架构，并使其同步当前主节点的数据，以维持整个架构的完整性。

哨兵的部署架构

Redis Sentinel（哨兵）本身是一个分布式系统，通常以哨兵集群的形式部署，多个哨兵节点之间可以协同工作，保障系统的高可用性（如下图所示）。

哨兵（Sentinel）故障转移的核心概念

概念	解释	作用
`quorum`（法定票数）	Master 节点从主观下线（sdown）到客观下线（odown）所需的同意哨兵数（即最少 N 个哨兵同时判断 Master 为宕机）	确保哨兵对 Master 宕机的判断具有一定共识，避免误判
`majority`（多数哨兵）	执行故障转移操作时，要求同意执行故障转移的哨兵数量必须达到总数的一半以上，否则不会执行故障转移	为了避免「脑裂」现象，即多个哨兵在不同网络分区中同时尝试进行故障转移，导致系统不一致或混乱

哨兵（Sentinel）的部署架构是什么
- Redis Sentinel（哨兵）本身是一个分布式系统，通常以哨兵集群的形式部署，多个哨兵节点之间可以协同工作，保障系统的高可用性。
  - 哨兵通常以集群的形式部署，这样是为了保证哨兵的高可用性
    - 哨兵集群要求至少需要部署 3 个哨兵实例，否则可能无法保证故障转移的正常执行，同时也为了实现多数投票机制，并提高容错能力。
    - 哨兵集群 + Redis 主从架构能够提供高可用性，但无法做到数据零丢失。故障转移过程中可能存在数据未完整同步到从节点的风险，因此仅适用于对可用性要求高、但允许少量数据丢失的场景。
    - 由于哨兵 + Redis 主从是一种相对复杂的部署架构，建议在测试环境和生产环境中都进行充分的测试与故障演练，确保系统在各种异常情况下都能稳定运行。
  - 在发生故障转移时，是否将一个主节点判定为宕机，必须经过多数哨兵节点（Quorum）的同意。这涉及到分布式选举机制，用于确保故障转移的判断和执行具备一致性和可靠性。
  - 即使部分哨兵节点发生故障，哨兵集群仍然能够正常工作。这是因为哨兵本身作为高可用机制的一部分，必须具备容错能力，若其自身是单点的，那就违背了其设计初衷。
  - 目前使用的是 Sentinel 2.x 版本。与 Sentinel 1.x 相比，Sentinel 2.x 重写了大量核心代码，主要目的是简化故障转移流程、提升算法健壮性和系统稳定性，使其更适用于生产环境中的高可用场景。
为什么 Redis 哨兵集群只有 2 个节点会无法正常工作
- 以部署了 2 个哨兵实例的场景为例（配置：quorum = 1）：
  1
  2
  3
  4
  +----+ +----+
  | M1 |---------| R1 |
  | S1 | | S2 |
  +----+ +----+
- 当主节点 M1 宕机时，只要 S1 和 S2 中任意一个哨兵认为 M1 宕机，就可以发起主观下线（Subjective Down，简称 sdown）判断。接着，两个哨兵会通过选举机制，选举出其中一个哨兵来执行故障转移操作。
- 但是，哨兵系统执行真正的故障转移时，还需要满足 majority 要求，也就是多数哨兵节点同意执行故障转移。例如：
  - 2 个哨兵时，要求 majority = 2
  - 3 个哨兵时，要求 majority = 2
  - 4 个哨兵时，要求 majority = 3
  - 5 个哨兵时，要求 majority = 3
- 因此在 2 个哨兵节点的场景中，只有当两个哨兵都正常运行时，才满足 majority 的要求，才允许执行故障转移操作。
- 如果运行主节点 M1 和哨兵 S1 的那台机器宕机了，意味着主节点 M1 和哨兵 S1 同时失效，只剩下从节点 R1 和哨兵 S2 仍在运行。此时虽然还有一个哨兵存在（S2），但由于无法满足 majority 要求，故障转移将不会被执行，导致缓存系统始终处于不可用状态。
Redis 经典的 3 节点哨兵集群架构
- 以部署了 3 个哨兵实例的场景为例（配置：quorum = 2）：
  1
  2
  3
  4
  5
  6
  7
  8
  9
  +----+
  | M1 |
  | S1 |
  +----+
  |
  +----+ | +----+
  | R2 |----+----| R3 |
  | S2 | | S3 |
  +----+ +----+
- 如果主节点 M1 所在的机器宕机，意味着主节点 M1 和哨兵 S1 同时失效，剩下的两个哨兵 S2 和 S3 仍在运行。此时：
  - 哨兵 S2 和 S3 可以一致地判断主节点 M1 宕机了（满足 quorum = 2），从而形成客观下线（odown）判断；
  - 接着，S2 和 S3 两个哨兵会通过选举机制，选举出其中一个哨兵负责执行故障转移操作；
  - 因为 3 个哨兵的 majority 要求为 2，而当前恰好有 2 个哨兵仍然存活，所以满足故障转移所需的条件。
- 因此，在这种经典的 3 节点哨兵集群架构下，即使一台机器宕机，只要剩余的 2 个哨兵还在正常运行，依然可以完成故障转移，从而保证整个哨兵集群的高可用性。

特别注意

无论 Redis 是一主一从、一主多从的复制架构，都可以使用 Redis 的哨兵机制，官方更推荐使用一主多从的复制架构，这样可用性更高。

哨兵机制的使用

在 SpringBoot 项目中，使用 Lettuce 客户端连接 Redis 的一主多从 + 哨兵模式时，只需要在 application.yml 正确配置哨兵信息，SpringBoot 就会自动识别并创建 Lettuce 连接。

SpringBoot 配置文件示例（application.yml）

spring:
  redis:
    sentinel:
      master: mymaster             # 主节点名称，对应哨兵配置中的 sentinel monitor 的名称
      nodes:                       # 哨兵节点列表（ip:port）
        - 192.168.1.101:26379
        - 192.168.1.102:26379
        - 192.168.1.103:26379
    password: yourRedisPassword    # Redis 认证密码（如果开启了）
    database: 0

若希望使用从节点读取数据（主节点默认可以读写，但从节点只读不可写），可以使用以下 SpringBoot 配置信息

spring:
  redis:
    sentinel:
      master: mymaster             # 主节点名称，对应哨兵配置中的 sentinel monitor 的名称
      nodes:                       # 哨兵节点列表（ip:port）
        - 192.168.1.101:26379
        - 192.168.1.102:26379
        - 192.168.1.103:26379
    password: yourRedisPassword    # Redis 认证密码（如果开启了）
    database: 0
    lettuce:
      read-from: REPLICA_PREFERRED

Lettuce 的配置值	含义
`MASTER`	所有请求都从主节点读取（默认）
`MASTER_PREFERRED`	优先主节点，主节点不可用时才从从节点读取
`REPLICA`（或 `SLAVE`）	所有请求都从从节点读取
`REPLICA_PREFERRED`	优先从从节点读取，从节点不可用时回退到主节点
`NEAREST`	从网络延迟最小的节点读取（需要集群拓扑支持）

Redis 哨兵配置文件示例（redis-sentinel.conf）

# 监控名为 mymaster 的主节点，IP 是 192.168.1.100，端口 6379，
# 至少有 2 个哨兵同时判断该主节点不可达时，才会被判定为主观下线（sdown）
sentinel monitor mymaster 192.168.1.100 6379 2

# 如果 5000 毫秒（5 秒）内没有收到主节点的响应，哨兵就认为主节点已主观下线
sentinel down-after-milliseconds mymaster 5000

# 整个故障转移（Failover）过程的超时时间：10 秒
# 包括选举新主节点、通知其他从节点进行复制、通知客户端更新配置等
sentinel failover-timeout mymaster 10000

# 故障转移时，最多同时有 1 个从节点并行地从新的主节点复制数据（同步）
sentinel parallel-syncs mymaster 1

引入 Lettuce 依赖，使用 Lettuce 的默认连接工厂


<dependency>
    <groupId>org.springframework.bootgroupId>
    <artifactId>spring-boot-starter-data-redisartifactId>
dependency>

Redis 连接验证代码

@Autowired
private StringRedisTemplate stringRedisTemplate;

@PostConstruct
public void testConnection() {
    stringRedisTemplate.opsForValue().set("testKey", "hello from sentinel");
    String value = stringRedisTemplate.opsForValue().get("testKey");
    System.out.println("Redis 返回: " + value);
}

SpringBoot 配置（application.yml）的注意事项
- 主从节点的 IP 和端口不需要配置，哨兵模式下 Lettuce 客户端能自动发现主从拓扑结构。
- mymaster 一定要和哨兵配置文件（redis-sentinel.conf）里设置的一致。
- Lettuce 默认支持哨兵模式，一般不需要额外配置；但是，如果哨兵模式使用 SSL，则需要显式配置连接工厂。
- SpringBoot 的默认连接池支持读写分离，只需要配置 Lettuce 的 read-from 属性即可生效。
- 在 Redis 的主从复制或者集群架构中，主节点可以读写，但从节点默认是只读的，即可以响应读请求（如 GET、MGET 等），但不能写入数据。

特别注意

无论 Redis 是一主一从、一主多从还是集群架构，Redis 的主节点都可以读写，从节点默认是可以读（只读，不能写入）；但如果想实现真正的读写分离或者读负载均衡，还需要在客户端进行配置或开发支持（比如 Jedis、Lettuce 都支持手动配置是否访问从节点），因为 Redis 本身不会自动将读请求发送给从节点。由于 Redis 的主从同步可能存在延迟，如果业务对读取一致性要求较高（如读取后马上更新），那么就不要使用从节点读取数据。

哨兵机制的问题

如何避免脑裂现象

Redis 哨兵集群的脑裂现象是指什么
- 指在出现网络分区或者部分哨兵节点失联的情况下，多个哨兵节点在没有达到 majority（多数哨兵）共识的前提下，分别认为 Master 节点宕机并发起故障转移，导致出现两个或多个 Master 节点，从而造成数据不一致或系统混乱。
- 值得一提的是，除了主从同步延迟外，脑裂现象也会导致 Redis 集群丢失部分缓存数据。
Redis 哨兵集群如何避免脑裂现象
- 设置合适的 quorum（法定票数），即某个哨兵要认为主节点下线，必须要有至少 quorum 个哨兵达成共识。
- 真正的故障转移必须经过 majority 个哨兵（多数哨兵）投票通过，避免少数哨兵单方面误判。
- 因此，只要哨兵总数为奇数（如 3 个或 5 个），且大多数哨兵能互通，就不会发生脑裂现象。
  - 举个例子，假设集群中有 3 个哨兵，并配置 quorum = 2，那么：
    - 只有至少 2 个哨兵都判断主节点不可用，才会触发故障转移；
    - 此时，还需要过半（即至少 2 个）的哨兵同意发起故障转移，才能选出新的主节点；
    - 如果由于网络问题分区成 1 + 2 的两组哨兵，单独的哨兵将无法满足 quorum 和 majority 条件，这样就不会误判，从而避免脑裂。

概念	解释	作用
`quorum`（法定票数）	Master 节点从主观下线（SDOWN）到客观下线（ODOWN）所需的同意哨兵数（即最少 N 个哨兵同时判断 Master 为宕机）	确保哨兵对 Master 宕机的判断具有一定共识，避免误判
`majority`（多数哨兵）	执行故障转移操作时，要求同意执行故障转移的哨兵数量必须达到总数的一半以上，否则不会执行故障转移	为了避免「脑裂」现象，即多个哨兵在不同网络分区中同时尝试进行故障转移，导致系统不一致或混乱

网络分区是指什么

网络分区（Network Partition）是指由于网络故障，集群中的一部分节点之间无法正常通信，被分隔成了两个或多个 "孤岛"，每个孤岛只能看到自身可达的节点，看不到其他节点。在 Redis 的哨兵集群架构中，网络分区通常指的是：部分哨兵与主节点失去连接、部分哨兵之间失去通信、主从节点之间断联。这些都可能导致：误判主节点下线、多个哨兵同时发起故障转移、出现多个主节点（脑裂）。

如何避免数据丢失

Redis 的哨兵机制主要用于主从架构下的故障检测与自动主备切换，但在某些特殊场景下，哨兵机制可能会导致数据丢失，主要包括以下两种情况：

(1) 异步复制导致的数据丢失
- Redis 主从节点之间的数据同步是异步复制，这意味着主节点写入的数据不会立即同步到从节点。
  - 当主节点（Master）宕机时，可能仍有部分数据尚未同步写入到从节点（Slave）。
  - 此时，如果哨兵进行故障转移，从节点被提升为新的主节点，那么这些未同步的数据将永久丢失。
- 这种情况的本质是主从延迟造成的数据不一致，属于设计上的权衡（异步复制换取更高性能和低延迟）。
(2) 脑裂（Split-Brain）导致的数据丢失
- 脑裂指的是：主节点与其他哨兵和从节点之间发生网络分区，导致其在局部网络中 “孤岛运行”，而在整体视角下却被认为已宕机。
  - 在发生网络分区期间，哨兵可能判定主节点不可用（ODOWN - 客观不可用），并发起故障转移，将某个从节点提升为新的主节点。
  - 但由于旧主节点实际上仍在运行，客户端可能仍将数据写入旧主节点，形成了两个 “主节点”（双主）。
  - 当网络恢复时，旧主节点会被哨兵强制转为从节点，并从新主节点复制数据，这会导致旧主节点上的数据被清空。
- 因此，在发生网络分区的这段时间内，写入旧主节点的数据会丢失，因为它从未被同步到新主节点上，并且在旧主节点恢复后被覆盖掉。

Redis 提供以下两个配置项用于控制写请求行为，从而减少异步复制和脑裂导致的数据丢失。

min-slaves-to-write 1：要求至少有 1 个从节点处于正常连接状态，主节点才允许写入数据。
min-slaves-max-lag 10：要求从节点的复制延迟（ACK 返回的时间）不能超过 10 秒，主节点才允许写入数据。

当主节点检测到可以正常连接的从节点数量不足，或者所有从节点的复制延迟都超过 10 秒，那么主节点将拒绝客户端的写请求。

(1) 减少异步复制导致的数据丢失
- Redis 的主从复制是异步的。如果主节点宕机，而有些数据尚未同步到从节点，那么这些数据将永久丢失。
- 通过设置 min-slaves-max-lag，主节点可以感知从节点复制数据的延迟。如果从节点响应太慢（比如都超过了 10 秒），主节点会拒绝客户端的写入请求，防止继续写入大量数据而无法同步，从而将主节点宕机时可能丢失的数据限制在一个可控的范围（如 10 秒）内。
(2) 减少脑裂导致的数据丢失
- 在出现脑裂的情况下，客户端可能仍向旧主节点写入数据，形成两个主节点（双主），导致数据不一致和丢失。
- 通过 min-slaves-to-write 和 min-slaves-max-lag 这两个配置项，可以防止脑裂主节点继续接受写请求：
  - 如果旧主节点失去了所有从节点的连接；
  - 且在 min-slaves-max-lag 时间（如 10 秒）内未收到任何从节点的 ACK 消息；
  - 那么主节点将自动停止接受写请求。
- 这样，即使发生脑裂，旧主节点也会在 10 秒内拒绝写入数据，最多只会丢失 10 秒的数据，大大降低了数据丢失的风险。

当 Redis 主节点拒绝写请求时，客户端可以采取如下策略进行容灾处理：

(1) 客户限流处理
- 对接口请求进行限流处理，减慢请求涌入的速度，防止请求堆积或爆发式增长。
(2) 异步重试机制
- 将待写入的数据缓存在本地磁盘或者 Kafka 消息队列中。
- 客户端定时从本地磁盘或者 Kafka 队列中获取数据（例如每隔 10 分钟），然后尝试将数据重新写回 Redis 主节点。

Higress 入门教程 - 基础篇（2025 年）

2025-07-22T13:12:19.000Z

前言

Higress 是基于阿里内部的 Envoy Gateway 实践沉淀、以开源 Istio + Envoy 为核心构建的下一代云原生网关，实现了流量网关 + 微服务网关 + 安全网关三合一的高集成能力，深度集成 Dubbo、Nacos、Sentinel 等微服务技术栈，能够帮助用户极大的降低网关的部署及运维成本。在标准上全面支持 Ingress 与 Gateway API，积极拥抱云原生下的标准 API 规范；同时，Higress Controller 也支持 Nginx Ingress 平滑迁移，可以帮助用户零成本快速迁移到 Higress。

学习资源

网关的分类

行业中通常把网关分为两个大类：流量网关与业务网关，流量网关主要提供全局性的、与后端业务无关的策略配置，例如阿里内部的的统一接入网关 Tengine 就是典型的流量网关；业务网关顾名思义主要提供独立业务域级别的、与后端业务紧耦合策略配置，随着应用架构模式从单体演进到现在的微服务，业务网关也有了新的叫法 - 微服务网关。

在虚拟化时期的微服务架构下，业务通常采用流量网关 + 微服务网关的两层架构，流量网关负责南北向流量调度和安全防护，微服务网关负责东西向流量调度和服务治理，而在容器和 K8s 主导的云原生时代，Ingress 成为 K8s 生态的网关标准，赋予了网关新的使命，使得流量网关 + 微服务网关合二为一成为可能。作为面向南北向的公网网关，使用 Waf 防护异常流量是很常规的需求，而且随着互联网环境变得越来越复杂，用户对防护的诉求是持续增强的，常规做法是将流量先接入 Waf 安全网关，过滤后再将流量转发给流量网关，最后到达微服务网关；Higress 希望通过内置 Waf 模块，使得用户的请求链接只经过 Higress 就可以同时完成 Waf 防护、流量分发、微服务治理，既可以降低链路 RT，也可以降低网关的运维复杂度。因此 Higress 实现了流量网关 + 微服务网关 + 安全网关三合一的高集成能力。

Higress 简介

Higress 是什么

Higress 是一款云原生 API 网关，内核基于 Istio 和 Envoy，可以用 Go/Rust/JS 等编写 Wasm 插件，提供了数十个现成的通用插件，以及开箱即用的控制台。
Higress 在阿里内部为解决 Tengine Reload 对长连接业务有损，以及 gRPC/Dubbo 负载均衡能力不足而诞生。
阿里云基于 Higress 构建了云原生 API 网关产品，为大量企业客户提供 99.99% 的网关高可用保障服务能力。
Higress 基于 AI 网关能力，支撑了通义千问 APP、百炼大模型 API、机器学习 PAI 平台等 AI 业务。同时服务国内头部的 AIGC 企业（如零一万物），以及 AI 产品（如 FastGPT）。

什么是 AI 网关

AI Gateway = AI Native API GatewayAI，网关的本质依然是 API 网关，AI 原生的意义在于，在这样的 API 网关里，AI 是一等公民。API 研发、API 供应、API 消费、以及 API 观测都基于 AI 场景下的需求，演进出全新的能力。

这是传统 API 网关的功能范畴，AI 场景下仍然有其通用价值：

在 AI 场景下，基于 Higress 可以将 API 网关的功能范畴进一步扩展：

Higress 核心优势

生产等级
- 脱胎于阿里巴巴多年生产验证的内部产品，支持每秒请求量达数十万级的大规模场景。
- 彻底摆脱 Nginx Reload 引起的流量抖动，配置变更毫秒级生效且业务无感。对 AI 业务等长连接场景特别友好。
便于扩展
- 提供丰富的官方插件库，涵盖 AI、流量管理、安全防护等常用功能，满足 90% 以上的业务场景需求。
- 主打 Wasm 插件扩展，通过沙箱隔离确保内存安全，支持多种编程语言，允许插件版本独立升级，实现流量无损热更新网关逻辑。
安全易用
- 基于 Ingress API 和 Gateway API 标准，提供开箱即用的 UI 控制台，WAF 防护插件、IP/Cookie CC 防护插件开箱即用。
- 支持对接 Let’s Encrypt 自动签发和续签免费证书，并且可以脱离 K8s 部署，一行 Docker 命令即可启动，方便个人开发者使用。
流式处理
- 支持真正的完全流式处理请求 / 响应 Body，Wasm 插件很方便地自定义处理 SSE（Server-Sent Events）等流式协议的报文。
- 在 AI 业务等大带宽场景下，可以显著降低内存开销。

Higress 使用场景

AI 网关

Higress 能够用统一的协议对接国内外所有 LLM 模型厂商，同时具备丰富的 AI 可观测、多模型负载均衡 / Fallback、AI Token 流控、AI 缓存等能力：

K8s Ingress 网关

Higress 可以作为 K8s 集群的 Ingress 入口网关，并且兼容了大量 K8s Nginx Ingress 的注解，可以从 K8s Nginx Ingress 快速平滑迁移到 Higress。支持 Gateway API 标准，支持用户从 Ingress API 平滑迁移到 Gateway API。相比 ingress-nginx，资源开销大幅下降，路由变更生效速度有十倍提升。

微服务网关

Higress 可以作为微服务网关，能够对接多种类型的注册中心发现服务配置路由，例如 Nacos、ZooKeeper、Consul、Eureka 等。并且深度集成了 Dubbo、Nacos、Sentinel 等微服务技术栈，基于 Envoy C++ 网关内核的出色性能，相比传统 Java 类微服务网关，可以显著降低资源使用率，减少成本。

安全防护网关

Higress 可以作为安全防护网关，提供 WAF 的能力，并且支持多种认证鉴权策略，例如 key-auth、hmac-auth、jwt-auth、basic-auth、oidc 等。

Higress 整体架构

整体上 Higress 网关由控制面组件 Higress-Controller 和数据面组件 Higress-Gateway 组成。Higress-Gateway 负责承载数据流量，Higress-Controller 负责管理配置下发。
数据面组件 Higress-Gateway 是基于 Envoy 开发的网关组件，负责接收和处理流量，支持 HTTP/1.1、HTTP/2、gRPC 等协议，支持 TLS、mTLS、WAF、限流、熔断、重试、负载均衡、路由、转发、重定向、跨域等功能，也就是说真正的流量处理都是在 Higress-Gateway 中完成的。
控制面组件 Higress-Controller 负责管理配置下发，支持 Ingress API、Gateway API、Istio API，支持多种注册中心，支持多种认证鉴权策略，支持多种插件扩展机制，支持多种 CRD 实现流量精细化管理，也就是说所有的配置都是通过 Higress-Controller 下发到 Higress-Gateway 中的。

Higress 开发语言

Higress 主要是基于 Envoy Proxy 开发的，核心是用 C++（Envoy 内核）和 Go（控制面、插件、扩展部分）组合实现的。

组件	语言	作用
Envoy Proxy（数据面）	C++	Higress 的流量转发核心，负责 HTTP/TCP 代理、路由、负载均衡，使用 Envoy 做高性能转发。
控制面 / 插件 / 扩展逻辑	Go	Higress 提供了 Ingress、Gateway API 的控制逻辑、配置管理、Wasm 插件管理等，这部分主要用 Go 实现。
Wasm 插件（可选）	WebAssembly（多语言）	Higress 支持流量治理的 Wasm 扩展，用户可以用 Rust、C++、AssemblyScript 编写。

为什么采用这种语言组合？

C++（Envoy 内核）：高性能、云原生友好，成熟的代理框架。
Go（控制面、插件）：易于集成 Kubernetes，开发效率高，社区有大量的 Ingress/Gateway 生态。
Wasm（扩展能力）：支持动态扩展，不用重启服务。

字段位置	含义	取值范围
第 1 位	分钟	0–59
第 2 位	小时	0–23
第 3 位	日期（日）	1–31
第 4 位	月份	1–12
第 5 位	星期	0–7（0 和 7 都表示星期日）