注册中心架构师模拟面试

最近做了一轮围绕注册中心的模拟面试，把整个过程和自己答得不到位的地方整理了一下。注册中心这块东西看起来简单，真问到细节其实挺多坑的，写下来给自己复盘一下。

一共十二道题，从最基础的「注册中心解决了什么问题」开始，逐步问到设计、治理、防护、工程化几个方向，难度递进。下面按题目顺序来。

先放一个速查表，方便面试前快速过一遍主线：

题目	主要考点	答题关键词
注册中心解决什么问题	基础定位	动态地址、服务解耦、治理元数据、客户端发现
CAP 怎么选	一致性权衡	临时实例 AP、管理元数据 CP、客户端缓存
服务假死	故障识别	超时、熔断、被动摘除、P99 监控
注册中心宕机	容灾降级	内存缓存、磁盘快照、推拉结合、推空保护
大规模优化	容量设计	分片、增量推送、长连接、订阅关系压缩
无损上下线	状态传播	主动注销、静默等待、readiness、preStop
百万实例设计	架构拆分	Session / Data / Meta、容量估算、跨机房多活
双机房设计	冲突处理	写主权、tombstone、就近访问、异地兜底
职责边界	系统边界	注册中心做数据，不做请求级决策
工程化	生产稳定性	滚动升级、协议兼容、监控分级、回滚预案

注册中心到底解决了什么问题

从架构师视角看，注册中心解决的不是单纯的「地址管理」问题，而是微服务体系里的动态服务目录、服务身份解耦和实例状态传播问题。

第一，它把「稳定的服务身份」和「动态的实例地址」拆开。调用方依赖的是 user-service 这样的逻辑服务名，而不是某台机器的 IP 和端口。服务实例扩容、缩容、重启、迁移、Pod 漂移时，实例地址可以不断变化，但服务身份保持稳定，消费者不需要跟着改配置。

第二，它承载服务生命周期状态。一个实例从启动、注册、心跳续约、健康、下线、异常剔除，到最后从服务列表里消失，整个状态变化都要通过注册中心传播出去。没有这层机制，调用方无法及时知道哪些实例可用、哪些实例已经不可用了。

第三，它是客户端负载均衡的前提。负载均衡不是凭空发生的，调用方必须先拿到一组候选实例，才能按权重、机房、版本、延迟、失败率去选择目标节点。注册中心提供的是「有哪些实例可以选」，具体选哪个通常由客户端 SDK、网关或 Service Mesh 完成。

第四，它是服务治理的数据底座。灰度发布、版本路由、就近访问、权重调整、隔离故障实例，这些能力都依赖注册中心维护的元数据，比如 version、zone、weight、tags、status。注册中心不一定直接做治理决策，但它提供治理决策需要的基础数据。

第五，它降低了系统变更的耦合度。没有注册中心时，新增实例要改配置，机器迁移要改配置，服务扩缩容也要同步通知所有消费者，系统会退化成大量静态地址配置和人工发布流程。注册中心把这些变化收敛到服务目录里，让提供者变化对消费者透明。

注册中心是微服务架构里的服务发现控制面，负责维护「服务名到实例集合」的动态映射，并把实例健康状态和元数据变化及时传播给消费者。它解决的是动态环境下服务如何被发现、如何被选择、如何感知上下线的问题，而不是简单保存一张 IP 列表。

注册中心应该选 CP 还是 AP

CAP 真正讨论的是发生网络分区时，系统要优先保证一致性，还是优先保证可用性。注册中心里也不是只有一种数据，不同数据的变更频率、错误代价和一致性要求完全不同。

如果看临时实例注册、心跳续约和服务发现，通常会偏 AP。原因是服务发现的数据天然允许短时间不一致：调用方拿到一个稍微旧一点的实例列表，最多是调到已经下线或异常的节点，这时还有超时、重试、熔断、客户端本地失败剔除兜底。但如果为了强一致导致注册中心不可用，消费者完全拿不到服务列表，调用链会直接中断。

如果看服务元数据、命名空间、权限、持久实例、手工上下线这类管理数据，就更适合 CP。因为这些数据变更频率低，但错误代价高。例如权限错了会导致越权发现，命名空间错了会导致环境串流量，手工下线状态被覆盖会让故障实例重新接流量。

所以，注册中心不是整体 AP 或整体 CP，而是按数据类型分层取舍。临时实例和健康状态偏 AP，管理元数据偏 CP，跨机房同步通常做最终一致。这也是后面设计双机房注册中心时最关键的主线。

设想一下注册中心集群发生了网络分区。如果所有数据都按 CP 处理，少数派节点为了保证一致性会拒绝服务，结果是部分客户端完全拿不到服务列表，业务直接挂掉。如果临时实例发现链路按 AP 处理，每个分区至少能返回一份「可能略旧」的实例列表，业务还能依靠客户端容错继续运行。这是 Eureka 这类注册中心偏 AP 的核心原因。

阿里其实早年就踩过这个坑。2015 年左右把 Zookeeper 从注册中心位置上换下来，就是因为大规模场景下 ZK 的 CP 特性在网络抖动时会导致大面积不可用。Zookeeper 更适合做协调服务（选主、分布式锁、配置），不适合做注册中心。

主流产品的差异，本质上也是对不同数据和不同场景的取舍：

产品	模式	一致性协议
Eureka	AP	基于 HTTP 的对等复制
Zookeeper	CP	ZAB
Nacos	AP / CP 可选	Distro / JRaft
Consul	CP	Raft
etcd	CP	Raft

注意 Nacos 是两种都支持的，AP 用 Distro 协议，CP 用 JRaft，分别服务不同场景，这点后面会再说。

Eureka 的自我保护机制

这个问题不能只说「大规模心跳异常时不剔除实例」，更应该从注册中心的 AP 取舍、误删风险和客户端容错几个层次来解释。

Eureka 的实例健康主要依赖客户端心跳。正常情况下，服务实例定期向 Eureka Server 续约，Server 根据最后续约时间判断实例是否过期。如果一个实例长时间没有心跳，Eureka 会把它从可用实例列表里剔除。

问题在于，Eureka Server 很难准确区分两种情况：

服务实例真的挂了，所以心跳发不上来；
Eureka Server 和大量客户端之间出现网络抖动、分区或负载异常，服务实例其实还活着，但心跳没有及时到达。

如果第二种情况被误判成第一种，Eureka 就会把大量健康实例从注册表里删除。消费者拿到的服务列表会突然变少，甚至变空，原本健康的业务实例也不再接收流量，故障会被注册中心放大。这就是自我保护机制要解决的问题。

自我保护的核心策略是：当心跳大面积缺失时，优先怀疑注册中心自身或网络出了问题，而不是立刻认为所有服务实例都挂了。 换句话说，它选择「宁可短时间保留可疑实例，也不要批量误删健康实例」。

触发条件是有公式的：最近 1 分钟收到的心跳数小于期望心跳数的 85%（这个阈值可配）。期望心跳数等于实例数乘以 2（默认 30s 一次心跳，所以每分钟期望 2 次）。当心跳大面积缺失时，Eureka 就认为「不是服务挂了，是我自己的网络有问题」。

进入自我保护后，Eureka 并不是停止服务。它仍然会接受新的注册、续约和查询请求，但会暂停或收敛过期实例剔除逻辑，避免把大量实例从注册表里删除。这样做能保证服务发现结果不会突然大面积变空，符合 Eureka 偏 AP 的设计思路。

但它的副作用也很明显：注册表里可能会保留已经真实死亡的实例，也就是常说的僵尸实例。消费者拿到这些实例后，仍然可能调用失败。所以自我保护不是故障恢复能力，它只是防止注册中心因为误判把故障扩大。

从架构角度看，Eureka 自我保护说明了一件事：注册中心不能单独承担实例可用性判断。注册中心只能提供粗粒度的健康状态，真正的调用可靠性还要靠客户端配合：

调用方必须设置连接超时和读超时，避免一直阻塞；
客户端负载均衡要支持失败实例临时剔除或降权；
重试必须换实例，不能一直重试同一个故障节点；
熔断、限流、降级要在调用链路上兜底；
注册中心返回空列表或突发大规模下线时，客户端要有推空保护和本地缓存兜底。

生产环境一般会保留自我保护能力，因为误删健康实例的代价通常比短时间保留僵尸实例更高。开发和测试环境为了方便调试，有时会关闭自我保护，让实例过期后更快剔除。但在线上系统里，不能把「注册中心是否剔除实例」当成唯一可靠的健康判断，客户端容错必须一起设计。

Eureka 自我保护是 AP 注册中心在网络异常下的保护机制。当心跳低于预期阈值时，它暂停大规模剔除，避免把网络问题误判成实例批量死亡。代价是可能保留僵尸实例，因此必须依赖客户端超时、重试、熔断、本地失败剔除和缓存保护共同兜底。

服务假死

服务假死是注册中心健康检查里很典型、也很容易被低估的问题。典型场景是：一个 Java 服务因为 Full GC、线程池耗尽、死锁、依赖阻塞等原因长时间无法处理业务请求，但进程还在，端口还在监听，TCP 连接也可能没有断。

这类故障和普通宕机不一样。普通宕机通常表现为进程退出、连接断开、端口不可达，注册中心或客户端比较容易发现；假死则是「看起来活着，但业务不可用」。需要区分进程存活、连接存活、应用存活、业务可用这几个层次。

先看 Eureka。Eureka 的健康判断主要依赖客户端主动心跳，默认 30 秒续约一次，Server 端 90 秒没有收到续约才认为实例过期。假设 JVM Full GC 卡了 90 秒，心跳线程也会被 Stop-The-World 冻住，续约发不出去。Eureka 最终会认为这个实例过期，但还要等剔除任务调度执行，默认剔除任务大约 60 秒跑一次，所以最坏情况下可能要 90 + 60 秒左右才真正从注册表里移除。

这说明一个问题：客户端心跳能发现一部分假死，但有明显窗口期，而且发现速度取决于心跳间隔、过期时间和剔除任务周期。在窗口期内，消费者仍然可能拿到这个假死实例。

再看 Nacos。Nacos 要区分临时实例和持久实例。临时实例主要依赖客户端心跳，默认心跳更频繁，通常 5 秒一次，15 秒左右标记不健康，30 秒左右剔除，整体比 Eureka 更激进。持久实例可以由服务端主动探测，比如 TCP、HTTP 或自定义健康检查。对于假死场景，TCP 探测只能证明端口通，不一定能证明业务可用；HTTP /health 如果能检查线程池、依赖资源、应用 readiness，就比单纯 TCP 更有效。

消费者侧的影响更关键。假死实例最危险的地方不是「调用立刻失败」，而是「调用长时间不返回」。如果消费者使用长连接和同步调用，请求可能一直阻塞到 read timeout。超时时间设置过长时，调用方线程池会被慢请求占满，连接池耗尽，排队请求继续堆积，最后把上游服务也拖垮。这就是很多线上雪崩的根源。

所以避免流量持续打到假死实例，不能只靠注册中心剔除，要做多层防护。

第一层是注册中心健康检查。心跳间隔和 TTL 要合理，过短会增加抖动和误杀，过长会扩大故障窗口。对于关键服务，可以结合 HTTP readiness 探测，而不是只看 TCP 是否连通。实例异常时可以先标记 UNHEALTHY 或 SUSPECT，再从发现结果中摘除，避免瞬时抖动导致误判。

第二层是客户端超时控制。所有 RPC 和 HTTP 调用都必须设置连接超时、读超时和整体 deadline。超时不能拍脑袋设置，要结合服务 P99、调用链深度和重试次数一起设计。没有超时的调用，在假死场景下就是雪崩入口。

第三层是客户端负载均衡的被动剔除。调用方连续多次访问某个实例超时或失败后，应该在本地把这个实例临时降权、隔离或熔断一段时间。这个动作不一定立刻同步给注册中心，因为单个调用方的失败可能是局部网络问题，但本地必须先保护自己。

第四层是熔断、限流和降级。某个下游实例或整个下游服务持续慢响应时，调用方要快速失败，释放线程和连接资源。重试也要谨慎，必须换实例，并且要限制重试次数，否则会把压力放大到其他健康节点。

第五层是可观测性。假死往往最先体现在 P99/P999 延迟升高、线程池活跃数打满、连接池等待增加、客户端超时率上升，而不是注册中心实例数变化。所以监控不能只看实例 UP/DOWN，还要看真实调用质量。

服务假死不是单纯的注册中心问题，而是实例健康判断和调用链路容错问题。注册中心负责提供基础健康状态，但它有检测窗口；真正避免雪崩，要靠客户端超时、失败实例隔离、熔断降级、合理重试和延迟监控共同完成。

注册中心整体宕机会怎么样

Nacos 集群三个节点全挂了，微服务系统还能不能继续跑？这个问题的关键不是简单回答「能」或「不能」，而是先判断注册中心是否在业务调用的实时主链路上。

成熟的微服务框架里，注册中心通常不在每一次 RPC 调用链路上。消费者不是每次调用都去注册中心查地址，而是在启动或订阅变更时拉取服务列表，然后缓存在本地。真正发起调用时，客户端 SDK 直接从本地实例列表里选一个节点。所以注册中心整体宕机后，存量服务之间的调用通常不会立刻中断。

但这不代表没有影响。影响要分几类看。

第一类是存量消费者调用存量提供者。只要消费者本地还有服务列表，连接池和负载均衡还能工作，调用就可以继续。Dubbo、Spring Cloud LoadBalancer、Nacos Client 这类客户端都会维护本地内存缓存，一些框架还会把服务列表持久化到磁盘快照，比如 Nacos Client 的 failover 缓存。客户端重启后，即使注册中心不可用，也可以从磁盘快照恢复一份旧服务列表。

第二类是新启动的提供者。注册中心不可用时，新实例注册不上去，即使实例本身已经启动，也不会被消费者发现。这会影响扩容、发布和故障恢复。

第三类是新启动的消费者。新消费者如果本地没有缓存，就无法从注册中心拉取服务列表，可能启动失败或进入降级状态。如果有磁盘快照，可以先用快照启动，但数据可能是旧的。

第四类是实例变化感知。注册中心宕机期间，提供者如果真实下线，消费者无法从注册中心获得变更通知，可能继续调用缓存里的旧实例。这个风险要靠客户端超时、失败实例临时剔除、熔断和重试兜底。

所以注册中心整体宕机时，正确的降级策略不是清空缓存，而是进入 failover 模式：继续使用本地缓存和磁盘快照，暂停基于注册中心的实例删除，禁止用空列表覆盖旧列表。这里的原则是：宁可服务列表旧一点，也不能因为注册中心故障把服务列表变成空。

要把影响降到最低，架构上要做几件事：

注册中心集群多节点、多机房部署，避免单点和单机房故障；
客户端维护内存缓存，并定期落磁盘快照；
协议上采用推拉结合，推送变更失败时靠定期全量拉取校正；
注册中心不可用时客户端进入 failover 模式，保留旧数据；
调用链路本身不能强依赖注册中心，每次请求不能实时查注册中心；
客户端必须具备超时、重试、熔断、本地失败剔除能力。

顺带看 Nacos 自身的高可用设计。生产环境通常至少部署 3 个节点，前面挂 SLB 或 Nginx 做接入负载均衡。Nacos 的 AP 模式使用 Distro 协议，适合临时实例注册发现：数据按责任节点分布，节点之间异步同步并定期对账，优先保证注册发现可用。CP 模式使用 JRaft，适合配置、持久实例和强一致元数据：牺牲部分可用性来保证数据不乱。

健康检查也对应分成两套：临时实例走客户端心跳，持久实例可以走服务端主动探测。这个分层和前面 CAP 章节说的是同一条主线：不同数据、不同场景，用不同的一致性和健康判断策略。

注册中心宕机不会立刻打断存量 RPC 调用，但会影响新实例注册、新消费者发现和实例变化感知。真正可靠的设计，是让客户端具备本地缓存、磁盘快照、推空保护和调用侧容错能力，把注册中心从每次调用的强依赖里拿出来。

大规模场景的优化

当注册中心从几千实例增长到十万级实例时，问题不再是「能不能存下服务列表」，而是心跳、长连接、订阅关系和变更推送共同带来的系统压力。面对这类问题，不能一上来就加机器，应该先做容量拆解。

注册中心的大规模压力主要来自四类数据：

实例数：决定注册表数据规模和心跳规模；
客户端数：决定长连接数量和查询压力；
订阅关系数：决定服务变更时要通知多少消费者；
变更频率：决定推送链路的峰值压力。

比如 10 万个实例，每 5 秒一次心跳，心跳 QPS 就是 2 万。如果有 20 万个客户端长连接，单机肯定扛不住。如果一个服务有 1000 个消费者订阅，提供者上下线一次要给 1000 个消费者推送变更；如果还是全量推送，每份服务列表 200KB，单次变更就是 200MB。发布期 100 个服务同时变更，瞬时推送量可能到 20GB/s 量级。

所以大规模注册中心的核心瓶颈通常不是存储，而是推送放大、连接管理、心跳压力和热点服务扇出。

这种场景下会出现两个典型问题。一个是「推送风暴」，短时间内大量服务变更触发广播式推送，把网络和 CPU 打爆。另一个是「惊群效应」，注册中心推送变更后所有客户端同时回拉，或者注册中心重启后所有客户端同时重连，瞬间把服务端打挂。

优化思路要分层看。

第一层是推送模型优化。传统做法是某个实例变更后推整个服务的实例列表，但大多数情况下客户端只需要知道哪个实例新增、下线或状态变化。因此服务端应该维护版本号和变更记录，客户端订阅时带上 lastVersion，服务端能推增量就推增量，版本差距太大或变更记录缺失时再退回全量。SOFARegistry 的 dataInfoId 增量同步就是类似思路。

第二层是推送节流和合并。发布时实例上下线通常是批量发生的，不能每个实例变化都立刻广播。可以把 100ms 到 1s 内同一个服务的多次变更合并成一次推送，对热点服务设置最大推送频率，对异常抖动实例做延迟确认或暂缓推送。这样牺牲一点点实时性，换来系统稳定性。

第三层是连接模型优化。Nacos 1.x 主要基于 HTTP 短连接和轮询，连接开销和实时性都有瓶颈；Nacos 2.x 引入 gRPC 长连接后，服务端可以更高效地维护订阅关系并主动推送变更。长连接不是为了炫技，而是为了减少短连接建连开销、降低轮询压力，并让推送链路可控。

第四层是数据分片和水平扩展。注册中心要按 namespace、serviceName、dataInfoId 或一致性哈希做分片，避免所有服务数据堆在一个节点。更进一步可以拆成多层架构：Session 层负责客户端连接和订阅，Data 层负责注册表数据和分片，Meta 层负责节点拓扑、分片路由和选主。SOFARegistry 的 Session / Data / Meta 三层结构就是这个方向，瓶颈在哪一层就扩哪一层。

第五层是订阅关系优化。很多客户端并不需要订阅所有服务，应该支持按需订阅、懒加载订阅、冷热服务区分和长期未使用订阅回收。服务变更只推给真正订阅该服务的客户端，不能做全局广播。

第六层是心跳优化。心跳不能变成强一致写放大，临时实例心跳应尽量走内存状态机。长连接在线状态可以减少一部分应用层心跳压力，但不能完全替代应用健康检查。生产里通常要结合长连接存活、租约 TTL、应用 readiness 和客户端失败反馈综合判断。对于大规模场景，还可以做心跳合并、心跳间隔自适应和异常实例重点探测。

第七层是隔离和限流。Namespace 隔离环境，Group 隔离业务线，Cluster 或 Zone 隔离机房，本质上都是缩小故障爆炸半径。注册、心跳、订阅、推送都要有限流和优先级，过载时优先保住存量订阅和核心服务，必要时拒绝新订阅或降低推送频率。

SOFARegistry 重点在三层架构、AppRevision 共享元数据和 dataInfoId 增量推送；Nacos 2.x 的关键演进是从 HTTP 短连接走向 gRPC 长连接；云厂商的 MSE 会进一步增强推空保护、无损上下线、离群实例摘除等生产能力；Polaris 则把注册发现和服务治理能力做得更一体化。

大规模注册中心优化的核心不是单纯加机器，而是降低推送放大、拆分连接和数据职责、控制订阅关系、优化心跳模型，并通过分片、限流、隔离和客户端缓存把故障影响控制在局部。

无损上下线

无损上下线解决的是发布、扩缩容、故障迁移时的流量切换问题。它的目标不是让实例永远不失败，而是让实例状态变化被注册中心、消费者、负载均衡和容器平台按正确顺序感知，尽量避免新流量打到正在退出的实例，也避免新实例还没准备好就接收全量流量。

先看下线。最差的做法是直接 kill -9。这会带来三类问题：正在处理的请求被强制中断，事务、消息 ACK、缓存刷新都可能处在中间状态；注册中心不知道实例已经退出，只能等心跳 TTL 超时后再剔除；消费者本地缓存还保留旧地址，在感知到变更前会继续把流量打到这个实例。

优雅下线的核心是状态机，而不是简单调用一个 deregister。比较好的流程是：

UP
 -> OUT_OF_SERVICE / DRAINING
 -> 停止接收新请求
 -> 等待注册中心变更推送和客户端缓存更新
 -> 处理完存量请求
 -> DEREGISTERED
 -> 关闭连接池和进程

应用收到 SIGTERM 后，第一步应该把自己标记为 OUT_OF_SERVICE 或 DRAINING，主动通知注册中心不要再把它返回给新请求。注册中心把变更推送给订阅客户端后，应用需要等待一个传播窗口，让消费者本地缓存有时间更新。之后再停止接收新请求，同时继续处理已经进入实例的存量请求。最后再关闭连接池、线程池和进程。

这里有两个顺序很关键。第一，不能先停服务再通知注册中心，否则消费者还没感知下线，就已经开始调用失败。第二，不能立刻断开已有长连接，否则正在处理的请求会被中断。正确做法是先摘流，再 drain，最后退出。

新实例上线的冷启动也是个大坑。新实例刚启动时 JIT 还没编译热点代码（解释执行慢 10-100 倍），类没加载完，连接池没预热，本地缓存是空的，JVM 堆还没到稳态。如果直接接收全量流量，P99 会飙升 10 倍，严重时直接触发熔断。

所以上线也要有状态机。应用启动后不要马上注册为 UP，而是先完成应用初始化、依赖连接建立、缓存预热、热点代码预热和健康检查。注册中心或客户端负载均衡可以支持 warmup：新实例先以低权重接流量，比如 1% 或 5%，再在几分钟内逐步升到正常权重。如果新实例 P99 明显偏高，客户端还要能自动降权。

K8s 环境下还要处理容器平台和注册中心的协同。K8s 有三种探针，职责不同：

startupProbe：给慢启动应用足够启动时间，避免还没启动完就被 liveness 杀掉；
readinessProbe：决定是否加入 K8s Service Endpoints，也就是是否接收流量；
livenessProbe：判断进程是否需要重启，阈值要谨慎，不能把短暂慢响应误杀。

无损下线最大的坑是 Endpoints 更新延迟。kubectl delete pod 后，K8s 会从 Endpoints 移除 Pod，同时向容器发 SIGTERM。但 Endpoints 变化传播到 kube-proxy、Ingress、客户端还需要时间。解决办法是在 preStop 里先主动把应用切到 offline，触发 readiness 失败并向注册中心 deregister，再 sleep 一段时间等待变更传播。

如果应用既注册到 Nacos 又被 K8s Service 管理，会有「双重发现」的问题：K8s 这边已经移除了，Nacos 那边还要 30 秒才剔除，从 Nacos 发现的消费者会打到已死实例。解决办法是 preStop hook 里主动调用应用自己的 offline 接口，让应用先把 readiness 置为 false，并主动向 Nacos deregister。

生产级的 YAML 大致长这样：

spec:
  terminationGracePeriodSeconds: 60
  containers:
    - name: app
      startupProbe:
        httpGet:
          path: /actuator/health
          port: 8080
        failureThreshold: 30
        periodSeconds: 10
      readinessProbe:
        httpGet:
          path: /actuator/health/readiness
          port: 8080
        periodSeconds: 5
        failureThreshold: 3
      livenessProbe:
        httpGet:
          path: /actuator/health/liveness
          port: 8080
        periodSeconds: 10
        failureThreshold: 5
      lifecycle:
        preStop:
          exec:
            command: ["sh", "-c", "curl -X POST http://127.0.0.1:8080/internal/offline || true; sleep 30"]

无损上下线本质是实例状态在注册中心、消费者、本地负载均衡和 K8s 控制面之间的有序传播。下线要先摘流再退出，上线要先预热再逐步接流量，中间用 readiness、deregister、静默等待、存量请求 drain 和 warmup 权重共同保证状态变化不会被流量放大成故障。

设计一个支撑百万实例的注册中心

设计百万实例注册中心，先要把规模、读写模型、一致性要求和部署形态说清楚，否则方案很容易变成空泛的“大集群 + 分片”。

可以先做几个假设：100 万 Provider 实例、200 万 Consumer 客户端、10000 个服务，平均每个服务 200 个订阅者，日常变更 10 次/秒，发布峰值 1000 次/秒，服务发现偏 AP，配置和管理元数据偏 CP，部署在 3 个机房，多语言客户端接入。

先做容量估算：

实例数据：单实例元数据按 2KB 算，100 万实例约 2GB，内存能放下，但要分片以降低单节点 GC 和复制压力；
心跳压力：100 万实例如果 5 秒一次心跳，就是 20 万 QPS，不能都做强一致写入；
长连接压力：100 万 Provider 加 200 万 Consumer 是 300 万级连接，必须水平扩展；
推送压力：如果全量推送，峰值 1000 次变更/秒 × 200 订阅者 × 200KB 服务列表，约 40GB/s，必须改成增量推送；如果增量事件约 2KB，峰值可以降到约 400MB/s。

这些数字会直接决定架构结论：连接层要水平扩展，数据层要分片，推送必须增量化，心跳不能进入强一致日志，跨机房不能做高频强同步。

整体架构可以借鉴 SOFARegistry 的三层模型：Session 层、Data 层、Meta 层。

                    全局 Meta 集群 (CP, 3 节点 Raft)
                              │
        ┌─────────────────────┼─────────────────────┐
   机房 A                    机房 B                 机房 C
   Session 层 (100 节点) ◄──► Session 层  ◄──────► Session 层
        │                     │                     │
   Data 层 (20 节点) ◄──────► Data 层  ◄──────────► Data 层
        │                     │                     │
   Provider / Consumer     Provider / Consumer    Provider / Consumer

Session 层负责客户端接入、长连接维护、订阅关系管理和变更推送。它尽量无状态，客户端通过 DNS、SLB 或注册中心自身的接入路由就近连接。如果按单节点 3 万长连接估算，300 万连接需要约 100 个 Session 节点，再预留容量冗余。

Data 层负责注册表数据存储、实例状态维护和变更版本管理。数据按 namespace + serviceName 或 dataInfoId 分片，同一个服务的实例尽量落在同一个分片，避免一次服务发现跨多个 Data 节点聚合。每个分片至少多副本，临时实例状态偏 AP，注册、注销和变更事件异步复制。

Data 节点上的核心数据结构可以简化成这样：

class ServiceData {
    String serviceName;
    long version;                          // 增量推送的核心
    Map<String, Instance> instances;
    List<ChangeRecord> changeHistory;      // 最近 N 次变更
}

Meta 层负责集群拓扑、分片路由表、Data 节点分配、配置和治理元数据。它的数据量小、变更频率低，适合用 Raft 做 CP。Meta 层不可用时，已有拓扑和数据流应继续工作，只是暂停扩缩容、分片迁移和管理变更。

协议设计的核心是增量化和版本化。客户端订阅服务时带上本地 lastVersion，服务端根据版本差距决定推增量还是全量。版本差距小、变更记录还在，就推增量；客户端版本太旧或变更历史已经被压缩，就推全量快照。推送还要做窗口合并、限频、回压和 ACK，客户端错过增量时可以主动回拉全量。

心跳不能简单设计成所有实例每 5 秒一次强一致写入。临时实例心跳应走内存状态机，结合租约 TTL、长连接状态、应用 readiness 和客户端失败反馈综合判断。注册、注销、元数据变更可以进入事件日志，但高频心跳不能把一致性系统打穿。

跨机房设计上，客户端优先接入本机房 Session，服务实例带 zone 或 region 标签。Data 层跨机房异步复制，保证最终一致；Meta 层如果要跨机房 Raft，需要控制写入频率和网络延迟，如果延迟不可接受，可以做每机房自治 Meta，再用全局控制面同步低频拓扑。服务发现结果优先返回同 zone 实例，异地实例作为容灾 fallback。

可靠性设计必须同时覆盖服务端和客户端。客户端 SDK 至少要做几件事：本地内存缓存服务列表、磁盘快照应对客户端重启、Session 节点故障自动切换、按 zone 就近路由、失败实例本地隔离，以及推空保护。

推空保护尤其关键。注册中心返回空列表时，客户端不能无条件覆盖本地旧缓存。可以做类似这样的保护：

if (newList.isEmpty() && oldList.size() > threshold) {
    log.error("Suspicious empty push detected, abort!");
    return;
}

服务端也要有分层降级：Data 层局部故障时，Session 层可以返回最近缓存的旧数据；Meta 层故障时，暂停拓扑变更，保住现有数据流；整体过载时，优先保住存量连接和核心服务，拒绝低优先级新订阅或降低推送频率。

SLA 可以这样定义：服务发现可用性 99.99%，注册延迟 P99 < 500ms，推送延迟 P99 < 1s，跨机房一致性窗口在秒级，整体过载时优先保证读发现和存量订阅。

最后要讲演进路线。不要一上来就做百万实例架构，复杂度会过早吞掉团队。比较合理的路线是：

1 万实例以内：单集群 Nacos / Eureka 加客户端缓存基本够用；
1 万到 10 万实例：Nacos 集群、长连接、命名空间隔离、推送合并、客户端缓存优化；
10 万到百万实例：三层架构、数据分片、增量推送、跨机房多活、独立控制面和完善的降级体系。

百万实例注册中心的核心不是把单体注册中心做大，而是把连接、数据、元数据控制面拆开，让 Session、Data、Meta 分别扩展；同时用增量推送、客户端缓存、推空保护、分片隔离和跨机房容灾，把高频变化控制在局部。

双机房 200 微服务的注册中心怎么设计

这个场景比百万实例小很多，但更考验取舍。因为规模不大，没必要一上来设计复杂三层平台；但因为是双机房，又必须讲清楚一致性、容灾、冲突合并和客户端降级。

先给容量口径。假设 200 个服务，每个服务平均 20 个实例，总实例数约 4000；实例每 5 秒心跳一次，心跳 QPS 约 800；如果有 3000 个客户端，每个客户端订阅 20 个服务，订阅关系约 60000。这个规模下，瓶颈不是注册表存储，而是长连接维护、心跳处理和发布时的变更推送扇出。

设计目标可以定成：本机房注册发现优先可用，跨机房最终一致；注册中心故障时不影响存量调用；双机房网络中断时两个机房能独立运行；网络恢复后能合并数据，不能让已下线实例被旧事件复活。

整体一致性模型建议定成一句话：临时实例 AP、管理元数据 CP、跨机房最终一致。 临时实例注册、心跳、健康状态走高可用路径；服务元数据、命名空间、权限、持久实例、手工上下线走强一致路径；跨机房不做高频强同步，而是异步复制和最终收敛。

数据模型分成 Service、Instance、ChangeEvent 三类。Service 只描述服务本身：

Service {
  namespace, group, serviceName,
  owner, protectThreshold, metadata
}

Instance 承载所有运行时属性，version、灰度标签、权重、机房都放这里：

Instance {
  instanceId, serviceName,
  ip, port, protocol,
  weight, status,
  dataCenter, zone, version, tags,
  ephemeral, lastHeartbeatTime, metadata
}

跨机房同步需要事件模型，带版本号和时间戳处理乱序，删除事件保留 tombstone：

ChangeEvent {
  eventId, serviceName, instanceId,
  operation,        # REGISTER / DEREGISTER / UPDATE
  version,          # 递增版本号
  timestamp, sourceDataCenter
}

模块上可以拆成接入层、注册实例管理、健康检查、服务发现与订阅、跨机房同步、存储与快照、监控运维几部分。接入层负责鉴权、限流、协议适配和就近路由；注册实例管理负责注册、注销和状态机；服务发现层负责本地缓存、增量推送和定期全量校验；同步层负责机房内复制和跨机房事件同步。

注册流程上，实例启动后优先注册到本机房。临时实例可以由本机房接入节点先接收，写入内存状态机，再异步同步给同机房其他节点；持久实例、命名空间、服务元数据和手工上下线走 Raft 或类似 CP 协议，保证机房内一致。注册成功后生成 ChangeEvent，推送给订阅该服务的客户端，同时异步同步到另一机房。

心跳是最容易写错的地方。实例每 5 秒发一次，TTL 设 30 秒，注册中心只更新内存里的 lastHeartbeatTime，不写日志。超过 TTL 不立刻删，先标记 UNHEALTHY 或 SUSPECT，连续几个周期都异常才摘除，防止短暂 GC 或网络抖动误杀。大面积心跳失败时触发保护，不批量删——这种情况更可能是注册中心自身网络异常（和 Eureka 自我保护一个思路）。

服务发现这边，客户端启动时全量拉取，本机房优先返回，本机房全挂时再返回异地兜底。变更通过长连接推送增量事件，客户端本地缓存 + 定期全量校验防丢失。注册中心不可用时客户端继续用本地缓存，不立即失败。调用失败的实例可以本地临时降权，但不应该仅凭单个调用方的失败就要求注册中心摘除实例——单点信号不能成为全局决策依据。

双机房架构上，每机房 3 节点 Raft 集群，跨机房双向异步同步。最关键的设计是实例状态按归属机房拥有写主权：dc-a 的实例只由 A 机房产生写操作，B 机房只保存副本；反过来一样。大部分场景下根本不会出现两边同时写同一份数据的冲突。双机房网络断开时两边独立运行，恢复后通过版本号和 tombstone 合并，冲突以归属机房的事件为准。

容灾上有一点需要特别强调：本机房注册中心全挂、业务实例还活着的时候，客户端应该优先继续用本地缓存调用本机房实例，而不是立刻切到异地——异地切换本身就是放大故障范围的操作，要谨慎。只有当本机房调用失败率持续升高，才逐步切换异地实例。

这个规模下可以每个机房部署 3 个注册中心节点，形成本机房自治集群，客户端配置本机房节点为主、异地节点为备。读发现优先走本机房，服务数据放内存，注册注销进事件日志，心跳只更新内存状态。发布时变更事件按服务维度在 500ms 到 1s 窗口内合并去重，只推给订阅相关服务的客户端，避免全量广播。

这道题可以总结成一句话：双机房 200 微服务的注册中心不需要上来就做百万实例级三层架构，但必须把一致性边界讲清楚。临时实例和健康状态优先可用，管理元数据保持强一致，跨机房按实例归属异步复制；客户端用本地缓存、失败降权、推空保护和异地 fallback 保证调用连续性。

这类设计题常见追问可以用几个回答骨架兜住：

3 节点挂 2 个时，临时实例还能不能注册？ 如果临时实例完全走 AP，可以允许本地接入节点临时接收注册，标记为 local-only 或 pending，等集群恢复后通过版本号和事件日志同步；但服务元数据、权限、命名空间、持久实例这类 CP 数据不能写。如果系统实现上所有注册都依赖 Raft 多数派，那就不能宣称注册侧 AP，只能说「读发现尽量可用，写注册受多数派约束」。

心跳只写内存，节点重启后怎么恢复？ 健康状态本来就是租约状态，不是必须长期持久化的事实数据。节点重启后可以从同机房其他节点拉取一份当前内存快照，也可以要求客户端在短窗口内重新续约。恢复期间不要推空，不要把未知状态直接当成 DOWN，可以先标记 UNKNOWN / SUSPECT，等续约或超时后再收敛。

双机房断网后怎么合并？ 核心是写主权。dc-a 的实例状态由 A 机房说了算，dc-b 的实例状态由 B 机房说了算，异地只保存副本。事件带递增版本号，删除事件保留 tombstone，网络恢复后按实例归属机房和版本号合并，避免旧 REGISTER 覆盖新 DEREGISTER。

客户端缓存过期怎么办？ 注册中心不可用时不能因为缓存 TTL 到期就清空实例列表，应该进入 failover 模式继续使用旧缓存，同时加强本地失败剔除和熔断。缓存里的实例如果真实下线，靠调用失败、超时、连接错误在客户端临时降权或隔离；单个调用方的失败反馈可以上报注册中心做参考，但不能直接成为全局摘除依据。

推送风暴怎么防？ 变更事件最好按服务维度合并推，不要每个实例变更都立即广播。服务端做窗口合并、去重、限频和回压；客户端带版本号 ACK，错过增量时回退到全量拉取。推送链路异常时，优先保住存量订阅和旧缓存，必要时拒绝新订阅。

注册中心的职责边界与灰度路由

注册中心的边界感很重要。一个成熟的架构师不只要能说清楚注册中心能做什么，还要能说清楚它不应该做什么。注册中心的核心职责是维护服务实例目录、实例健康状态和发现元数据，而不是承接所有服务治理逻辑。

先把几个容易混的组件边界拆开。

注册中心和配置中心。 两者形态很像，都是「数据存储 + 变更推送 + 客户端缓存」，Nacos 这类产品也经常把两者放在一起。但它们管理的数据不同：注册中心管的是实例的存在、地址、状态和发现元数据，数据小、变化频繁、临时实例偏 AP；配置中心管的是应用参数、开关、规则和策略，变更频率低，但错误代价高，通常更偏 CP。产品可以合并，内部数据通路和一致性模型不应该混在一起。

注册中心和服务网关。 网关是流量入口，处理外部流量进入内部系统时的路由、鉴权、限流、协议转换、审计等能力。注册中心是服务发现控制面，给网关或客户端 SDK 提供后端实例列表。网关可以从注册中心拿地址，但注册中心不处理请求流量。

注册中心和负载均衡器。 负载均衡器负责在一批候选地址里选择一个目标实例；注册中心负责告诉调用方有哪些候选地址。传统架构里负载均衡可能是 Nginx、F5 这类独立组件；微服务里更多下沉到客户端 SDK、Sidecar 或网关。无论放在哪里，选址决策都不应该由注册中心在每次请求时完成。

所以治理能力的放置原则是：注册中心做数据，数据面做决策。

注册中心可以存储和下发治理相关元数据，比如版本、标签、权重、机房、分组、健康状态、实例能力标识；但限流、熔断、重试、超时、请求级路由这类动作应该发生在客户端 SDK、网关或 Service Mesh Sidecar。原因很简单：这些动作依赖每一次调用的上下文，比如用户、请求路径、调用耗时、错误率、当前负载，注册中心不在请求路径上，不应该为了做这些决策把自己变成数据面组件。

灰度发布就是这个边界的典型例子。注册中心不直接决定「这次请求要不要打到灰度实例」，它只维护实例身份和发现元数据：

Instance.metadata = {
  "version": "v2",
  "gray-group": "canary"
}

新版本上线时，实例注册为 version=v2、gray-group=canary。客户端 SDK、网关或 Sidecar 拿到实例列表后，再结合路由规则决定流量分配。比如 10% 用户进入 canary，指定租户进入 v2，内部账号优先访问新版本。这些规则更适合放在配置中心或专门的治理控制面，而不是写死在注册中心里。

标签路由、版本路由、区域路由也是同一个套路：注册中心存元数据，数据面按规则筛选实例。区域路由按 zone 优先选同机房实例；版本路由按 version 匹配；A/B 测试按用户 ID 哈希选择实验组，再筛选带有对应 group 标签的实例。

这里还要补一条安全边界：注册中心应该承担接入鉴权和服务发现授权，比如谁可以注册某个服务、谁可以发现某个服务；但它不应该承担业务请求鉴权。前者是控制面安全，后者是数据面安全，应该由网关、服务端或服务网格处理。

这道题可以总结成一句话：注册中心是服务发现控制面，负责维护可发现的数据；网关、客户端 SDK、Sidecar 才是请求数据面，负责基于这些数据做限流、熔断、负载均衡和灰度路由。边界守住了，注册中心才不会变成复杂且脆弱的万能治理中心。

抖动实例和非法注册的防护

注册中心不能假设所有客户端都是健康、可信、行为稳定的。生产环境里经常遇到两类问题：一类是实例频繁上下线，导致推送风暴；另一类是脏实例或非法实例注册进来，污染服务发现结果。

先看抖动实例。所谓抖动，就是同一个实例在短时间内反复注册、下线、健康、不健康。它的危害不只是这个实例本身不可用，更严重的是每次状态变化都会触发订阅推送。如果一个服务有 1000 个消费者订阅，一个实例一分钟上下线 10 次，就会被放大成 10000 次推送事件，规模上来后会拖垮推送链路。

抖动实例的防护目标不是“修好实例”，而是防止单个异常实例把注册中心和所有消费者拖下水。可以分几层做。

第一层是注册和状态变更限频。同一个 instanceId 在短时间内反复注册、注销或健康状态翻转，超过阈值后进入退避状态。注册中心可以拒绝一段时间的新注册，也可以延迟处理变更，避免频繁触发推送。

第二层是状态稳定窗口。实例刚注册或刚恢复健康时，不一定马上推给所有消费者，可以先进入 STARTING 或 SUSPECT 状态，等待几秒稳定窗口。如果窗口内又下线，就不对外推送这次短暂变化。这个策略可以过滤掉大量启动失败、健康检查抖动和短暂网络抖动。

第三层是异常实例标记。注册中心可以维护实例维度的 flapping 计数，超过阈值后把实例标记为 FLAPPING，从正常发现结果里排除或降低权重，同时保留在控制台和审计日志里方便排查。这样既不让它继续影响流量，也不丢失排障证据。

第四层是推送合并和回压。即使状态真的变化，也不要每次变化都立即广播。对同一个服务做窗口合并、去重和限频，推送链路压力过高时优先保住核心服务和存量订阅。

第五层是客户端本地保护。客户端 SDK 不能完全依赖注册中心全局状态。对频繁失败、慢响应或刚刚恢复的实例，客户端可以本地降权、隔离一段时间或走慢启动，避免抖动实例刚恢复就被瞬间打满。

再看脏实例和非法注册。脏实例是注册表里存在、但实际不可用或不应该被发现的实例，比如端口没监听、应用未 ready、IP 被回收、旧实例残留。非法注册则是没有权限的客户端注册服务，甚至冒充别的服务，把流量引到错误地址。

这类问题要按“注册前、注册时、注册后”防护。

注册前要做身份认证。生产环境最好使用 mTLS、服务身份凭证、工作负载身份或签名 token。注册中心要知道“这个客户端是谁”，不能只靠来源 IP，因为容器、NAT、Sidecar、节点代理场景下 source IP 不一定可信。

注册时要做授权校验。应用身份必须和 serviceName 匹配，不能让支付服务注册成订单服务，也不能让测试环境实例注册到生产命名空间。namespace、group、serviceName、instance metadata 都要有校验规则。

注册后要做可用性校验。注册成功不等于实例可用，实例可以先进入 STARTING，等 readiness 通过后再变成 UP。必要时注册中心对新实例做轻量探测，比如 HTTP /health，但不能把主动探测扩大成对所有实例的高频扫描。

接入层还要做频率限制。单 IP、单应用、单 serviceName 的注册、注销、心跳、订阅都要有限流，避免异常客户端或恶意客户端制造海量实例、海量订阅或高频心跳打爆注册中心。

最后是审计和对账。所有注册、注销、元数据变更、权限拒绝、异常状态翻转都要进入审计日志。注册中心还可以定期和部署平台、CMDB、K8s API 做对账，发现“不存在的实例”“跨环境注册”“实例数异常增长”这类问题。

这道题可以总结成一句话：注册中心要把客户端当成不完全可信的输入源。对抖动实例要限频、稳定窗口、异常标记和推送回压；对非法注册和脏实例要做身份认证、注册授权、readiness 校验、限流审计和平台对账。防护目标不是消灭所有异常，而是避免异常实例污染服务发现结果或拖垮注册中心。

不停服升级和监控告警

注册中心是基础设施，升级和监控不能按普通业务系统来答。业务系统升级失败，影响的是某条业务链路；注册中心升级失败，可能影响所有服务的注册、续约、发现和变更感知。

所以这道题要先讲目标：不中断存量注册发现、不丢实例变更、不破坏客户端兼容、问题可回滚、故障可提前发现。

先看不停服升级。

第一，发布方式必须是滚动升级，而不是整集群重启。升级单个节点前，先把它从接入层摘除，让新连接不要再进来；然后把节点标记为 draining，不再承接新的写请求和订阅请求；已经存在的长连接通过 graceful shutdown 通知客户端重连到其他节点。客户端 SDK 也要支持多地址重试、指数退避和本地缓存兜底，否则服务端做了优雅下线，客户端还是可能集体重连打爆剩余节点。

第二，要处理集群角色。注册中心如果使用 Raft、JRaft 或类似一致性协议，升级前要先判断节点角色：优先升级 follower，最后升级 leader；如果当前节点是 leader，要先主动让贤，再执行升级。整个过程中必须保证多数派存活，不能一次升级超过一个投票节点。否则升级本身就可能触发不可写，甚至因为频繁选主导致注册和元数据写入抖动。

第三，要按模块依赖顺序升级。如果注册中心拆成接入层、会话层、数据层、元数据层，通常先升无状态或弱状态的接入层、会话层，再升数据层，最后升控制台和管理面。原因是接入层最容易回滚，数据层和元数据层一旦涉及存储格式变化，风险最高。对于双机房场景，还要避免两个机房同时大版本升级，应该先选一个非主流量机房做金丝雀，观察注册成功率、心跳成功率、推送延迟、同步延迟都稳定后，再扩大范围。

第四，要考虑协议兼容。注册中心长期面对的是大量不同版本的客户端 SDK，不能假设客户端会和服务端同步升级。新服务端必须兼容旧客户端，常见做法是双协议或多版本协议共存：服务端根据客户端版本做协议协商，旧客户端继续走旧协议，新客户端逐步切到新协议。等旧 SDK 占比降到可接受范围，再下线旧协议。这个周期往往按月计算，不能只按一次发布窗口设计。

第五，要考虑数据兼容。服务实例、元数据、订阅关系、路由标签这些数据一旦改 schema，要优先采用向后兼容的扩展字段，而不是直接改字段语义。比较稳的迁移方式是“先读兼容、再双写、再切读、最后清理”：新版本先能读旧数据，再同时写旧格式和新格式，确认所有节点都升级后再切到新格式读取，最后在下一个版本清理旧字段。这样即使中途回滚，老版本也不会因为读不懂数据而崩。

第六，回滚预案要和升级方案一起设计。回滚不是把二进制换回去这么简单，还要确认旧版本能处理升级期间产生的数据、客户端能重新连回旧协议、快照和日志能被旧版本识别。没有数据向后兼容的升级，严格来说就没有真正的快速回滚能力。

再看监控告警。注册中心的监控不能只看机器活没活，要从“业务是否还能正确发现实例”这个目标反推。

第一类是可用性指标：注册成功率、续约成功率、发现成功率、注销成功率、推送成功率。它们直接对应注册中心的核心 SLA，要按机房、命名空间、服务、客户端版本拆维度。只看全局平均值没有意义，因为一个核心服务发现失败，哪怕全局成功率还很高，也可能已经是生产事故。

第二类是延迟指标：注册延迟、发现延迟、心跳处理延迟、变更推送延迟、跨机房同步延迟。这里重点看 P99 和 P999，而不是平均值。注册中心很多故障不是完全不可用，而是长尾变大：少量客户端拿不到最新列表，少量服务一直续约超时，最后表现成业务侧偶发超时和调用失败。

第三类是容量指标：在线实例数、服务数、订阅关系数、长连接数、心跳 QPS、推送 QPS、推送队列积压、CPU、内存、GC 时间、网络带宽。容量指标的价值不是事故发生后定位，而是提前告诉你什么时候该扩容、拆分集群或优化推送模型。

第四类是一致性和异常指标：Raft leader 切换次数、日志复制延迟、快照生成耗时、跨机房同步堆积、服务版本号差距、推空保护触发次数、异常下线实例数、抖动实例数。这类指标最能暴露注册中心自身的问题，比如网络分区、选主抖动、同步链路阻塞、健康检查误杀。

第五类是客户端反馈指标，这一层经常被忽略，但最接近真实用户影响。客户端 SDK 要上报本地缓存命中率、基于过期实例发起调用的比例、调用到不可用实例的比例、重连次数、订阅版本落后时间。注册中心自身显示一切正常，不代表业务调用没有受到脏数据影响。

告警要分级，不能所有异常都打成最高级。

P0 是全局性或核心链路不可用，例如多数派丢失导致整体不可写、核心服务无法发现、注册中心返回空列表且推空保护大面积触发、双机房同时不可用。这类告警需要立即唤起。

P1 是已经明显影响业务稳定性的故障，例如注册成功率或发现成功率大幅下降、核心服务推送延迟持续超过阈值、大量客户端只能依赖过期缓存调用、单机房注册中心不可用并发生跨机房切换。

P2 是局部故障或有扩大风险的问题，例如跨机房同步延迟持续升高、某一批节点推送队列积压、leader 频繁切换、长连接数异常突降、某个客户端版本错误率异常。

P3 是容量和单点预警，例如单节点 CPU、内存、GC、磁盘水位超过阈值，某些服务订阅数异常增长，心跳 QPS 接近容量上限。这类告警主要用于提前处理，不应该频繁打扰全员。

注册中心的工程化能力，本质上是把“发布、兼容、回滚、监控、告警、客户端兜底”做成闭环。只会讲滚动升级和几个监控指标，说明还停留在组件使用层；能讲清楚长连接迁移、协议兼容、数据兼容、告警分级和客户端反馈，才算真正站在基础设施负责人的视角看问题。

一共十二道题，从最基础的「注册中心解决了什么问题」开始，逐步问到设计、治理、防护、工程化几个方向，难度递进。下面按题目顺序来。

先放一个速查表，方便面试前快速过一遍主线：

题目	主要考点	答题关键词
注册中心解决什么问题	基础定位	动态地址、服务解耦、治理元数据、客户端发现
CAP 怎么选	一致性权衡	临时实例 AP、管理元数据 CP、客户端缓存
服务假死	故障识别	超时、熔断、被动摘除、P99 监控
注册中心宕机	容灾降级	内存缓存、磁盘快照、推拉结合、推空保护
大规模优化	容量设计	分片、增量推送、长连接、订阅关系压缩
无损上下线	状态传播	主动注销、静默等待、readiness、preStop
百万实例设计	架构拆分	Session / Data / Meta、容量估算、跨机房多活
双机房设计	冲突处理	写主权、tombstone、就近访问、异地兜底
职责边界	系统边界	注册中心做数据，不做请求级决策
工程化	生产稳定性	滚动升级、协议兼容、监控分级、回滚预案

注册中心到底解决了什么问题

从架构师视角看，注册中心解决的不是单纯的「地址管理」问题，而是微服务体系里的动态服务目录、服务身份解耦和实例状态传播问题。

注册中心应该选 CP 还是 AP

主流产品的差异，本质上也是对不同数据和不同场景的取舍：

产品	模式	一致性协议
Eureka	AP	基于 HTTP 的对等复制
Zookeeper	CP	ZAB
Nacos	AP / CP 可选	Distro / JRaft
Consul	CP	Raft
etcd	CP	Raft

注意 Nacos 是两种都支持的，AP 用 Distro 协议，CP 用 JRaft，分别服务不同场景，这点后面会再说。

Eureka 的自我保护机制

这个问题不能只说「大规模心跳异常时不剔除实例」，更应该从注册中心的 AP 取舍、误删风险和客户端容错几个层次来解释。

问题在于，Eureka Server 很难准确区分两种情况：

服务实例真的挂了，所以心跳发不上来；
Eureka Server 和大量客户端之间出现网络抖动、分区或负载异常，服务实例其实还活着，但心跳没有及时到达。

调用方必须设置连接超时和读超时，避免一直阻塞；
客户端负载均衡要支持失败实例临时剔除或降权；
重试必须换实例，不能一直重试同一个故障节点；
熔断、限流、降级要在调用链路上兜底；
注册中心返回空列表或突发大规模下线时，客户端要有推空保护和本地缓存兜底。

服务假死

所以避免流量持续打到假死实例，不能只靠注册中心剔除，要做多层防护。

注册中心整体宕机会怎么样

但这不代表没有影响。影响要分几类看。

第二类是新启动的提供者。注册中心不可用时，新实例注册不上去，即使实例本身已经启动，也不会被消费者发现。这会影响扩容、发布和故障恢复。

要把影响降到最低，架构上要做几件事：

注册中心集群多节点、多机房部署，避免单点和单机房故障；
客户端维护内存缓存，并定期落磁盘快照；
协议上采用推拉结合，推送变更失败时靠定期全量拉取校正；
注册中心不可用时客户端进入 failover 模式，保留旧数据；
调用链路本身不能强依赖注册中心，每次请求不能实时查注册中心；
客户端必须具备超时、重试、熔断、本地失败剔除能力。

大规模场景的优化

注册中心的大规模压力主要来自四类数据：

实例数：决定注册表数据规模和心跳规模；
客户端数：决定长连接数量和查询压力；
订阅关系数：决定服务变更时要通知多少消费者；
变更频率：决定推送链路的峰值压力。

所以大规模注册中心的核心瓶颈通常不是存储，而是推送放大、连接管理、心跳压力和热点服务扇出。

优化思路要分层看。

无损上下线

优雅下线的核心是状态机，而不是简单调用一个 deregister。比较好的流程是：

UP
 -> OUT_OF_SERVICE / DRAINING
 -> 停止接收新请求
 -> 等待注册中心变更推送和客户端缓存更新
 -> 处理完存量请求
 -> DEREGISTERED
 -> 关闭连接池和进程

K8s 环境下还要处理容器平台和注册中心的协同。K8s 有三种探针，职责不同：

startupProbe：给慢启动应用足够启动时间，避免还没启动完就被 liveness 杀掉；
readinessProbe：决定是否加入 K8s Service Endpoints，也就是是否接收流量；
livenessProbe：判断进程是否需要重启，阈值要谨慎，不能把短暂慢响应误杀。

生产级的 YAML 大致长这样：

spec:
  terminationGracePeriodSeconds: 60
  containers:
    - name: app
      startupProbe:
        httpGet:
          path: /actuator/health
          port: 8080
        failureThreshold: 30
        periodSeconds: 10
      readinessProbe:
        httpGet:
          path: /actuator/health/readiness
          port: 8080
        periodSeconds: 5
        failureThreshold: 3
      livenessProbe:
        httpGet:
          path: /actuator/health/liveness
          port: 8080
        periodSeconds: 10
        failureThreshold: 5
      lifecycle:
        preStop:
          exec:
            command: ["sh", "-c", "curl -X POST http://127.0.0.1:8080/internal/offline || true; sleep 30"]

设计一个支撑百万实例的注册中心

设计百万实例注册中心，先要把规模、读写模型、一致性要求和部署形态说清楚，否则方案很容易变成空泛的“大集群 + 分片”。

先做容量估算：

实例数据：单实例元数据按 2KB 算，100 万实例约 2GB，内存能放下，但要分片以降低单节点 GC 和复制压力；
心跳压力：100 万实例如果 5 秒一次心跳，就是 20 万 QPS，不能都做强一致写入；
长连接压力：100 万 Provider 加 200 万 Consumer 是 300 万级连接，必须水平扩展；
推送压力：如果全量推送，峰值 1000 次变更/秒 × 200 订阅者 × 200KB 服务列表，约 40GB/s，必须改成增量推送；如果增量事件约 2KB，峰值可以降到约 400MB/s。

这些数字会直接决定架构结论：连接层要水平扩展，数据层要分片，推送必须增量化，心跳不能进入强一致日志，跨机房不能做高频强同步。

整体架构可以借鉴 SOFARegistry 的三层模型：Session 层、Data 层、Meta 层。

                    全局 Meta 集群 (CP, 3 节点 Raft)
                              │
        ┌─────────────────────┼─────────────────────┐
   机房 A                    机房 B                 机房 C
   Session 层 (100 节点) ◄──► Session 层  ◄──────► Session 层
        │                     │                     │
   Data 层 (20 节点) ◄──────► Data 层  ◄──────────► Data 层
        │                     │                     │
   Provider / Consumer     Provider / Consumer    Provider / Consumer

Data 节点上的核心数据结构可以简化成这样：

class ServiceData {
    String serviceName;
    long version;                          // 增量推送的核心
    Map<String, Instance> instances;
    List<ChangeRecord> changeHistory;      // 最近 N 次变更
}

推空保护尤其关键。注册中心返回空列表时，客户端不能无条件覆盖本地旧缓存。可以做类似这样的保护：

if (newList.isEmpty() && oldList.size() > threshold) {
    log.error("Suspicious empty push detected, abort!");
    return;
}

SLA 可以这样定义：服务发现可用性 99.99%，注册延迟 P99 < 500ms，推送延迟 P99 < 1s，跨机房一致性窗口在秒级，整体过载时优先保证读发现和存量订阅。

最后要讲演进路线。不要一上来就做百万实例架构，复杂度会过早吞掉团队。比较合理的路线是：

1 万实例以内：单集群 Nacos / Eureka 加客户端缓存基本够用；
1 万到 10 万实例：Nacos 集群、长连接、命名空间隔离、推送合并、客户端缓存优化；
10 万到百万实例：三层架构、数据分片、增量推送、跨机房多活、独立控制面和完善的降级体系。

双机房 200 微服务的注册中心怎么设计

数据模型分成 Service、Instance、ChangeEvent 三类。Service 只描述服务本身：

Service {
  namespace, group, serviceName,
  owner, protectThreshold, metadata
}

Instance 承载所有运行时属性，version、灰度标签、权重、机房都放这里：

Instance {
  instanceId, serviceName,
  ip, port, protocol,
  weight, status,
  dataCenter, zone, version, tags,
  ephemeral, lastHeartbeatTime, metadata
}

跨机房同步需要事件模型，带版本号和时间戳处理乱序，删除事件保留 tombstone：

ChangeEvent {
  eventId, serviceName, instanceId,
  operation,        # REGISTER / DEREGISTER / UPDATE
  version,          # 递增版本号
  timestamp, sourceDataCenter
}

这类设计题常见追问可以用几个回答骨架兜住：

注册中心的职责边界与灰度路由

先把几个容易混的组件边界拆开。

所以治理能力的放置原则是：注册中心做数据，数据面做决策。

灰度发布就是这个边界的典型例子。注册中心不直接决定「这次请求要不要打到灰度实例」，它只维护实例身份和发现元数据：

Instance.metadata = {
  "version": "v2",
  "gray-group": "canary"
}

抖动实例和非法注册的防护

抖动实例的防护目标不是“修好实例”，而是防止单个异常实例把注册中心和所有消费者拖下水。可以分几层做。

这类问题要按“注册前、注册时、注册后”防护。

不停服升级和监控告警

所以这道题要先讲目标：不中断存量注册发现、不丢实例变更、不破坏客户端兼容、问题可回滚、故障可提前发现。

先看不停服升级。

再看监控告警。注册中心的监控不能只看机器活没活，要从“业务是否还能正确发现实例”这个目标反推。

告警要分级，不能所有异常都打成最高级。

注册中心架构师模拟面试

注册中心到底解决了什么问题

注册中心应该选 CP 还是 AP

Eureka 的自我保护机制

服务假死

注册中心整体宕机会怎么样

大规模场景的优化

无损上下线

设计一个支撑百万实例的注册中心

双机房 200 微服务的注册中心怎么设计

注册中心的职责边界与灰度路由

抖动实例和非法注册的防护

不停服升级和监控告警

文章标签

冬眠

注册中心架构师模拟面试

注册中心到底解决了什么问题

注册中心应该选 CP 还是 AP

Eureka 的自我保护机制

服务假死

注册中心整体宕机会怎么样

大规模场景的优化

无损上下线

设计一个支撑百万实例的注册中心

双机房 200 微服务的注册中心怎么设计

注册中心的职责边界与灰度路由

抖动实例和非法注册的防护

不停服升级和监控告警

文章标签

冬眠