架构设计的道与术：从 0 到 1 的系统性思考框架

Posted Nov 19, 2025 Updated Nov 19, 2025

By Toby Qin

9 min read

在软件工程领域，架构设计往往被蒙上一层神秘的面纱。很多人认为架构设计就是画一些复杂的框图，或者是选择最时髦的技术栈（比如微服务、AI、Service Mesh）。

但在与大量复杂系统（如企业级 DevOps 平台、AI 代码评审系统）打交道后，我发现架构设计的本质并非技术堆砌，而是在约束条件下做出的权衡 (Trade-offs)。

当我们面对一个开放性的设计问题（如“设计一个短链接系统”或“从 0 搭建自动化测试平台”）时，我们需要的不是灵光一现，而是一套系统性的思考方式和处理逻辑。

本文将总结这套从 0 到 1 的架构设计六步法，以及如何用正确的逻辑将架构图画出来。

一、核心哲学：架构设计的“第一性原理”

在进入具体步骤前，必须明确三个核心原则：

没有银弹 (No Silver Bullet)： 微服务不一定比单体好，事件驱动不一定比同步调用好。一切取决于业务场景。
数字不说谎 (Numbers Don’t Lie)： 脱离了规模（QPS、数据量）和成本（预算）的架构设计都是耍流氓。
为失败而设计 (Design for Failure)： 高可用不是一个功能，而是一个系统属性。我们必须假设任何组件都会挂掉，并设计相应的自愈机制。

二、思考框架：架构设计“六步法”

当接到一个设计任务时，不要急着打开 Visio 或写代码。请按照以下顺序进行思维推演：

步骤 0：理解“为什么” (The Why)

战略与愿景。 这是最容易被技术人员忽视的一步。

核心拷问： 我们为什么要建这个系统？是为了技术自嗨，还是为了解决具体的业务痛点？
示例： 做 AI 代码评审平台，不是为了用 LLM，而是为了缩短 Code Review 周期和降低人工 Review 的成本。

步骤 1：定义“做什么” (The What)

需求与边界。

功能性需求： 系统必须具备的核心能力（如：生成短链、跳转）。
非功能性需求 (NFRs)： 这是架构的灵魂。
- 可用性： 99.9% 还是 99.99%？（决定了冗余成本）
- 延迟： P99 < 50ms？（决定了缓存策略）
- 一致性： 强一致还是最终一致？（决定了数据库选型）

步骤 2：估算“有多少” (The How Much) —— 关键分水岭

用数字和客观事实约束设计。

费米估算：
- QPS 是多少？（读写比是 1:1 还是 100:1？）
- 数据量多大？（5 年增长到 100TB？）
成本估算：
- 示例： 在设计 AI 平台时，如果每个 PR 都调用 GPT-4 API，一年成本可能高达百万。这个数字事实会迫使你修改架构，引入L2 决策层来减少不必要的调用。

步骤 3：绘制“蓝图” (The Blueprint)

高阶架构设计。

基于之前的估算，确定核心组件（LB, Gateway, Service, DB, Cache, MQ）。
确定交互模式：是同步 API 调用，还是异步事件驱动？
决策点： 单体 vs 微服务？在 MVP 阶段，或许单体是更优解；但为了团队自治，微服务是必经之路。

步骤 4：深入“细节” (The Details)

关键技术选型与数据模型。

数据为王： 数据库表结构怎么设计？SQL vs NoSQL？
接口契约： 定义关键的 API 签名。
难点攻克： 例如，短链接的 ID 生成器如何保证全局唯一且高性能？（预生成 + 队列）。

步骤 5：考虑“如果” (The What If)

SRE/DevOps 视角的审查。

故障分析： 识别单点故障 (SPOF)。如果 Redis 挂了，数据库能扛住吗？
弹性设计： 是否需要熔断、降级、限流？
可观测性： 如何监控系统的健康？DORA 指标如何采集？

三、沟通艺术：如何画出好的架构图

想好了并不代表能讲清楚。画架构图切忌一图流（试图在一张图里塞进所有细节）。

推荐采用 分层 (Layered) 的画图逻辑（参考 C4 模型）：

Level 1: 系统上下文 (Context)
- 受众： 老板、PM、非技术人员。
- 内容： 一个黑盒子（你的系统）+ 用户 + 外部依赖（如 GitHub, 支付网关）。
- 目的： 讲清楚系统在宇宙中的位置。
Level 2: 容器/服务 (Containers)
- 受众： 架构师、技术负责人。
- 内容： 打开黑盒子，画出内部的可部署单元（API 网关、微服务 A、数据库、消息队列）。
- 目的： 展示技术蓝图和职责划分。这是最核心的一张图。
Level 3: 深入视图 (Specific Views)
- 受众： 开发人员、SRE。
- 内容： 序列图（解决时序问题）、部署拓扑图（解决 HA/网络问题）、数据模型图（解决存储问题）。
- 目的： 解决具体的技术难题。

为了进一步推进实现，比较有用的图是从时间维度看的序列图，以及从物理角度看的部署图，C4 模型表达的更多是内外的逻辑和关系。

四、结语：从架构到交付

架构设计不是一个一次性的活动，而是一个迭代的过程。

一个优秀的架构师，不仅要能画出漂亮的蓝图（Level 2），更要能像 SRE 一样思考成本和故障（步骤 2 & 5），还要能像平台工程师一样思考开发者体验（步骤 0）。

做 DevOps 平台，要思考如何通过 Spot 实例优化 CI 成本；
做测试平台，要思考 TaaS（测试即服务）如何通过 EaaS 和 TDaaS 解决环境和数据痛点；
做 AI 平台，要思考如何通过异步队列和 KEDA 实现 GPU 资源的极致弹性。

架构即权衡，设计即取舍。 希望这套系统性的思考框架，能帮助你在下一次面对白板时，从容不迫地从 0 到 1 构建出优雅的系统。

Tech

engineering

This post is licensed under CC BY 4.0 by the author.

一、 核心哲学：架构设计的“第一性原理”

二、 思考框架：架构设计“六步法”