Why IDP：从"让开发者运维"到"让基础设施隐形"

Posted Nov 27, 2025 Updated Dec 14, 2025

By Toby Qin

10 min read

1. 为什么我们需要 IDP?

在 DevOps 运动初期，核心理念是 You build it, you run it。这打破了部门墙，但也带来了副作用：认知负荷的爆炸。

一个后端开发者的职责从写 Java/Go 代码，变成了需要懂 Dockerfile、K8s YAML、Terraform、Helm Charts、CI/CD Pipeline、IAM 权限、网络策略等等。

IDP，也就是内部开发者平台的出现是为了解决以下三个痛点：

认知过载。开发者被淹没在基础设施的配置细节中，导致业务代码产出率下降。

配置漂移与碎片化。每个团队都自己造轮子写 Pipeline，导致技术栈无法治理，安全合规难以落地。

工单运维的回潮。当基础设施太复杂，开发者搞不定时，又不得不给运维提工单，导致交付周期拉长。

一句话总结：IDP 是通过构建抽象层和自助服务，将基础设施能力作为产品提供给开发者，从而降低认知负荷，实现标准化交付。

2. 设计哲学：不仅是工具，更是产品

IDP 的建设如果只堆砌工具，比如只搭一个 Backstage，必死无疑。成功的 IDP 遵循以下设计哲学。

A. 平台即产品

这是最重要的心法。开发者是你的客户，IDP 是你的产品。

你不能强制客户使用，你必须通过卓越的体验吸引他们使用。

你需要进行用户调研，而不是坐在象牙塔里设计架构。

你需要营销和布道。

B. 黄金路径

这个理念源自 Spotify 和 Netflix。

定义上，黄金路径是一条经过验证的、受支持的、阻力最小的开发路径。

策略上，平台团队不禁止开发者越野，但如果开发者选择黄金路径，例如使用平台提供的 SpringBoot 模板，他们将获得开箱即用的监控、日志、安全扫描和 On-call 支持。

目的很简单，用方便来换取标准化。

C. 恰当的抽象

反模式是过度抽象，黑盒化。如果平台屏蔽了所有细节，一旦报错，开发者完全不知道发生了什么，只能找平台团队，这反而增加了运维压力。

最佳实践是漏斗式抽象。默认提供简化的视图，但允许高级用户下钻到底层配置。

3. IDP 的关键架构模块

一个成熟的 IDP 通常由五大平面组成。

开发者控制平面 - 门面

核心组件是开发者门户。

代表工具有 Backstage，这是事实标准，还有 Port、Compass。

功能包括服务目录、文档中心、脚手架。开发者在这里点击创建服务，而非手动写 YAML。

集成与交付平面 - 大脑

核心组件是平台编排器或 CI/CD。

代表工具有 Humanitec、Kratix、ArgoCD、GitHub Actions。

功能是接收开发者的意图，动态生成底层的配置文件。例如，开发者说我要一个 Postgres，编排器根据环境，Dev 或 Prod，决定是拉起一个容器还是申请一个 RDS。

资源平面 - 躯干

核心组件是基础设施即代码或云资源。

代表工具有 Crossplane、Terraform、AWS/GCP/Azure。

功能是实际资源的生产工厂。Crossplane 尤其重要，它能让 K8s 像管理 Pod 一样管理云资源，比如 RDS、S3。

监控与观测平面

不仅监控应用，还要监控平台本身的健康度，比如 DORA 指标。

安全平面

核心理念是 Policy as Code，可以用 OPA 或 Kyverno。在流水线中自动阻断不合规的配置。

4. 落地指南：从 0 到 1 的实战策略

参考 DoorDash 和 Uber 的落地经验，切忌大爆炸式上线。

第一阶段：MVP 或 TVP

目标是解决一个最痛的点。例如新员工入职搭建开发环境需要 3 天。

动作是用 Backstage 搭建一个脚手架，实现 5 分钟拉起一个 Hello World 服务，并自动配置好 Git Repo 和 CI 流水线。

记住，不要试图一开始就纳管所有遗留系统。

第二阶段：扩展与铺路

目标是覆盖 80% 的高频场景。

具体动作包括：定义 2-3 条黄金路径，如后端微服务、前端 SPA；引入 Score 或类似规范，统一本地开发与生产部署的配置体验；开始计算 ROI，节省了多少开发者时间。

第三阶段：生态与运营

目标是提升采用率。

动作包括内部布道，设立平台大使计划；游戏化，引入服务健康分或排行榜，激励团队升级依赖、修复漏洞；数据驱动，通过 DORA 指标，比如部署频率、变更前置时间，来证明平台价值。

5. 挑战与避坑指南

落地 IDP 的失败率并不低，主要死因如下。

坑 1：僵尸门户

现象是花大力气搭了 Backstage，但里面只有静态链接，开发者点进去还是要跳到 AWS Console 或 Jira。

避坑方法：IDP 必须具备执行能力。点击按钮后，必须有自动化的动作发生，也就是自助服务，否则它只是一个黄页。

坑 2：抽象过度

现象是为了标准化，锁死了所有权限。资深开发者觉得被束缚，无法调优 JVM 参数或数据库配置，于是开始绕过平台，搞影子 IT。

避坑方法：提供逃生舱门。允许高级用户在必要时注入自定义的 Terraform 或 Kubernetes 配置。

坑 3：忽视遗留系统

现象是平台只支持 K8s 上的新微服务，但公司 80% 的营收来自跑在虚拟机上的老单体。

避坑方法：采用绞杀者模式。先将老系统的观测和文档接入 IDP，再逐步接管部署，最后才是架构改造。

坑 4：甚至不是技术问题

现象是技术很强，但没人用。

避坑方法：这是文化问题。需要高层的支持配合底层的布道。把开发者当用户哄，而不是当下属管。

6. 未来演进：IDP 的终局

从声明式到意图式

现在是开发者写 YAML 声明我要 3 个 Pod。

未来是开发者声明我要高可用服务，平台自动计算需要几个 Pod，甚至根据流量自动切换 Serverless。

AI 驱动的平台工程

LLM 将成为新的交互界面。开发者不再点击 Portal 的按钮，而是直接告诉 AI：帮我生成一个类似订单服务的环境，但数据库换成 Redis，AI 自动调用 IDP 的 API 完成编排。

隐形平台

最好的平台是开发者感觉不到存在的平台。它像水电煤一样，按需流动，无感支撑。

结语

建设 IDP 是一场社会技术工程。它不仅仅是关于 Backstage 或 Kubernetes 的技术选型，更是关于如何重塑组织内的协作关系，释放开发者的创造力。

记住：不要为了做平台而做平台，要为了解决用户的痛点而做。

Tech

engineering

This post is licensed under CC BY 4.0 by the author.