「AI 写了我们 80% 的代码」，是代码行数换了个新公关

2026年7月9日

AI编程工程度量 DORA

「AI 写了我们 80% 的代码」，是代码行数换了个新公关

群里有人转了条新闻：谷歌说自家 75% 的新代码是 AI 写的。下面立刻跟上一句：“我们的 AI 渗透率呢？”

这种数字今年到处都是。谷歌 75%，Anthropic 说合并进生产环境的代码里约 80% 出自 Claude、工程师每季度产出的代码量是过去的 8 倍，OpenAI 也报了个 80%，Cursor 干脆说企业每天用它写出 1 亿行以上的代码。一个比一个大，听上去像进度条：数字越高，AI 用得越好，团队越先进。

把这些数字摆到一起，我注意到一件事：它们全在说“写了多少”，没有一个在说“好了多少”。

而且喊这些数字的，清一色是卖 token 的公司。

“AI 写了百分之多少的代码”，就是代码行数换了个更好的公关。

这个坑，我们早就跳出来过

想象两个 PR 摆在你面前。一个加了 800 行，给老功能塞了一堆配置开关；另一个删掉 2000 行重复逻辑，把一个反复发作的 bug 从根上修好了。按代码行数算，前者“产出”为正、后者为负——可你心里清楚，真正交付了价值的是后者。

代码行数、PR 数量是烂指标，这是行业用一次次跑偏换来的常识：你想知道的从来不是写了多少，而是对用户做了什么、对收入和稳定性做了什么。烂到今天谁还拿它考核人，会被当成笑话。

代码行数这把尺子，量错了

现在我们又跪回去了。只不过这回行数请了个更好的公关，叫“AI 写的代码占比”。

更妙的是，这种数字不会失败。GitHub 当年给 Copilot 打的招牌是“任务完成快 55%”——你可以不服那个研究（很多人不服），但它是个结果主张：大胆、可证伪、关于价值，错了你能证明它错。而“我们 75% 的代码是 AI 写的”永远不会错，还会一直涨，跟有没有变快、故障有没有变少、客户开不开心，毫无关系。只要采用率还在涨，这个数字就只涨不跌。它什么都没承诺，所以永远不会让你失望。

那“变好了”的证据呢

这才是没人放上广告牌的部分，因为它一团乱。

最硬的利好证据是 Cui 等人的研究，近 5000 名开发者，任务完成量 +26%，新人提升最大，这个基本没争议。但 GitClear 的数据显示，随着 Copilot 用得越深，代码 churn（改了又改）在上升，重构在塌方。METR 去年那个被反复引用的研究更尴尬：有经验的开源开发者，在自己熟悉的代码库里用 AI 反而慢了 19%，但他们自己以为快了 20%。

然后剧情反转。今年 2 月 METR 基本推翻了自己：新估算翻成了“提速”，而且他们干脆放弃了原来的实验设计——因为开发者现在拒绝在没有 AI 的情况下干活，也没法可靠地自报在 agent 任务上花了多少时间。他们最新的立场是：2026 年 AI 大概率让人更快了，但快多少，已经测不准了。

公司层面，NBER 一份覆盖约 6000 名高管的调查发现，69% 的公司在用 AI，但差不多九成报告说没有可测量的生产力提升。多个研究交叉下来，组织层面的真实收益大概在 10% 上下。不是没用，很有用，但远不到“你不再需要开发者了”那一步。

最会两头下注的是 Anthropic：一边给你“产出 8 倍”的口号，一边发了今年最严谨的研究之一——一个随机对照试验，发现用了 AI 辅助的开发者，对自己刚交付的代码的理解程度低了 17%，且生产力没有统计学意义上的提升。

研究部门在如实更新，市场部门在数行数。两件事同时为真，这恰恰是重点。

研究部门 vs 市场部门

这数字不是装饰，它在动你的饭碗

如果只是发布会上吹吹也就算了。问题是这些数字会移动预算、绩效预期和裁员名单。

今年 2 月，Jack Dorsey 砍掉了 Block 超过 40% 的员工——4000 多人，明确把 AI 当核心理由：“一支小得多的团队，用上我们正在造的工具，能做得更多、更好。”两周后 Atlassian 裁了 10%，约 1600 人。

但有个细节我一直忘不掉：Dorsey 在同一份公告里说，公司业务很强劲，毛利在增长。

这就讲不通了。如果 AI 真让你凭空多出一批免费产能，而你是个 SaaS 公司、路线图永远做不完，为什么不拿这批产能去给客户多交付价值、跑得更快？那本该体现在 MAU、转化、收入上。你偏偏选择裁人，只说明一件事：那个生产力数字，是在替一个早就因为别的原因（过度招聘、投资人压力，随你挑）做好的决定打掩护。

每家公司都有冗余，效率驱动的精简我接受，这个行业每次技术换代都发生过。但真要裁，请用你本来就在跑的那套个人绩效系统——能看出谁在摸鱼、谁掉了线的那套。别用 token 数，别用“AI 写了百分之几”，别用某人在某个成熟度阶梯上的层级。如果你的裁员依据是一个虚荣指标，那这场裁员就是抹了口红的抽签。

抹了口红的抽签

这病，个人开发者身上也有

往大了说，是行业在拿产量冒充成果。往小了说，这病你我每天都在犯。

代码跑通了，测试全绿了，你松一口气：“行了。”这跟管理层看着“AI 写了 80%”点头，是同一个动作——你看到的是“产生了多少”，不是“交付得对不对”。我之前写“跑一下试试是 AI 时代最贵的验收方式”，写“AI 写完代码后我只看这 5 个地方”，讲的都是同一件事：产量和验收是两码事，中间那道差，得有人用判断力去填。

行业把这道差叫 review 工作量，个人把它叫“我到底信不信这段代码”。换个尺度，同一个病。

我落在哪

别把这篇读成反 AI。我认为每个工程师都该每天用 AI，这事没得商量。我看着这个行业吞下过高级语言、IDE、自动补全、敏捷、DevOps，每一次都有人念叨从前的好日子，最后基本都真香了。这次唯一的区别是速度：你当年晚两年上云还能活，这次可能只有几个月。

但采用率是起跑线，不是记分牌。我们早就知道怎么衡量工程有没有在交付：DORA 指标、可靠性、有意义的变更率，最终是收入和客户价值。又老又糙，但管用。我们凭什么把这些全扔了，去追一个用 token 计数的虚荣分？

所以下次再有人甩给你一个数字——发布会也好，述职也好，信息流也好——你就问一句：

这是产出，还是产量？

神奇的是，很多说法一被这么问，当场就瘪了。

工作上，尽管 AI-first；但衡量这件事，请回到那些被验证过的老办法。

版权声明

作者: XingKaiXin
标题: 「AI 写了我们 80% 的代码」，是代码行数换了个新公关
发布时间: 2026年7月9日
文章链接: https://xingkaixin.me/posts/ai-code-volume-not-outcome/

本作品采用 CC BY-NC-ND 4.0 DEED 许可。