「AI 写了我们 80% 的代码」,是代码行数换了个新公关
「AI 写了我们 80% 的代码」,是代码行数换了个新公关
群里有人转了条新闻:谷歌说自家 75% 的新代码是 AI 写的。下面立刻跟上一句:“我们的 AI 渗透率呢?”
这种数字今年到处都是。谷歌 75%,Anthropic 说合并进生产环境的代码里约 80% 出自 Claude、工程师每季度产出的代码量是过去的 8 倍,OpenAI 也报了个 80%,Cursor 干脆说企业每天用它写出 1 亿行以上的代码。一个比一个大,听上去像进度条:数字越高,AI 用得越好,团队越先进。
把这些数字摆到一起,我注意到一件事:它们全在说“写了多少”,没有一个在说“好了多少”。
而且喊这些数字的,清一色是卖 token 的公司。
“AI 写了百分之多少的代码”,就是代码行数换了个更好的公关。
这个坑,我们早就跳出来过
想象两个 PR 摆在你面前。一个加了 800 行,给老功能塞了一堆配置开关;另一个删掉 2000 行重复逻辑,把一个反复发作的 bug 从根上修好了。按代码行数算,前者“产出”为正、后者为负——可你心里清楚,真正交付了价值的是后者。
代码行数、PR 数量是烂指标,这是行业用一次次跑偏换来的常识:你想知道的从来不是写了多少,而是对用户做了什么、对收入和稳定性做了什么。烂到今天谁还拿它考核人,会被当成笑话。

现在我们又跪回去了。只不过这回行数请了个更好的公关,叫“AI 写的代码占比”。
更妙的是,这种数字不会失败。GitHub 当年给 Copilot 打的招牌是“任务完成快 55%”——你可以不服那个研究(很多人不服),但它是个结果主张:大胆、可证伪、关于价值,错了你能证明它错。而“我们 75% 的代码是 AI 写的”永远不会错,还会一直涨,跟有没有变快、故障有没有变少、客户开不开心,毫无关系。只要采用率还在涨,这个数字就只涨不跌。它什么都没承诺,所以永远不会让你失望。
那“变好了”的证据呢
这才是没人放上广告牌的部分,因为它一团乱。
最硬的利好证据是 Cui 等人的研究,近 5000 名开发者,任务完成量 +26%,新人提升最大,这个基本没争议。但 GitClear 的数据显示,随着 Copilot 用得越深,代码 churn(改了又改)在上升,重构在塌方。METR 去年那个被反复引用的研究更尴尬:有经验的开源开发者,在自己熟悉的代码库里用 AI 反而慢了 19%,但他们自己以为快了 20%。
然后剧情反转。今年 2 月 METR 基本推翻了自己:新估算翻成了“提速”,而且他们干脆放弃了原来的实验设计——因为开发者现在拒绝在没有 AI 的情况下干活,也没法可靠地自报在 agent 任务上花了多少时间。他们最新的立场是:2026 年 AI 大概率让人更快了,但快多少,已经测不准了。
公司层面,NBER 一份覆盖约 6000 名高管的调查发现,69% 的公司在用 AI,但差不多九成报告说没有可测量的生产力提升。多个研究交叉下来,组织层面的真实收益大概在 10% 上下。不是没用,很有用,但远不到“你不再需要开发者了”那一步。
最会两头下注的是 Anthropic:一边给你“产出 8 倍”的口号,一边发了今年最严谨的研究之一——一个随机对照试验,发现用了 AI 辅助的开发者,对自己刚交付的代码的理解程度低了 17%,且生产力没有统计学意义上的提升。
研究部门在如实更新,市场部门在数行数。两件事同时为真,这恰恰是重点。

这数字不是装饰,它在动你的饭碗
如果只是发布会上吹吹也就算了。问题是这些数字会移动预算、绩效预期和裁员名单。
今年 2 月,Jack Dorsey 砍掉了 Block 超过 40% 的员工——4000 多人,明确把 AI 当核心理由:“一支小得多的团队,用上我们正在造的工具,能做得更多、更好。”两周后 Atlassian 裁了 10%,约 1600 人。
但有个细节我一直忘不掉:Dorsey 在同一份公告里说,公司业务很强劲,毛利在增长。
这就讲不通了。如果 AI 真让你凭空多出一批免费产能,而你是个 SaaS 公司、路线图永远做不完,为什么不拿这批产能去给客户多交付价值、跑得更快?那本该体现在 MAU、转化、收入上。你偏偏选择裁人,只说明一件事:那个生产力数字,是在替一个早就因为别的原因(过度招聘、投资人压力,随你挑)做好的决定打掩护。
每家公司都有冗余,效率驱动的精简我接受,这个行业每次技术换代都发生过。但真要裁,请用你本来就在跑的那套个人绩效系统——能看出谁在摸鱼、谁掉了线的那套。别用 token 数,别用“AI 写了百分之几”,别用某人在某个成熟度阶梯上的层级。如果你的裁员依据是一个虚荣指标,那这场裁员就是抹了口红的抽签。

这病,个人开发者身上也有
往大了说,是行业在拿产量冒充成果。往小了说,这病你我每天都在犯。
代码跑通了,测试全绿了,你松一口气:“行了。”这跟管理层看着“AI 写了 80%”点头,是同一个动作——你看到的是“产生了多少”,不是“交付得对不对”。我之前写“跑一下试试是 AI 时代最贵的验收方式”,写“AI 写完代码后我只看这 5 个地方”,讲的都是同一件事:产量和验收是两码事,中间那道差,得有人用判断力去填。
行业把这道差叫 review 工作量,个人把它叫“我到底信不信这段代码”。换个尺度,同一个病。
我落在哪
别把这篇读成反 AI。我认为每个工程师都该每天用 AI,这事没得商量。我看着这个行业吞下过高级语言、IDE、自动补全、敏捷、DevOps,每一次都有人念叨从前的好日子,最后基本都真香了。这次唯一的区别是速度:你当年晚两年上云还能活,这次可能只有几个月。
但采用率是起跑线,不是记分牌。我们早就知道怎么衡量工程有没有在交付:DORA 指标、可靠性、有意义的变更率,最终是收入和客户价值。又老又糙,但管用。我们凭什么把这些全扔了,去追一个用 token 计数的虚荣分?
所以下次再有人甩给你一个数字——发布会也好,述职也好,信息流也好——你就问一句:
这是产出,还是产量?
神奇的是,很多说法一被这么问,当场就瘪了。
工作上,尽管 AI-first;但衡量这件事,请回到那些被验证过的老办法。