90%的代码交给 AI，效率只提升 60%——字节 VP 揭穿了 AI 编程最大的幻觉

AI 编程工具可以大幅提高代码产量，却未必带来同等比例的交付效率。本文围绕字节披露的“90% AI 生成代码、60% 吞吐提升”现象，分析上下文工程、架构约束、治理与工作流集成为何才是 AI 代码真正走向生产价值的关键。

·2026年7月1日·2 min read

6 月底的火山引擎 FORCE 原动力大会上，字节跳动技术副总裁洪定坤公开了一个大多数 AI 厂商会选择埋起来的数字：字节内部的 TRAE 团队，如今超过 90% 的代码由 AI 生成，但人均需求吞吐只提升了 60%。

把这两个数字放在一起看，故事就反转了。AI 写的代码翻了十倍，每个工程师多产出的却只有半个单位左右。这中间的落差，是对 2026 年企业级 AI 编程市场最诚实的描述——而几乎没有一个在这个市场里卖东西的人，愿意谈它。

这不是在唱衰 AI 编程。它确实有用。但对任何真金白银投入这场转型的公司来说，真正要紧、也更难回答的问题是：当代码量涨了十倍、实际交付却几乎没动，价值到底去哪了？

这个问题的答案，决定了一笔 AI 投资究竟会复利增长，还是悄悄变成一笔负债。

几乎所有人都在用错误的方式衡量

大多数组织的本能，是用那些好数的东西来衡量 AI 的采用情况：AI 生成了多少行代码、多少比例的提交用了 AI、消耗了多少 Token、部署了多少个席位。

这些数字放进董事会 PPT 里很好看，但跟“工作有没有变快”几乎毫无关系。

关于这一点，最严谨的证据来自研究机构 METR。他们做了一项随机对照试验——就是新药临床试验用的那套方法——对象是在自己极其熟悉的代码库里工作的资深开源开发者。

开发者们预测 AI 会让他们快大约 24%。试验结束后，他们以为自己快了大约 20%。而实际上，当被允许使用 AI 工具时，他们完成任务的时间反而长了 19%。

最值得警惕的不是“变慢”这件事本身——它对场景很敏感。而是感知与现实之间那 39 个百分点的落差。

真正在干活的人，根本意识不到工具在拖慢自己，反而坚信它在帮忙。2025 年开发者对 AI 工具的采用率达到了 84%，但正面评价从 70% 跌到 60%，对输出准确性的信任从 43% 跌到 33%。

整个行业正在加深对一类自己越来越不信任的工具的依赖，而指引这一切的那个“生产力提升”信号，按最严谨的研究来看，并不可靠。

对一个 CTO 来说，这是第一个不舒服的结论：如果你的工程师觉得自己效率大幅提升了，这种“感觉”不是证据。它甚至可能是反证。

“能跑”不等于“能交付”

字节披露的第二个数据，更接近问题的机制。TRAE 团队用三个主流编码模型配三个框架，把同一个需求跑了 900 次。功能正确率稳定在 80% 以上。

但当他们从可维护性、性能、兼容性这些“决定代码能不能真正上线”的维度去打分时，分数直接腰斩。

这正是每一场 Demo 都会丢掉的那个区别。“它能跑”和“它能进生产环境”是两个完全不同的命题，中间隔着一大堆不性感的工作。

一个有 80% 概率写出功能正确代码的模型确实令人印象深刻，但在有真实质量标准的系统里，它离“可部署”还差得远。

纵向数据印证了这一点。arXiv 上一项针对 AI 生成代码的大规模实证研究，追踪的不是代码有没有通过初次评审，而是它被合并之后会发生什么。

研究发现，存活下来的、由 AI 引入的问题数量持续累积，到 2026 年 2 月已经超过 10 万个，最终沉淀成一笔可观的维护负担。

另一项 Harness 在 2026 年对 700 名工程从业者的调研显示，69% 使用 AI 编码工具的团队，经常遇到 AI 生成代码带来的部署问题。

不同来源指向同一个模式：AI 大幅降低了“生产代码”的边际成本，却几乎不保证代码的集成度、架构合理性和长期可维护性。

你在生成那一刻感受到的速度，是向未来借来的——账单会在之后某个 Sprint 里、由别人来还。

字节是怎么解决的，以及为什么这件事重要

洪定坤演讲里真正应该让任何一个操盘者比头条数字更在意的，是下面这部分。

在识别出这个落差之后，TRAE 团队加上了他们称之为 “Harness” 的东西——上下文工程、架构约束，以及把团队知识沉淀成 AI 真正能用的形式。

可交付性的分数，从 40–50 分一路拉到了 80 分。

模型没有变。变的是模型周围的基建。而真正的生产力，一直就藏在这里。

这件事重新定义了整个对话。企业级 AI 编程的瓶颈，从来不是模型的原始能力，而是组织有没有建起那套外围系统——上下文、约束、沉淀下来的知识——好让一个有能力的模型，产出真正能交付的东西。

大多数公司完全跳过了这一步：部署工具、看着代码量飙升、然后因为看板是绿的，就断定 AI 起作用了。

而可交付性的缺口，会在两个季度后，以一笔没人能追溯来源的技术债形式显现。

同一个故事，写在整个企业层面

代码层面成立的事，在 AI 部署的整体层面同样成立，而宏观数据更加触目惊心。

MIT 的 NANDA 项目在那份被广泛引用的企业生成式 AI 研究里发现，大约只有 5% 的 AI 试点项目实现了快速的营收增长，绝大多数都停滞了，对损益表几乎没有可衡量的影响。

研究者把原因说得很直白：核心问题不是 AI 模型的质量，而是工具和组织双方的“学习鸿沟”。

通用工具在企业里会卡住，因为它们不会从特定的工作流中学习、也不会适配它。

财务上的清算已经开始。到 2026 年年中，多篇报道描述了一波企业级的“AI 账单震惊”——Token 账单膨胀，回报却跟不上。

据报道，微软部分出于成本考虑取消了大部分 Claude Code 的 License；某家公司因为没有设置用量上限，单月烧掉了据称 5 亿美元。

当上市公司的生产力宣称被对照到它们自己的财报时，落差再次出现。

摩根大通声称开发者生产力节省了约 10%，但 2025 年实际薪酬支出增长了约 6%、员工人数还在上升；摩根士丹利报告生产力提升约 20%，而薪酬支出增长了 12%。

生产力存在于新闻稿里。它还没有出现在利润表上。

但 MIT 数据里最重要的那个数字，指向的是解法而非问题：由外部伙伴主导的部署，成功率达到 66%，而纯内部自建只有 33%。

而贯穿所有研究的一致发现是——从试点走向生产，大约 80% 的工作量是数据工程、治理、工作流集成和度量基建，而不是选模型。

什么才会真正复利

把所有证据放在一起，结论很难回避。

真正跑在前面的公司，不是那些拿到了最好模型的。到 2026 年，前沿模型的获取已经接近于一种商品。

跑在前面的，是那些建起了底层那一层的公司：让模型理解组织真实运作方式的上下文工程、让生成代码保持可交付的架构约束、让输出可审计的治理，以及证明这一切到底有没有用的度量体系。

这是不性感的基建。它放不进发布会的 Slide 里。

但它恰恰就是字节 “Harness” 代表的工作，恰恰是 MIT 数据里那成功的 5% 所投入的工作，也恰恰是大多数企业在抢着上报采用率时跳过的工作。

90/60 这个问题，不是反对在软件里用 AI 的论据。它反对的是把 AI 当成一个“装上去”的东西，而不是一个“围绕它重新设计”的东西。

2026 年真正把这件事想透的组织，会悄悄拿走那些别人还在用 Token 数量衡量的生产力红利。

90% 和 60% 之间的差距，不是技术的失败。

它精确地标出了那些还没做的工程与组织工作的体量——也精确地标出了，对任何愿意去做这件事的人来说，价值究竟在哪里。

本文引用的数据来自：字节跳动火山引擎 FORCE 原动力大会（2026 年 6 月）的公开披露、METR 关于开发者生产力的随机对照试验、MIT NANDA 项目关于企业生成式 AI 的研究报告、Harness 2026 年工程从业者调研，以及 arXiv 上关于 AI 生成代码的纵向研究。

OpenAI 推出 Patch the Planet：用 AI 偿还开源世界的安全债务

OpenAI 联合安全公司 Trail of Bits、漏洞协调平台 HackerOne 和 Calif，于 6 月 22 日推出开源安全计划 Patch the Planet。该计划将 GPT-5.5-Cyber 和 Codex Security 的 AI 辅助漏洞研究，与 Trail of Bits 工程师在提交给维护者前必须完成的人工审核相结合。首个五天冲刺已覆盖 19 个项目，产出数百项安全发现，37 个补丁已合并，目前已有 30 余个核心开源项目加入。

阅读全文

AI补贴时代终结——工作负载路由示意图，80%常规任务流向廉价模型，模型分层结构：前沿模型→廉价模型→本地部署

AI 补贴时代终结：GitHub Copilot 账单暴涨，Coinbase CEO 宣判廉价模型将接管八成工作负载

GitHub Copilot 按 Token 计费新政于 6 月 1 日正式生效，部分重度用户月账单从 44 美元骤升至 847 美元，涨幅最高超 50 倍。这场定价风波背后，是 AI 行业长期以补贴换增长模式的集中爆发。Coinbase CEO Brian Armstrong 给出判断：80% 的 AI 工作负载将在 12–18 个月内迁移至成本低 99% 的廉价模型。

阅读全文

ZenAI | Frontier AI Access as a Governance Screen

Anthropic 可信访问模型：企业 AI 采购逻辑正在根本性改变

决定企业能否部署下一代前沿 AI 能力的变量，正在从预算转向治理成熟度。这不是一次政策更新，而是 AI 基础设施采购模式的结构性转变。大多数企业尚未为此做好运营准备。

阅读全文

返回AI资讯

90%的代码交给 AI，效率只提升 60%——字节 VP 揭穿了 AI 编程最大的幻觉

几乎所有人都在用错误的方式衡量

“能跑”不等于“能交付”

字节是怎么解决的，以及为什么这件事重要

同一个故事，写在整个企业层面

什么才会真正复利

相关推荐

OpenAI 推出 Patch the Planet：用 AI 偿还开源世界的安全债务

AI 补贴时代终结：GitHub Copilot 账单暴涨，Coinbase CEO 宣判廉价模型将接管八成工作负载

Anthropic 可信访问模型：企业 AI 采购逻辑正在根本性改变