JiT架构 - maigewan标题

AI绘画领域正面临一场范式革命，何恺明团队的最新论文《Back to Basics》直指扩散模型的核心缺陷，提出了颠覆性的x-prediction解决方案。本文深度剖析了当前主流AI绘画模型因目标错配导致的技术债务，并揭示JiT架构如何通过回归本质目标，实现从复杂组件堆砌到极简端到端设计的范式转变，为行业带来成本结构和生态布局的全新思考。

最近，ResNet作者何恺明团队一篇《Back to Basics》的论文在AI圈引发热议。作为曾以一篇论文被引用超20万次、定义现代深度学习架构的学术大牛，这次他把矛头对准了生成式AI领域公认的“标准答案”——扩散模型，提出了一个颠覆性观点：如今AI绘画模型的臃肿复杂，根源竟是从一开始就定错了核心目标。

一、现状困局：为错配目标买单的技术债务

现在行业主流的AI绘画模型，比如Stable Diffusion这类潜扩散模型（LDM），架构复杂到让开发者头疼。但这种复杂并非技术升级的必然，而是为了掩盖一个“反直觉”的目标设计——让模型预测噪声（ε-prediction）。

这就像让员工去数满是雪花的电视屏幕上每个噪点的位置和数量，本身就是一项高难度、反常识的高维计算任务。为了让模型能完成这个不合理的目标，行业不得不叠加各种“中间件”，却埋下了重重隐患：

1. VAE有损压缩：图像细节的“隐形损耗”

为了处理高分辨率图像，LDM必须先通过VAE（变分自编码器）进行压缩。主流SD模型的压缩率高达f8，也就是长宽各缩小8倍，512×512的图像会被压缩到64×64的潜空间。这种压缩是不可逆的，就像把高清照片压成模糊缩略图再还原，文字模糊、人脸微表情丢失、图像中出现莫名的“黑洞”伪影，本质上都是VAE这个“中间商”造成的信息损耗。

2. 额外编码开销：拖慢速度的“冗余环节”

为了让模型理解图像，还需要把图像切碎、编码，这不仅增加了推理延迟，让生成一张图要等更久，还让文本和图像的多模态对齐变得异常困难。很多开发者都有过类似经历：为了调优VAE和U-Net的特征对齐，研发周期被迫拉长数周，而推理时的显存占用始终居高不下，成为落地时的一大障碍。

这些层层叠加的技术组件，本质上都是为了弥补初始目标设计的缺陷，最终形成了沉重的技术债务，让AI绘画模型陷入“越优化越复杂”的循环。

二、核心破局：换个目标，让系统“轻装上阵”

何恺明团队的核心洞察，是把模型目标从“预测噪声”改成“直接预测原图”（x-prediction）。这背后藏着一个关键的数学逻辑——流形假设。

简单来说，真实世界中的有效图像（比如一只猫、一朵花），在数学上其实分布在一个极低维度的“流形”上，就像在广阔沙漠中只有一条清晰的道路；而噪声则充满了整个高维空间，如同沙漠中漫天的黄沙。

过去让模型预测噪声，相当于让AI在漫天黄沙中寻找规律，难度极大，只能靠VAE降维等手段辅助；而让模型直接预测原图，就相当于让AI始终朝着那条清晰的道路前进，目标函数的收敛性自然更好。

MIT最新研究显示，一旦切换到x-prediction目标，之前复杂的VAE、Tokenizer等组件都成了多余。只需要一个最基础的Transformer（ViT），就能跑通AI绘画的全流程——这就是JiT（Just image Transformers）架构的核心逻辑。

三、架构革命：极简主义的“少即是多”

JiT的设计哲学堪称激进，它砍掉了所有非必要的“特殊设计”，回归到最纯粹的端到端优化：

无需Tokenizer：不用把图像切成小块编码，直接处理原始图像数据；
无需VAE：在像素空间直接生成图像，所见即所得，彻底避免压缩带来的信息损耗；
可选CLIP：即便不依赖大规模预训练的文本编码器，也能生成有意义的图像。

这种架构变革，让AI绘画模型的开发逻辑从“搭积木式”的组件拼凑，回归到“端到端”的统一优化，从根源上简化了技术栈，也为解决长期存在的技术债务提供了新思路。

四、商业落地：机遇与挑战并存

作为产品人，JiT架构的价值远不止于技术简化，更可能重构AI绘画的成本结构和行业生态，但落地过程也面临三重现实考验：

1. 研发成本的“降维空间”

目前训练一个Stable Diffusion 2级别的模型，仅硬件成本就约5万美元，再加上调试VAE、数据清洗、对齐微调的人力成本，总拥有成本（TCO）相当高昂。JiT证明了去掉VAE预训练环节的可行性，如果复用这种架构，下一代模型的冷启动训练时间有望大幅缩减，迭代速度将显著提升，这对企业来说是重要的成本洼地。

2. 生态迁移的“转换成本”

虽然JiT架构更简洁，但商业化落地面临巨大的生态壁垒。目前AI绘画的整个生态（比如ControlNet、LoRA、AnimateDiff等插件）都建立在Stable Diffusion的潜空间之上，若转向JiT，所有社区插件都需要重写。对商业公司而言，技术优势往往难以对抗生态优势，除非JiT能在生成质量上实现类似Sora对视频模型的“降维打击”，否则短期内很难撼动SD的主导地位。

3. 算力需求的“平衡博弈”

直接在像素空间运行Transformer，计算量会大幅增加。传统LDM通过潜空间压缩，能将计算需求降低约48倍，而JiT为了应对计算暴涨，采用了激进的像素打包策略（比如将16×16或32×32的像素打包处理），本质上是用“颗粒度”换取“计算效率”。这可能导致JiT在手机等低算力端侧设备的部署难度，比SD还要大，如何平衡计算效率与生成质量，是其商业化的关键。

五、回归本质：产品复杂时，先检查目标是否正确

目前来看，JiT的生成效果（FID Score）虽有竞争力，但尚未达到商业级的惊艳水准，还不是Midjourney V6的直接竞争对手。但它的战略意义远超技术本身——它教会我们“去习得”（Unlearning）：过去三年在扩散模型上堆砌的复杂组件，可能只是为了弥补初始目标错误而打的补丁。

这对产品人有着深刻的启示：当我们的产品逻辑越来越臃肿，需要靠无数个边缘案例的补丁来维持运转时，不妨停下来反思：是不是从一开始，我们的北极星指标（North Star Metric）就定错了？

技术的进步往往不是源于组件的堆砌，而是源于对核心问题的重新审视。JiT架构的出现，让AI绘画回归到“直接生成图像”的本质目标，也为整个行业提供了一个重要思路：回归本源，或许才是突破瓶颈的最短路径。

本文由 @命运石之门原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

分类： JiT架构

放弃预测噪声，AI绘画才真的“轻”了？何恺明JiT架构的底层逻辑颠覆