分类: JiT架构

通过WPeMatico自动添加.

  • 放弃预测噪声,AI绘画才真的“轻”了?何恺明JiT架构的底层逻辑颠覆

    AI绘画领域正面临一场范式革命,何恺明团队的最新论文《Back to Basics》直指扩散模型的核心缺陷,提出了颠覆性的x-prediction解决方案。本文深度剖析了当前主流AI绘画模型因目标错配导致的技术债务,并揭示JiT架构如何通过回归本质目标,实现从复杂组件堆砌到极简端到端设计的范式转变,为行业带来成本结构和生态布局的全新思考。

    最近,ResNet作者何恺明团队一篇《Back to Basics》的论文在AI圈引发热议。作为曾以一篇论文被引用超20万次、定义现代深度学习架构的学术大牛,这次他把矛头对准了生成式AI领域公认的“标准答案”——扩散模型,提出了一个颠覆性观点:如今AI绘画模型的臃肿复杂,根源竟是从一开始就定错了核心目标。

    一、现状困局:为错配目标买单的技术债务

    现在行业主流的AI绘画模型,比如Stable Diffusion这类潜扩散模型(LDM),架构复杂到让开发者头疼。但这种复杂并非技术升级的必然,而是为了掩盖一个“反直觉”的目标设计——让模型预测噪声(ε-prediction)。

    这就像让员工去数满是雪花的电视屏幕上每个噪点的位置和数量,本身就是一项高难度、反常识的高维计算任务。为了让模型能完成这个不合理的目标,行业不得不叠加各种“中间件”,却埋下了重重隐患:

    1. VAE有损压缩:图像细节的“隐形损耗”

    为了处理高分辨率图像,LDM必须先通过VAE(变分自编码器)进行压缩。主流SD模型的压缩率高达f8,也就是长宽各缩小8倍,512×512的图像会被压缩到64×64的潜空间。这种压缩是不可逆的,就像把高清照片压成模糊缩略图再还原,文字模糊、人脸微表情丢失、图像中出现莫名的“黑洞”伪影,本质上都是VAE这个“中间商”造成的信息损耗。

    2. 额外编码开销:拖慢速度的“冗余环节”

    为了让模型理解图像,还需要把图像切碎、编码,这不仅增加了推理延迟,让生成一张图要等更久,还让文本和图像的多模态对齐变得异常困难。很多开发者都有过类似经历:为了调优VAE和U-Net的特征对齐,研发周期被迫拉长数周,而推理时的显存占用始终居高不下,成为落地时的一大障碍。

    这些层层叠加的技术组件,本质上都是为了弥补初始目标设计的缺陷,最终形成了沉重的技术债务,让AI绘画模型陷入“越优化越复杂”的循环。

    二、核心破局:换个目标,让系统“轻装上阵”

    何恺明团队的核心洞察,是把模型目标从“预测噪声”改成“直接预测原图”(x-prediction)。这背后藏着一个关键的数学逻辑——流形假设。

    简单来说,真实世界中的有效图像(比如一只猫、一朵花),在数学上其实分布在一个极低维度的“流形”上,就像在广阔沙漠中只有一条清晰的道路;而噪声则充满了整个高维空间,如同沙漠中漫天的黄沙。

    过去让模型预测噪声,相当于让AI在漫天黄沙中寻找规律,难度极大,只能靠VAE降维等手段辅助;而让模型直接预测原图,就相当于让AI始终朝着那条清晰的道路前进,目标函数的收敛性自然更好。

    MIT最新研究显示,一旦切换到x-prediction目标,之前复杂的VAE、Tokenizer等组件都成了多余。只需要一个最基础的Transformer(ViT),就能跑通AI绘画的全流程——这就是JiT(Just image Transformers)架构的核心逻辑。

    三、架构革命:极简主义的“少即是多”

    JiT的设计哲学堪称激进,它砍掉了所有非必要的“特殊设计”,回归到最纯粹的端到端优化:

    • 无需Tokenizer:不用把图像切成小块编码,直接处理原始图像数据;
    • 无需VAE:在像素空间直接生成图像,所见即所得,彻底避免压缩带来的信息损耗;
    • 可选CLIP:即便不依赖大规模预训练的文本编码器,也能生成有意义的图像。

    这种架构变革,让AI绘画模型的开发逻辑从“搭积木式”的组件拼凑,回归到“端到端”的统一优化,从根源上简化了技术栈,也为解决长期存在的技术债务提供了新思路。

    四、商业落地:机遇与挑战并存

    作为产品人,JiT架构的价值远不止于技术简化,更可能重构AI绘画的成本结构和行业生态,但落地过程也面临三重现实考验:

    1. 研发成本的“降维空间”

    目前训练一个Stable Diffusion 2级别的模型,仅硬件成本就约5万美元,再加上调试VAE、数据清洗、对齐微调的人力成本,总拥有成本(TCO)相当高昂。JiT证明了去掉VAE预训练环节的可行性,如果复用这种架构,下一代模型的冷启动训练时间有望大幅缩减,迭代速度将显著提升,这对企业来说是重要的成本洼地。

    2. 生态迁移的“转换成本”

    虽然JiT架构更简洁,但商业化落地面临巨大的生态壁垒。目前AI绘画的整个生态(比如ControlNet、LoRA、AnimateDiff等插件)都建立在Stable Diffusion的潜空间之上,若转向JiT,所有社区插件都需要重写。对商业公司而言,技术优势往往难以对抗生态优势,除非JiT能在生成质量上实现类似Sora对视频模型的“降维打击”,否则短期内很难撼动SD的主导地位。

    3. 算力需求的“平衡博弈”

    直接在像素空间运行Transformer,计算量会大幅增加。传统LDM通过潜空间压缩,能将计算需求降低约48倍,而JiT为了应对计算暴涨,采用了激进的像素打包策略(比如将16×16或32×32的像素打包处理),本质上是用“颗粒度”换取“计算效率”。这可能导致JiT在手机等低算力端侧设备的部署难度,比SD还要大,如何平衡计算效率与生成质量,是其商业化的关键。

    五、回归本质:产品复杂时,先检查目标是否正确

    目前来看,JiT的生成效果(FID Score)虽有竞争力,但尚未达到商业级的惊艳水准,还不是Midjourney V6的直接竞争对手。但它的战略意义远超技术本身——它教会我们“去习得”(Unlearning):过去三年在扩散模型上堆砌的复杂组件,可能只是为了弥补初始目标错误而打的补丁。

    这对产品人有着深刻的启示:当我们的产品逻辑越来越臃肿,需要靠无数个边缘案例的补丁来维持运转时,不妨停下来反思:是不是从一开始,我们的北极星指标(North Star Metric)就定错了?

    技术的进步往往不是源于组件的堆砌,而是源于对核心问题的重新审视。JiT架构的出现,让AI绘画回归到“直接生成图像”的本质目标,也为整个行业提供了一个重要思路:回归本源,或许才是突破瓶颈的最短路径。

    本文由 @命运石之门 原创发布于人人都是产品经理。未经作者许可,禁止转载

    题图来自Unsplash,基于CC0协议