
Xin Zhiyuan报告编辑:KingHz [Xin Zhiyuan简介] Heiming团队的另一个杰作!这次,他们为生成模型世界带来了“降低维度的打击” - 均值:没有预训练,没有蒸馏,没有课程研究,只有功能审查的一步(1-NFE),您可以压碎以前的扩散和流模型!他是凯明(Kaiming)有一篇新论文!新生成模型平均流的最大亮点是,它将完全摆脱传统的训练范式 - 它不需要预训练,蒸馏或课程研究,并且只能通过功能审查(1-NFE)来开发。 MeanFlow在ImageNet 256×256中得分为3.43,从一开始就可以在训练下达到SOTA性能。图1(第1部分):Imagenet 256×256在Imagenet 256×256数据集中生成一步的结果,平均流量在一次功能综述(1-NFE)中获得了3.43的得分,在先前最佳方法的相对方法中,有50%至70%类(见图1的左侧)。此外,平均流训练过程从一开始就开始,而没有预训练,蒸馏或课程研究。扩展全文
图1(左):计算能力和第一次评论FID分数
其中,ICT,快捷方式和MF都是一次性功能测试(1-NFE),而IMM使用两次评估自举方法(2-NFE)。
有关特定值,请参见表2。
表2:Imagenet-256×256中的分类条件,统计数据,例如参数,FID分数和其他模型
这是一个很大的交易,其中有5种设定,其中4个是中文,全部来自CMU和MIT的领先学校。
其中一个是在CMU学习的医生Geng Zhengyang,在访问MIT期间完成了这项研究工作的一部分。
纸张链接:https://arxiv.org/abs/2505.13447
在新论文中,研究人员提出了一个系统,有效的一个步骤生成建模框架。
传统的流程匹配取决于s在建模速度上立即引入平均速度场的概念。
平均速度是指“去除/时间间隔”的比率,这是时间轴时立即速度的重要组成部分。
仅基于此定义,研究人员来自平均速度和即时速度之间的明确而内在的数学关系,这证明了神经网络培训的理论基础。
在这个基本概念中,直接对神经网络进行了训练,以建模平均速度场。
直到今天,研究人员已经设计了新的损失损失,以指导网络解决平均速度和立即速度之间的内在关系,而无需进一步启发。
由于存在定义良好的目标速度场,理论最佳解决方案和特定的网络结构是不合适的,因此这种特征有助于训练过程变得更稳定和稳定。
此外,新程序可能自然在目标速度字段中包括分类器(CFG)指南(CFG),在采样阶段使用启动时,没有其他计算开销。
详细的结果
在图1和Talahanayan 2(左)中,研究人员将平均流量与现有的一个步骤扩散/流量进行了比较。
通常,平均流在类似方法中的性能明显更高:
与IMM的7.77相比,新模型在ImageNet 256×256中的FID得分达到3.43,相对儿童增加了50%以上。
如果比较了1-NFE产生的结果(功能评估),则与先前的最佳技术方法相比,平均流量相对提高了几乎70%(FID 10.60)。
与IMM的7.77相比,新模型在ImageNet 256×256中的FID得分达到3.43,相对儿童增加了50%以上。
如果比较1-NFE生成的结果(功能评估),则平均流量相对改善与先前的最佳程序快捷方式(FID 10.60)相比,易于近70%。
它表明,平均流完全缩小了一个步骤和多步扩散/流模型之间的性能差距。
在2-NFE设置(两次功能函数)下,新过程的FID标记为2.20(请参阅表2的左下角)。
该结果与许多多步法方法的最佳基线相媲美。
他们都使用脊柱网络的XL/2级别,NFE达到250×2(请参见表2的右侧)。
它进一步表明,具有很小步骤的扩散/流模型具有挑战多步模型的潜力。
此外,将来的性能可以进一步提高。
图5:1-NFE生成结果的示例
在CIFAR-10数据集(32×32)中,研究人员进行了无条件的基因组接种实验,结果列在表3中。
使用1-NFE采样时,他们使用FID-50K标记作为性能测量。
所有过程S采用了相同的U-NET体系结构(约5500万个参数)。
应该注意的是,所有其他比较方法都使用EDM式前调节器(前调节器),而新方法不使用任何预处理器。
在CIFAR-10数据集中,新过程将与现有性能方法具有竞争力。
表3:CIFAR-10无条件生成结果
SVIN:流匹配
流匹配(简称FM)是生成建模范式。
流量匹配组合结合了扩散模型(DMS)的几种基本思想,减轻了两种方法中存在的主要问题。从表面上讲,鉴于数据x〜pdata(x)和先前的噪声ϵ 〜pprior(ϵ),可以构建流程路径。
如果T表示时间,则A_T和B_T是预设调度函数。
路径的速度定义为
此速度称为条件的状况。参见图2的左侧。
流匹配本质上是建模所有人的期望可能的情况,这种平均速度称为边际速度(请参见图2的右侧):
图2:匹配流场的示意图。左图:条件流动。可以通过(x,ϵ)的不同组合形成相同的z_t,因此对应于条件v_t的不同条件。右:边缘流。通过边缘化(平均)条件的所有可能条件来获得侧速场。练习神经网络时,该边缘的字段比边缘用作“真正的目标速度场”。
图例描述:颜色点表示样本是从先验分布中的样本,红点代表来自实际数据分布的样本。
接下来,找出由参数θ表示的神经网络v_θ,以适合场速度场,其失去损失为:
但是,由于公式(1)中的边缘化过程很难直接计算,因此流量匹配表明使用流量-MA的损失而是tching条件:
哪个V_T目标是步伐的条件。
可以证明,最小化上两个损失的损失是等效的。
当获得侧面V(z_t,t)的边缘时,可以通过解决以下NOT NONOD普通自定义方程(ODE)来形成样本:
初始值为z_1 = ϵ,对上差 - A方程的解决方案可以以整体形式写入:
这代表了另一个时间点。
实际上,通常通过数字方法在单独的时间步骤中估算此积分。
值得注意的是,尽管条件流程被设计为“线性流”(即所谓的“校正流”),但速度(公式(1))的结果场通常表示弯曲轨迹(参见图2中的示意图)。
这种弯曲轨迹不仅是由于神经网络的近似误差所致,而且还来自真实的边缘速度场本身。
当这些扭曲轨迹使用粗粒度时间离散化时,T他对ode数的求解通常会产生大量的蛋糕,从而导致产生不准确。
模型平均流
流的含义的基本思想是引入一个代表平均速度的新字段,而传统流量与立即速度的模型相匹配。
平均速度定义为在两个小时t和r之间的去除(通过合并速度获得),并除以时间间隔。
正式地,U的平均速度指定如下:
为了突出该概念的差异,U用于表示平均速度,V表示立即速度。
如图3所示,平均速度字段u(z_t,r,t)取决于相同的开始时间r和结束时间t。
图3:平均速度场
应当指出的是,U的平均速度本质上是立即速度V的表现。
因此,平均速度场由即时速度场确定,并且不限制在任何神经网络上。
概念说话,例如在匹配流中,V的即时速度是用于训练的“真实目标字段”,而在平均流量中,U平均速度起着相似的作用,这是研究所基于的“真实速度领域”。
平均流模型的最终目的估计是使用神经网络的平均速度场。
它的优势是显着的:当平均速度被准确修改时,可以简单地计算向前,可以估算整个流动路径。
换句话说,此过程是一代活动中一个或更少步骤的理想选择,因为它不需要在理解过程中明确计算时间积分 - 直接速度方法传统建模所需的步骤。
但是,实际上,它不会直接使用公式(3)指定的平均速度作为训练网络的“实际值”,因为它要求在t期间以速度立即执行这些点下雨,这很昂贵,不可行。
研究人员的主要观点是,平均速度的定义在数学中可能会变形,从而为优化训练而更容易,即使即时速度可以访问。
平均流体身份
要获得适合培训的表格,确定平均速度(3)的公式被重写为:
接下来,我们发现该方程式两侧的派生型(以r作为父same),然后使用乘积功能的衍生物和微积分的主要定理来获得:
通过对上述方程式进行分类,您可以获得核心平均流识别:
它描述了U的平均速度与即时速度V之间的基本连接。
应当注意,公式(6)等于先前的积分公式(4)(有关详细信息,请参见附录B.3)。
通过识别平均流量,将为公式的右侧提供一个可以用作目标训练的表格,可以使用它为了训练神经网络以预测U(Z_T,R,T)。
为了发展此损失的功能,有必要在其中进一步腐烂衍生术语。
计算时间导数
要计算公式(6)右侧第二项的总导数,可以将其扩展如下:
在这里带来衍生关系提供:
它提供了另一种表达U和V之间关系的方法。
自动差异 - 不同的神经网络用于在训练过程中有效计算术语派生术语。
使用平均速度进行训练
与现在一样,上述公式不参与任何网络参数。现在介绍学习的U_θ模型,并希望它对平均流量(公式(6))身份满意。
研究人员指定了以下损失功能,以优化网络参数:
在哪里,u_tgt是由平均流身份构建的目标训练:
这个目标的许多要点是如下:
训练信号源自即时V速度,不需要整体操作,因此实施比平均速度的平均值更容易实施(3)。
尽管U的局部衍生物出现在公式中,但在实际实践中使用了网络Uθ输出的梯度(差异的自动实现)。
定型梯度操作(定义为SG):这是为了防止“二阶向后流动”,从而减轻了优化的计算负担。
训练信号源自即时V速度,不需要整体操作,因此比平均速度感(3)更容易实现。
尽管U的局部衍生物出现在公式中,但在实际实践中使用了网络Uθ输出的梯度(差异的自动实现)。
定型梯度操作(定义为SG):这是为了防止“二阶背流”,从而减少了计算NAL优化负担。
达潘注意到,即使在优化时进行了这些近似值,只要U_θ最终可能损失零,均值的身份肯定会满足,从而满足平均速度的初始定义。
病情的速度取代了边缘速度
公式(10)中的V(z_t,t)是匹配流中边缘的边缘(请参见图2的右侧),但很难直接计算。
因此,确定现有的匹配技能,使用条件速度(请参见图2的左侧):
这是VT = AT'X+BT'IS是条件的速度,VT = ϵ -X在默认设置下。
纸张链接:https://arxiv.org/abs/2210.02747
在算法1中,JVP操作(Jacobian-vector产品)非常好。
使用平均流量模型唱歌非常简单:只需用平均bilis替换积分术语时间,有关伪代码的详细信息,请参见算法2。
带有启动的平均流量
新程序可以n在没有分类器(CFG)的情况下,在无需支持指南。
与直接将CFG应用于采样阶段的传统技能不同,研究人员认为CFG是基础“实际速度领域”的一部分。
此建模过程可以在巴掌时保持CFG的影响,同时保持1-NFE的性能。
建立一个真实的速度场
研究人员指定了一个新的VCFG速度领域指南:
这是班级中的场状条件,也是无条件的场。NAL场的线性组合)。
其中,类别条件类别(即在C类C的给定条件下的侧脚)和无条件边缘的定义如下:
Susunod,我们模仿平均流程,以引入VCFG的相应平均速度。
根据Meanflow的身份(等式6),我们有:
我们再次强调,VCFG和UCFG都是理论上的真实速度字段,与神经网络参数无关。
另外,源自公式(13)和平均流IDEntity:
这可以简化计算。
指导培训方法
为了与神经网络UCFG(θ)拟合平均速度场,有必要开发以下训练目标:
目标值在哪里:
右边的第一个项目是启动重量集成后速度的定义:
描述:
其中v_t是样本条件的速度,默认设置为vt = ϵ -x。
如果ω= 1,即条件指导类别,则损失的损失会降低没有CFG的公式(9)。
定型梯度操作用于阻止网络参数目标的反向传播,并防止二阶梯度计算。
其中v_t是样本条件的速度,默认设置为vt = ϵ -x。
如果ω= 1,即条件指导类别,则损失的损失会降低没有CFG的公式(9)。
定型梯度操作用于阻碍网络参数目标的反向传播,并防止第二次订单梯度计算。
此外,为了增强网络在没有类别的情况下概括输入的能力,类别条件被随机丢弃,可能性为0%。
CFG在单个NFE下进行采样
在这种方法中,网络直接了解了平均速度引起的启动VCFG速度。
因此,在采样阶段,无需执行线性组合计算,并且可以通过直接网络调用来完成一个步骤采样(请参见算法2)。
最后,在维持CFG的影响时,考虑到效率和质量,它仍然在完美的单步抽样性能(1-NFE)之前保存下来。
介绍
Zhengyang Geng
Geng Zhengyang是在卡内基梅隆大学(CMU)的计算机科学研究的医生。
2020年,他毕业于四川大学,获得了计算机科学技术学士学位。
他曾多次在北京大学,元和其他机构参加国际。
r效率:
https://arxiv.org/abs/2505.13447
https://mlg.eng.cam.ac.uk/blog/2024/01/20/flow-matching.html回到Sohu,查看更多