他是一样的,其他人的罢工降低了!完全推翻A
栏目:媒体新闻 发布时间:2025-05-22 09:39
Xin Zhiyuan报告编辑:KingHz [Xin Zhiyuan简介] Heiming团队的另一个杰作!在这种情况下,他们为生成模型的世界带来了“降低维度...
Xin Zhiyuan报告编辑:KingHz [Xin Zhiyuan简介] Heiming团队的另一个杰作!这次,他们为生成模型世界带来了“降低维度的打击” - 均值:没有预训练,没有蒸馏,没有课程研究,只有功能审查的一步(1-NFE),您可以压碎以前的扩散和流模型!他是凯明(Kaiming)有一篇新论文!新生成模型平均流的最大亮点是,它将完全摆脱传统的训练范式 - 它不需要预训练,蒸馏或课程研究,并且只能通过功能审查(1-NFE)来开发。 MeanFlow在ImageNet 256×256中得分为3.43,从一开始就可以在训练下达到SOTA性能。图1(第1部分):Imagenet 256×256在Imagenet 256×256数据集中生成一步的结果,平均流量在一次功能综述(1-NFE)中获得了3.43的得分,在先前最佳方法的相对方法中,有50%至70%类(见图1的左侧)。此外,平均流训练过程从一开始就开始,而没有预训练,蒸馏或课程研究。扩展全文 图1(左):计算能力和第一次评论FID分数 其中,ICT,快捷方式和MF都是一次性功能测试(1-NFE),而IMM使用两次评估自举方法(2-NFE)。 有关特定值,请参见表2。 表2:Imagenet-256×256中的分类条件,统计数据,例如参数,FID分数和其他模型 这是一个很大的交易,其中有5种设定,其中4个是中文,全部来自CMU和MIT的领先学校。 其中一个是在CMU学习的医生Geng Zhengyang,在访问MIT期间完成了这项研究工作的一部分。 纸张链接:https://arxiv.org/abs/2505.13447 在新论文中,研究人员提出了一个系统,有效的一个步骤生成建模框架。 传统的流程​​匹配取决于s在建模速度上立即引入平均速度场的概念。 平均速度是指“去除/时间间隔”的比率,这是时间轴时立即速度的重要组成部分。 仅基于此定义,研究人员来自平均速度和即时速度之间的明确而内在的数学关系,这证明了神经网络培训的理论基础。 在这个基本概念中,直接对神经网络进行了训练,以建模平均速度场。 直到今天,研究人员已经设计了新的损失损失,以指导网络解决平均速度和立即速度之间的内在关系,而无需进一步启发。 由于存在定义良好的目标速度场,理论最佳解决方案和特定的网络结构是不合适的,因此这种特征有助于训练过程变得更稳定和稳定。 此外,新程序可能自然在目标速度字段中包括分类器(CFG)指南(CFG),在采样阶段使用启动时,没有其他计算开销。 详细的结果 在图1和Talahanayan 2(左)中,研究人员将平均流量与现有的一个步骤扩散/流量进行了比较。 通常,平均流在类似方法中的性能明显更高: 与IMM的7.77相比,新模型在ImageNet 256×256中的FID得分达到3.43,相对儿童增加了50%以上。 如果比较了1-NFE产生的结果(功能评估),则与先前的最佳技术方法相比,平均流量相对提高了几乎70%(FID 10.60)。 与IMM的7.77相比,新模型在ImageNet 256×256中的FID得分达到3.43,相对儿童增加了50%以上。 如果比较1-NFE生成的结果(功能评估),则平均流量相对改善与先前的最佳程序快捷方式(FID 10.60)相比,易于近70%。 它表明,平均流完全缩小了一个步骤和多步扩散/流模型之间的性能差距。 在2-NFE设置(两次功能函数)下,新过程的FID标记为2.20(请参阅表2的左下角)。 该结果与许多多步法方法的最佳基线相媲美。 他们都使用脊柱网络的XL/2级别,NFE达到250×2(请参见表2的右侧)。 它进一步表明,具有很小步骤的扩散/流模型具有挑战多步模型的潜力。 此外,将来的性能可以进一步提高。 图5:1-NFE生成结果的示例 在CIFAR-10数据集(32×32)中,研究人员进行了无条件的基因组接种实验,结果列在表3中。 使用1-NFE采样时,他们使用FID-50K标记作为性能测量。 所有过程S采用了相同的U-NET体系结构(约5500万个参数)。 应该注意的是,所有其他比较方法都使用EDM式前调节器(前调节器),而新方法不使用任何预处理器。 在CIFAR-10数据集中,新过程将与现有性能方法具有竞争力。 表3:CIFAR-10无条件生成结果 SVIN:流匹配 流匹配(简称FM)是生成建模范式。 流量匹配组合结合了扩散模型(DMS)的几种基本思想,减轻了两种方法中存在的主要问题。从表面上讲,鉴于数据x〜pdata(x)和先前的噪声ϵ 〜pprior(ϵ),可以构建流程路径。 如果T表示时间,则A_T和B_T是预设调度函数。 路径的速度定义为 此速度称为条件的状况。参见图2的左侧。 流匹配本质上是建模所有人的期望可能的情况,这种平均速度称为边际速度(请参见图2的右侧): 图2:匹配流场的示意图。左图:条件流动。可以通过(x,ϵ)的不同组合形成相同的z_t,因此对应于条件v_t的不同条件。右:边缘流。通过边缘化(平均)条件的所有可能条件来获得侧速场。练习神经网络时,该边缘的字段比边缘用作“真正的目标速度场”。 图例描述:颜色点表示样本是从先验分布中的样本,红点代表来自实际数据分布的样本。 接下来,找出由参数θ表示的神经网络v_θ,以适合场速度场,其失去损失为: 但是,由于公式(1)中的边缘化过程很难直接计算,因此流量匹配表明使用流量-MA的损失而是tching条件: 哪个V_T目标是步伐的条件。 可以证明,最小化上两个损失的损失是等效的。 当获得侧面V(z_t,t)的边缘时,可以通过解决以下NOT NONOD普通自定义方程(ODE)来形成样本: 初始值为z_1 = ϵ,对上差 - A方程的解决方案可以以整体形式写入: 这代表了另一个时间点。 实际上,通常通过数字方法在单独的时间步骤中估算此积分。 值得注意的是,尽管条件流程被设计为“线性流”(即所谓的“校正流”),但速度(公式(1))的结果场通常表示弯曲轨迹(参见图2中的示意图)。 这种弯曲轨迹不仅是由于神经网络的近似误差所致,而且还来自真实的边缘速度场本身。 当这些扭曲轨迹使用粗粒度时间离散化时,T他对ode数的求解通常会产生大量的蛋糕,从而导致产生不准确。 模型平均流 流的含义的基本思想是引入一个代表平均速度的新字段,而传统流量与立即速度的模型相匹配。 平均速度定义为在两个小时t和r之间的去除(通过合并速度获得),并除以时间间隔。 正式地,U的平均速度指定如下: 为了突出该概念的差异,U用于表示平均速度,V表示立即速度。 如图3所示,平均速度字段u(z_t,r,t)取决于相同的开始时间r和结束时间t。 图3:平均速度场 应当指出的是,U的平均速度本质上是立即速度V的表现。 因此,平均速度场由即时速度场确定,并且不限制在任何神经网络上。 概念说话,例如在匹配流中,V的即时速度是用于训练的“真实目标字段”,而在平均流量中,U平均速度起着相似的作用,这是研究所基于的“真实速度领域”。 平均流模型的最终目的估计是使用神经网络的平均速度场。 它的优势是显着的:当平均速度被准确修改时,可以简单地计算向前,可以估算整个流动路径。 换句话说,此过程是一代活动中一个或更少步骤的理想选择,因为它不需要在理解过程中明确计算时间积分 - 直接速度方法传统建模所需的步骤。 但是,实际上,它不会直接使用公式(3)指定的平均速度作为训练网络的“实际值”,因为它要求在t期间以速度立即执行这些点下雨,这很昂贵,不可行。 研究人员的主要观点是,平均速度的定义在数学中可能会变形,从而为优化训练而更容易,即使即时速度可以访问。 平均流体身份 要获得适合培训的表格,确定平均速度(3)的公式被重写为: 接下来,我们发现该方程式两侧的派生型(以r作为父same),然后使用乘积功能的衍生物和微积分的主要定理来获得: 通过对上述方程式进行分类,您可以获得核心平均流识别: 它描述了U的平均速度与即时速度V之间的基本连接。 应当注意,公式(6)等于先前的积分公式(4)(有关详细信息,请参见附录B.3)。 通过识别平均流量,将为公式的右侧提供一个可以用作目标训练的表格,可以使用它为了训练神经网络以预测U(Z_T,R,T)。 为了发展此损失的功能,有必要在其中进一步腐烂衍生术语。 计算时间导数 要计算公式(6)右侧第二项的总导数,可以将其扩展如下: 在这里带来衍生关系提供: 它提供了另一种表达U和V之间关系的方法。 自动差异 - 不同的神经网络用于在训练过程中有效计算术语派生术语。 使用平均速度进行训练 与现在一样,上述公式不参与任何网络参数。现在介绍学习的U_θ模型,并希望它对平均流量(公式(6))身份满意。 研究人员指定了以下损失功能,以优化网络参数: 在哪里,u_tgt是由平均流身份构建的目标训练: 这个目标的许多要点是如下: 训练信号源自即时V速度,不需要整体操作,因此实施比平均速度的平均值更容易实施(3)。 尽管U的局部衍生物出现在公式中,但在实际实践中使用了网络Uθ输出的梯度(差异的自动实现)。 定型梯度操作(定义为SG):这是为了防止“二阶向后流动”,从而减轻了优化的计算负担。 训练信号源自即时V速度,不需要整体操作,因此比平均速度感(3)更容易实现。 尽管U的局部衍生物出现在公式中,但在实际实践中使用了网络Uθ输出的梯度(差异的自动实现)。 定型梯度操作(定义为SG):这是为了防止“二阶背流”,从而减少了计算NAL优化负担。 达潘注意到,即使在优化时进行了这些近似值,只要U_θ最终可能损失零,均值的身份肯定会满足,从而满足平均速度的初始定义。 病情的速度取代了边缘速度 公式(10)中的V(z_t,t)是匹配流中边缘的边缘(请参见图2的右侧),但很难直接计算。 因此,确定现有的匹配技能,使用条件速度(请参见图2的左侧): 这是VT = AT'X+BT'IS是条件的速度,VT = ϵ -X在默认设置下。 纸张链接:https://arxiv.org/abs/2210.02747 在算法1中,JVP操作(Jacobian-vector产品)非常好。 使用平均流量模型唱歌非常简单:只需用平均bilis替换积分术语时间,有关伪代码的详细信息,请参见算法2。 带有启动的平均流量 新程序可以n在没有分类器(CFG)的情况下,在无需支持指南。 与直接将CFG应用于采样阶段的传统技能不同,研究人员认为CFG是基础“实际速度领域”的一部分。 此建模过程可以在巴掌时保持CFG的影响,同时保持1-NFE的性能。 建立一个真实的速度场 研究人员指定了一个新的VCFG速度领域指南: 这是班级中的场状条件,也是无条件的场。NAL场的线性组合)。 其中,类别条件类别(即在C类C的给定条件下的侧脚)和无条件边缘的定义如下: Susunod,我们模仿平均流程,以引入VCFG的相应平均速度。 根据Meanflow的身份(等式6),我们有: 我们再次强调,VCFG和UCFG都是理论上的真实速度字段,与神经网络参数无关。 另外,源自公式(13)和平均流IDEntity: 这可以简化计算。 指导培训方法 为了与神经网络UCFG(θ)拟合平均速度场,有必要开发以下训练目标: 目标值在哪里: 右边的第一个项目是启动重量集成后速度的定义: 描述: 其中v_t是样本条件的速度,默认设置为vt = ϵ -x。 如果ω= 1,即条件指导类别,则损失的损失会降低没有CFG的公式(9)。 定型梯度操作用于阻止网络参数目标的反向传播,并防止二阶梯度计算。 其中v_t是样本条件的速度,默认设置为vt = ϵ -x。 如果ω= 1,即条件指导类别,则损失的损失会降低没有CFG的公式(9)。 定型梯度操作用于阻碍网络参数目标的反向传播,并防止第二次订单梯度计算。 此外,为了增强网络在没有类别的情况下概括输入的能力,类别条件被随机丢弃,可能性为0%。 CFG在单个NFE下进行采样 在这种方法中,网络直接了解了平均速度引起的启动VCFG速度。 因此,在采样阶段,无需执行线性组合计算,并且可以通过直接网络调用来完成一个步骤采样(请参见算法2)。 最后,在维持CFG的影响时,考虑到效率和质量,它仍然在完美的单步抽样性能(1-NFE)之前保存下来。 介绍 Zhengyang Geng Geng Zhengyang是在卡内基梅隆大学(CMU)的计算机科学研究的医生。 2020年,他毕业于四川大学,获得了计算机科学技术学士学位。 他曾多次在北京大学,元和其他机构参加国际。 r效率: https://arxiv.org/abs/2505.13447 https://mlg.eng.cam.ac.uk/blog/2024/01/20/flow-matching.html回到Sohu,查看更多