他是一样的，其他人的罢工降低了！完全推翻A_森林舞会电玩城游戏大厅

他是一样的，其他人的罢工降低了！完全推翻A

栏目：媒体新闻发布时间：2025-05-22 09:39

Xin Zhiyuan报告编辑：KingHz [Xin Zhiyuan简介] Heiming团队的另一个杰作！在这种情况下，他们为生成模型的世界带来了“降低维度...

Xin Zhiyuan报告编辑：KingHz [Xin Zhiyuan简介] Heiming团队的另一个杰作！这次，他们为生成模型世界带来了“降低维度的打击” - 均值：没有预训练，没有蒸馏，没有课程研究，只有功能审查的一步（1-NFE），您可以压碎以前的扩散和流模型！他是凯明（Kaiming）有一篇新论文！新生成模型平均流的最大亮点是，它将完全摆脱传统的训练范式 - 它不需要预训练，蒸馏或课程研究，并且只能通过功能审查（1-NFE）来开发。 MeanFlow在ImageNet 256×256中得分为3.43，从一开始就可以在训练下达到SOTA性能。图1（第1部分）：Imagenet 256×256在Imagenet 256×256数据集中生成一步的结果，平均流量在一次功能综述（1-NFE）中获得了3.43的得分，在先前最佳方法的相对方法中，有50％至70％类（见图1的左侧）。此外，平均流训练过程从一开始就开始，而没有预训练，蒸馏或课程研究。扩展全文图1（左）：计算能力和第一次评论FID分数其中，ICT，快捷方式和MF都是一次性功能测试（1-NFE），而IMM使用两次评估自举方法（2-NFE）。有关特定值，请参见表2。表2：Imagenet-256×256中的分类条件，统计数据，例如参数，FID分数和其他模型这是一个很大的交易，其中有5种设定，其中4个是中文，全部来自CMU和MIT的领先学校。其中一个是在CMU学习的医生Geng Zhengyang，在访问MIT期间完成了这项研究工作的一部分。纸张链接：https：//arxiv.org/abs/2505.13447 在新论文中，研究人员提出了一个系统，有效的一个步骤生成建模框架。传统的流程匹配取决于s在建模速度上立即引入平均速度场的概念。平均速度是指“去除/时间间隔”的比率，这是时间轴时立即速度的重要组成部分。仅基于此定义，研究人员来自平均速度和即时速度之间的明确而内在的数学关系，这证明了神经网络培训的理论基础。在这个基本概念中，直接对神经网络进行了训练，以建模平均速度场。直到今天，研究人员已经设计了新的损失损失，以指导网络解决平均速度和立即速度之间的内在关系，而无需进一步启发。由于存在定义良好的目标速度场，理论最佳解决方案和特定的网络结构是不合适的，因此这种特征有助于训练过程变得更稳定和稳定。此外，新程序可能自然在目标速度字段中包括分类器（CFG）指南（CFG），在采样阶段使用启动时，没有其他计算开销。详细的结果在图1和Talahanayan 2（左）中，研究人员将平均流量与现有的一个步骤扩散/流量进行了比较。通常，平均流在类似方法中的性能明显更高：与IMM的7.77相比，新模型在ImageNet 256×256中的FID得分达到3.43，相对儿童增加了50％以上。如果比较了1-NFE产生的结果（功能评估），则与先前的最佳技术方法相比，平均流量相对提高了几乎70％（FID 10.60）。与IMM的7.77相比，新模型在ImageNet 256×256中的FID得分达到3.43，相对儿童增加了50％以上。如果比较1-NFE生成的结果（功能评估），则平均流量相对改善与先前的最佳程序快捷方式（FID 10.60）相比，易于近70％。它表明，平均流完全缩小了一个步骤和多步扩散/流模型之间的性能差距。在2-NFE设置（两次功能函数）下，新过程的FID标记为2.20（请参阅表2的左下角）。该结果与许多多步法方法的最佳基线相媲美。他们都使用脊柱网络的XL/2级别，NFE达到250×2（请参见表2的右侧）。它进一步表明，具有很小步骤的扩散/流模型具有挑战多步模型的潜力。此外，将来的性能可以进一步提高。图5：1-NFE生成结果的示例在CIFAR-10数据集（32×32）中，研究人员进行了无条件的基因组接种实验，结果列在表3中。使用1-NFE采样时，他们使用FID-50K标记作为性能测量。所有过程S采用了相同的U-NET体系结构（约5500万个参数）。应该注意的是，所有其他比较方法都使用EDM式前调节器（前调节器），而新方法不使用任何预处理器。在CIFAR-10数据集中，新过程将与现有性能方法具有竞争力。表3：CIFAR-10无条件生成结果 SVIN：流匹配流匹配（简称FM）是生成建模范式。流量匹配组合结合了扩散模型（DMS）的几种基本思想，减轻了两种方法中存在的主要问题。从表面上讲，鉴于数据x〜pdata（x）和先前的噪声ϵ 〜pprior（ϵ），可以构建流程路径。如果T表示时间，则A_T和B_T是预设调度函数。路径的速度定义为此速度称为条件的状况。参见图2的左侧。流匹配本质上是建模所有人的期望可能的情况，这种平均速度称为边际速度（请参见图2的右侧）：图2：匹配流场的示意图。左图：条件流动。可以通过（x，ϵ）的不同组合形成相同的z_t，因此对应于条件v_t的不同条件。右：边缘流。通过边缘化（平均）条件的所有可能条件来获得侧速场。练习神经网络时，该边缘的字段比边缘用作“真正的目标速度场”。图例描述：颜色点表示样本是从先验分布中的样本，红点代表来自实际数据分布的样本。接下来，找出由参数θ表示的神经网络v_θ，以适合场速度场，其失去损失为：但是，由于公式（1）中的边缘化过程很难直接计算，因此流量匹配表明使用流量-MA的损失而是tching条件：哪个V_T目标是步伐的条件。可以证明，最小化上两个损失的损失是等效的。当获得侧面V（z_t，t）的边缘时，可以通过解决以下NOT NONOD普通自定义方程（ODE）来形成样本：初始值为z_1 = ϵ，对上差 - A方程的解决方案可以以整体形式写入：这代表了另一个时间点。实际上，通常通过数字方法在单独的时间步骤中估算此积分。值得注意的是，尽管条件流程被设计为“线性流”（即所谓的“校正流”），但速度（公式（1））的结果场通常表示弯曲轨迹（参见图2中的示意图）。这种弯曲轨迹不仅是由于神经网络的近似误差所致，而且还来自真实的边缘速度场本身。当这些扭曲轨迹使用粗粒度时间离散化时，T他对ode数的求解通常会产生大量的蛋糕，从而导致产生不准确。模型平均流流的含义的基本思想是引入一个代表平均速度的新字段，而传统流量与立即速度的模型相匹配。平均速度定义为在两个小时t和r之间的去除（通过合并速度获得），并除以时间间隔。正式地，U的平均速度指定如下：为了突出该概念的差异，U用于表示平均速度，V表示立即速度。如图3所示，平均速度字段u（z_t，r，t）取决于相同的开始时间r和结束时间t。图3：平均速度场应当指出的是，U的平均速度本质上是立即速度V的表现。因此，平均速度场由即时速度场确定，并且不限制在任何神经网络上。概念说话，例如在匹配流中，V的即时速度是用于训练的“真实目标字段”，而在平均流量中，U平均速度起着相似的作用，这是研究所基于的“真实速度领域”。平均流模型的最终目的估计是使用神经网络的平均速度场。它的优势是显着的：当平均速度被准确修改时，可以简单地计算向前，可以估算整个流动路径。换句话说，此过程是一代活动中一个或更少步骤的理想选择，因为它不需要在理解过程中明确计算时间积分 - 直接速度方法传统建模所需的步骤。但是，实际上，它不会直接使用公式（3）指定的平均速度作为训练网络的“实际值”，因为它要求在t期间以速度立即执行这些点下雨，这很昂贵，不可行。研究人员的主要观点是，平均速度的定义在数学中可能会变形，从而为优化训练而更容易，即使即时速度可以访问。平均流体身份要获得适合培训的表格，确定平均速度（3）的公式被重写为：接下来，我们发现该方程式两侧的派生型（以r作为父same），然后使用乘积功能的衍生物和微积分的主要定理来获得：通过对上述方程式进行分类，您可以获得核心平均流识别：它描述了U的平均速度与即时速度V之间的基本连接。应当注意，公式（6）等于先前的积分公式（4）（有关详细信息，请参见附录B.3）。通过识别平均流量，将为公式的右侧提供一个可以用作目标训练的表格，可以使用它为了训练神经网络以预测U（Z_T，R，T）。为了发展此损失的功能，有必要在其中进一步腐烂衍生术语。计算时间导数要计算公式（6）右侧第二项的总导数，可以将其扩展如下：在这里带来衍生关系提供：它提供了另一种表达U和V之间关系的方法。自动差异 - 不同的神经网络用于在训练过程中有效计算术语派生术语。使用平均速度进行训练与现在一样，上述公式不参与任何网络参数。现在介绍学习的U_θ模型，并希望它对平均流量（公式（6））身份满意。研究人员指定了以下损失功能，以优化网络参数：在哪里，u_tgt是由平均流身份构建的目标训练：这个目标的许多要点是如下：训练信号源自即时V速度，不需要整体操作，因此实施比平均速度的平均值更容易实施（3）。尽管U的局部衍生物出现在公式中，但在实际实践中使用了网络Uθ输出的梯度（差异的自动实现）。定型梯度操作（定义为SG）：这是为了防止“二阶向后流动”，从而减轻了优化的计算负担。训练信号源自即时V速度，不需要整体操作，因此比平均速度感（3）更容易实现。尽管U的局部衍生物出现在公式中，但在实际实践中使用了网络Uθ输出的梯度（差异的自动实现）。定型梯度操作（定义为SG）：这是为了防止“二阶背流”，从而减少了计算NAL优化负担。达潘注意到，即使在优化时进行了这些近似值，只要U_θ最终可能损失零，均值的身份肯定会满足，从而满足平均速度的初始定义。病情的速度取代了边缘速度公式（10）中的V（z_t，t）是匹配流中边缘的边缘（请参见图2的右侧），但很难直接计算。因此，确定现有的匹配技能，使用条件速度（请参见图2的左侧）：这是VT = AT'X+BT'IS是条件的速度，VT = ϵ -X在默认设置下。纸张链接：https：//arxiv.org/abs/2210.02747 在算法1中，JVP操作（Jacobian-vector产品）非常好。使用平均流量模型唱歌非常简单：只需用平均bilis替换积分术语时间，有关伪代码的详细信息，请参见算法2。带有启动的平均流量新程序可以n在没有分类器（CFG）的情况下，在无需支持指南。与直接将CFG应用于采样阶段的传统技能不同，研究人员认为CFG是基础“实际速度领域”的一部分。此建模过程可以在巴掌时保持CFG的影响，同时保持1-NFE的性能。建立一个真实的速度场研究人员指定了一个新的VCFG速度领域指南：这是班级中的场状条件，也是无条件的场。NAL场的线性组合）。其中，类别条件类别（即在C类C的给定条件下的侧脚）和无条件边缘的定义如下： Susunod，我们模仿平均流程，以引入VCFG的相应平均速度。根据Meanflow的身份（等式6），我们有：我们再次强调，VCFG和UCFG都是理论上的真实速度字段，与神经网络参数无关。另外，源自公式（13）和平均流IDEntity：这可以简化计算。指导培训方法为了与神经网络UCFG（θ）拟合平均速度场，有必要开发以下训练目标：目标值在哪里：右边的第一个项目是启动重量集成后速度的定义：描述：其中v_t是样本条件的速度，默认设置为vt = ϵ -x。如果ω= 1，即条件指导类别，则损失的损失会降低没有CFG的公式（9）。定型梯度操作用于阻止网络参数目标的反向传播，并防止二阶梯度计算。其中v_t是样本条件的速度，默认设置为vt = ϵ -x。如果ω= 1，即条件指导类别，则损失的损失会降低没有CFG的公式（9）。定型梯度操作用于阻碍网络参数目标的反向传播，并防止第二次订单梯度计算。此外，为了增强网络在没有类别的情况下概括输入的能力，类别条件被随机丢弃，可能性为0％。 CFG在单个NFE下进行采样在这种方法中，网络直接了解了平均速度引起的启动VCFG速度。因此，在采样阶段，无需执行线性组合计算，并且可以通过直接网络调用来完成一个步骤采样（请参见算法2）。最后，在维持CFG的影响时，考虑到效率和质量，它仍然在完美的单步抽样性能（1-NFE）之前保存下来。介绍 Zhengyang Geng Geng Zhengyang是在卡内基梅隆大学（CMU）的计算机科学研究的医生。 2020年，他毕业于四川大学，获得了计算机科学技术学士学位。他曾多次在北京大学，元和其他机构参加国际。 r效率： https://arxiv.org/abs/2505.13447 https://mlg.eng.cam.ac.uk/blog/2024/01/20/flow-matching.html回到Sohu，查看更多

上一篇：发行“高高的股票”真的是CATL缺乏钱吗？

下一篇：没有了