智行时代——具身智能技术生态
据Tech Xplore报道,由东京大学Sosuke Ito领导的一项联合研究表明,非平衡热力学(物理学的一个分支,研究不断变化的系统)解释了为何最优传输理论(一种用于优化分布变化以降低成本的数学框架)能够使生成模型达到最优。由于非平衡热力学尚未在生成模型设计中得到充分利用,这一发现为机器学习研究提供了一种新颖的热力学方法。该研究结果发表在《物理评论X》(Physical Review X)杂志上。
近年来,图像生成技术突飞猛进:几年前代表着顶尖水平的名人吃意大利面的视频,如今看来甚至都称不上优秀。驱动图像生成的算法被称为扩散模型,其中蕴含着被称为“噪声”的随机性。
在训练过程中,噪声会通过扩散动力学引入到原始数据中。在生成过程中,模型必须消除噪声,才能从噪声数据中生成新的内容。这可以通过考虑时间反转的动力学来实现,就像反向播放视频一样。构建一个能够生成高质量内容的模型的艺术和科学之一,就是指定何时以及以多少量将噪声添加到数据中。
首席研究员Sosuke Ito表示:“扩散动力学(也称为噪声方案)的选择自诞生以来就一直存在争议。经验表明,最优传输动力学在扩散模型中是有用的,但尚未从理论上证明其作用。”
展开剩余55%研究人员推导出不等式,建立了热力学耗散与估计误差差异之间的关系。图片来源:Ikeda等人
尽管扩散模型最初受到非平衡热力学的启发,且最优传输理论与该领域密切相关,但先前的研究忽略了这种联系。因此,问题出现了:非平衡热力学能否提供一个理论框架,解释为何最优传输动力学在扩散模型中如此有效?
热力学权衡关系(一种描述热力学耗散与系统变化速度之间关系的技术)的最新进展被证明非常有用。利用这项技术,研究人员推导出了扩散模型中热力学耗散与数据生成稳健性之间的不等式。他们利用新推导的不等式证明了最优传输动力学能够确保最稳健的数据生成。
Sosuke Ito解释道:“一个令人惊讶的结果是,对于现实世界的图像生成场景,我们的界限在一定数量级内是紧密的。这表明,我们的不等式不仅有助于理解扩散模型中的最佳协议,而且有助于分析生成图像数据的实际应用。”
此外,该项目还有另一个令人惊讶的地方。Sosuke Ito解释说:“论文的第一作者和第二作者都是本科生,这项研究部分是他们所就读课程的一部分。特别是第一作者Kotaro Ikeda,从数值计算到理论分析,对这项研究做出了巨大贡献。我们希望我们的研究结果能够提高机器学习界对非平衡热力学重要性的认识,并且我们,包括下一代,将继续探索它在理解生物和人工信息处理方面的实用性。”
发布于:上海市
