之前做了一些关于深度学习在视觉算法上鲁棒性的研究,在这里总结一下前沿的方向和大家都在推进的内容。

Reference: * 深度学习模型鲁棒性研究综述 * Additive Margin Softmax for Face Verification * Deep Ranking with Adaptive Margin Triplet Loss * Relating Adversarially Robust Generalization to Flat Minima * UNDERSTANDING CONTRASTIVE LEARNING THROUGH THE LENS OF MARGINS * Robust Generative Adversarial Network

阅读全文 »

Transformer不是在特定情形下进行贝叶斯推断,而是作为其工作的基本原理。或者说Transformer本质上就是在几何上的贝叶斯推断引擎。该论证工作分为三步进行,首先通过精巧的实验设计,验证Transformers与贝叶斯推断等价,然后解释这种等价性的源头,最后进行结论外推,在更广泛更真实的情境下这种等价性是否存在。

Reference: * The Bayesian Geometry of Transformer Attention * Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds * Attention Is Bayesian Inference * Geometric Scaling of Bayesian Inference in LLMs * 优化即几何,几何即推理:用数学终结Transformer的黑盒时代

阅读全文 »

通过能量模型(Energy-based model, EBM),将模型预测概率,转换为能量值。模型预测倾向于高概率结果,物体运动倾向于低能量区域,将高概率的预测映射到低能量区域,这样非常自然的将机器学习与物理相联系。

Reference: * Loss Functions for Discriminative Training of Energy-Based Models

阅读全文 »

研究神经网络的势能分布一般从损失函数的哈密顿量出发,然而损失函数一般是局域的分布,很难解释深度情况的。本文作者提供了一种全新的解析视角,通过对数据采样,依靠样本间的流动构造伪势能解释样本流动的原因。

Reference: * Detailed balance in large language model-driven agents * code * data

阅读全文 »

神经网络通过数据学习规律,会学习到什么规律?本文提出了新的神经网络MASS(Multi-physics AI Scalar Scientist)用以学习网络从数据中学到的模型信息。这篇工作属于PINN。

文献: * Do Two AI Scientists Agree? * 源代码GitHub * Hamiltonian Neural Networks * HNN GitHub * Lagrangian Neural Networks * LNN GitHUb

阅读全文 »

提出一种通过最小化交叠矩阵逆的乘积,寻找多体波函数基态的算法。

Link: * A Unified Variational Framework for Quantum Excited States * Spectral Inference Networks: Unifying Deep and Spectral Learning * The Geometry of Algorithms with Orthogonality Constraints * Accurate computation of quantum excited states with neural networks

阅读全文 »