0%

Injectivity of ReLU networks (perspectives from statistical physics)

对于ReLU激活层单向性的分析,得到变化的上下界。

Link: * Injectivity of ReLU networks: perspectives from statistical physics

Introduction

在什么情况下,随机初始化的ReLU网络是单射性的?

考虑一个单层的 ReLU 函数,这个映射为φW

$$ \varphi_{\mathbf{W}}(\mathbf{x})_\mu=\sigma\left[\left(\frac{\mathbf{W} \mathbf{x}}{\sqrt{n}}\right)_\mu\right], \quad \mu=1, \cdots, m $$

其中 n, m ≥ 1x ∈ ℝnσ(x) := max (0, x) ,ReLU参数满足正态分布 $W_{\mu i} \stackrel{\text { i.i.d. }}{\sim} \mathcal{N}(0,1)$

已有研究指出在热力学极限下 n → ∞$\frac{m}{n} \rightarrow \alpha>0$ ,存在两个阈值 αl < αh 。当α < αl,ReLU函数是非单射性的;当α > αh,ReLU是单射性的。

这篇文章的研究内容与之前的一致,采用统计物理方法(复本对称)。

Solution

研究思路是通过将单射性问题,通过一个能量模型描述,然后这个能量模型在波尔兹曼分布下研究。这样该问题就转为一个物理问题。

Injectivity

首先需要解决如何描述单射性。提出概率 pm, n 用于表示映射φW 是单射性的概率:

pm, n = ℙV[V ∩ Cm, n = {0}]

其中 Vm 的一个随即子空间, Cm, nm 中一组向量,并且这组向量中每一个向量元素为正的个数要小于n

通过这个操作,将描述单射性的问题,转化为数向量中为正的元素个数,可以定量描述了。

Statistical physics and the spherical perceptron

接下来的任务就是通过设计能量函数,将数正数的个数,变成为能量的表述形式。

通过能量表示总的正元素个数: $$ E_{\mathbf{W}}(\mathbf{x}):=\sum_{\mu=1}^m \theta\left[(\mathbf{W} \mathbf{x})_\mu\right], \quad e_{\mathbf{W}}(\mathbf{x}):=\frac{E_{\mathbf{W}}(\mathbf{x})}{n} $$ 其中 θ(x) = 𝟙(x > 0)x ∈ 𝒮n − 1𝒮n − 1n 上的单位球。根据之前的讨论V ∩ Cm, n = {0}可以得到 Wx ∈ Cm, n ⇔ EW(x) < n,将 pm, n重新写为:

pm, n = ℙW[minx ∈ 𝒮n − 1EW(x) ≥ n]

Thermal relaxation: the Gibbs–Boltzmann distribution

有了能量,接下来将其写为波尔兹曼分布:

$$ \mathrm{d} \mathbb{P}_{\beta, \mathbf{W}}(\mathbf{x}):=\frac{1}{\mathcal{Z}_n(\mathbf{W}, \beta)} e^{-\beta E_{\mathbf{W}}(\mathbf{x})} \mu_n(\mathrm{~d} \mathbf{x}) . \quad\left(\mathbf{x} \in \mathcal{S}^{n-1}\right) $$

其中beta为逆温度,β = 0 那就是球面上的平均测量, β → ∞则是能量最小值部分。

同时写出其自由能: $$ \Phi_n(\mathbf{W}, \beta):=\frac{1}{n} \log \mathcal{Z}_n(\mathbf{W}, \beta)=\frac{1}{n} \log \int_{\mathcal{S}^{n-1}} \mu_n(\mathrm{~d} \mathbf{x}) e^{-\beta E_{\mathbf{W}}(\mathbf{x})} $$

Result

这部分就是通过副本对称破缺讨论了。