对于ReLU激活层单向性的分析,得到变化的上下界。
Link:
Introduction
在什么情况下,随机初始化的ReLU网络是单射性的?
考虑一个单层的 ReLU 函数,这个映射为$\varphi_{\mathbf{W}}$:
其中 $n, m \geq 1$ ,$\mathbf{x} \in \mathbb{R}^n$ ,$\sigma(x):=\max (0, x)$ ,ReLU参数满足正态分布 $W_{\mu i} \stackrel{\text { i.i.d. }}{\sim} \mathcal{N}(0,1)$ 。
已有研究指出在热力学极限下 $n \rightarrow \infty$ 、 $\frac{m}{n} \rightarrow \alpha>0$ ,存在两个阈值 $\alpha_l<\alpha_h$ 。当$\alpha<\alpha_l$,ReLU函数是非单射性的;当$\alpha>\alpha_h$,ReLU是单射性的。
这篇文章的研究内容与之前的一致,采用统计物理方法(复本对称)。
Solution
研究思路是通过将单射性问题,通过一个能量模型描述,然后这个能量模型在波尔兹曼分布下研究。这样该问题就转为一个物理问题。
Injectivity
首先需要解决如何描述单射性。提出概率 $p_{m, n}$ 用于表示映射$\varphi_{\mathbf{W}}$ 是单射性的概率:
其中 $V$ 是 $\mathbb{R}^m$ 的一个随即子空间, $C_{m, n}$ 是 $\mathbb{R}^m$ 中一组向量,并且这组向量中每一个向量元素为正的个数要小于$n$ 。
通过这个操作,将描述单射性的问题,转化为数向量中为正的元素个数,可以定量描述了。
Statistical physics and the spherical perceptron
接下来的任务就是通过设计能量函数,将数正数的个数,变成为能量的表述形式。
通过能量表示总的正元素个数:
其中 $\theta(x)=\mathbb{1}(x>0)$ , $\mathbf{x} \in \mathcal{S}^{n-1}$ , $\mathcal{S}^{n-1}$ 是 $\mathbb{R}^n$ 上的单位球。根据之前的讨论$V \cap C_{m, n}=\{0\}$可以得到 $\mathbf{W} \mathbf{x} \in C_{m, n} \Leftrightarrow E_{\mathbf{W}}(\mathbf{x})<n$,将 $p_{m, n}$重新写为:
Thermal relaxation: the Gibbs–Boltzmann distribution
有了能量,接下来将其写为波尔兹曼分布:
其中$beta$为逆温度,$\beta=0$ 那就是球面上的平均测量, $\beta \rightarrow \infty$则是能量最小值部分。
同时写出其自由能:
Result
这部分就是通过副本对称破缺讨论了。