$$\begin{align} F\left(r_{\rho \sigma}, q_{\rho \sigma}, m_\rho^1\right)= & -\frac{\alpha \beta^2}{2} \sum_{\rho, \sigma} r_{\rho \sigma} q_{\rho \sigma}-\frac{\alpha}{2} \operatorname{Tr} \ln [\mathbf{I}-\beta \mathbf{Q}] -\frac{\beta}{2} \sum_\rho\left(m_\rho^1\right)^2+\left\langle\ln \operatorname{Tr} e^{\beta H_{\xi^1}}\right\rangle_{\xi^1} \label{freeenergy1} \end{align}$$
$$\begin{align} r_{\rho \sigma}&=\frac{1}{\alpha} \sum_{\mu \geq 2} m_\rho^\mu m_\sigma^\mu \\ m_\rho^\mu&=\frac{1}{N} \sum_i \xi_i^\mu S_i^\rho \\ q_{\rho \sigma}&=\frac{1}{N} \sum_i S_i^\rho S_i^\sigma \end{align}$$
$$\begin{align} \langle\ln Z\rangle=\lim _{n \rightarrow 0} \frac{\ln \left\langle Z^n\right\rangle}{n}=\lim _{n \rightarrow 0} \frac{\ln e^{N F\left(\theta^*\right)}}{n}=N \lim _{n \rightarrow 0} \frac{F\left(\theta^*\right)}{n} \label{847} \end{align}$$
Replica-Symmetric Ansätz
讨论到以上的情形,为了继续分析,需要对重叠矩阵做一个近似(考虑最简单的形式):任意两个纯态应该是对称的。这被称为副本对称(RS)假设。
$$\begin{align} \left\{\begin{array}{l} r_{\rho \sigma}=r, \forall \rho, \sigma \\ m_\rho^1=m, \forall \rho \\ q_{\rho \sigma}=q, \forall \rho \neq \sigma \end{array} \right. \end{align}$$
将$\eqref{freeenergy1}$改写为: $$ \begin{aligned} F(r, q, m)= & -\frac{\alpha \beta^2}{2} r q\left(n^2-n\right)-\frac{\alpha \beta^2}{2} n r-\frac{\alpha}{2} \operatorname{Tr} \ln [\mathbf{I}-\beta \mathbf{Q}] \\ & -\frac{\beta}{2} n m^2+\left\langle\ln \operatorname{Tr} e^{\beta H_{\xi}}\right\rangle \end{aligned} $$
结合$\eqref{847}$: $$\begin{align} \langle\ln Z\rangle= & \frac{N \alpha \beta^2 r q}{2}-\frac{N \alpha \beta^2 r}{2}-\frac{\alpha N}{2} \lim _{n \rightarrow 0} \frac{\operatorname{Tr} \ln [\mathbf{I}-\beta \mathbf{Q}]}{n}-\frac{\beta N m^2}{2}+N \lim _{n \rightarrow 0} \frac{\left\langle\ln \operatorname{Tr} e^{\beta H_{\xi^1}}\right\rangle}{n} \label{zn3}\\ \beta H_{\xi^1}=&\beta m \xi^1 \sum_\rho S^\rho+\frac{1}{2} \alpha \beta^2 r \sum_{\rho, \sigma} S^\rho S^\sigma \end{align}$$
首先计算$\eqref{zn3}$中最后一项: $$\begin{align} \operatorname{Tr} e^{\beta H_{\xi} 1} & =\operatorname{Tr} e^{\beta m \xi^1 \Sigma_\rho S^\rho+\frac{1}{2} \alpha \beta^2 r\left(\sum_\rho S^\rho\right)^2} \\ & :=\operatorname{Tr} e^{A\left(\Sigma_\rho S^\rho\right)^2+B \Sigma_\rho S^\rho} \\ & =\operatorname{Tr} \sqrt{\frac{A}{\pi}} \int d z e^{-A z^2+2 A z \sum_\rho S^\rho+B \Sigma_\rho S^\rho} \\ & =\sqrt{\frac{A}{\pi}} \int d z e^{-A z^2} \operatorname{Tr} \prod_\rho e^{(2 A z+B) S^\rho} \\ & =\sqrt{\frac{\alpha \beta^2 r}{2 \pi}} \int d z e^{-\frac{1}{2} \alpha \beta^2 r z^2}\left[2 \cosh \left(\alpha \beta^2 r z+\beta m \xi^1\right)\right]^n \\ & =\sqrt{\frac{\alpha \beta^2 r}{2 \pi}} \int d z e^{-\frac{1}{2} \alpha \beta^2 r z^2+n \ln \left[2 \cosh \left(\alpha \beta^2 r z+\beta m \xi^1\right)\right]} \\ & =\sqrt{\frac{1}{2 \pi}} \int d z e^{-\frac{1}{2} z^2+n \ln \left[2 \cosh \left(\beta \sqrt{\alpha r} z+\beta m \xi^1\right)\right]} . \end{align}$$
并且可知其极限为: $$\begin{align} \lim _{n \rightarrow 0} \operatorname{Tr} e^{\beta H_{\xi} 1}=\sqrt{\frac{1}{2 \pi}} \int d z e^{-\frac{1}{2} z^2}=1 \end{align}$$
由此可获得最后一项为: $$\begin{align} & \lim _{n \rightarrow 0} \frac{\left\langle\ln \operatorname{Tr} e^{\beta H_{\xi}}\right\rangle}{n} \\ & =\left\langle\lim _{n \rightarrow 0} \frac{\frac{d}{d n} \operatorname{Tr} e^{\beta H_{\xi} 1}}{\operatorname{Tr} e^{\beta H_{\xi} 1}}\right\rangle \\ & =\left\langle\sqrt{\frac{1}{2 \pi}} \lim _{n \rightarrow 0} \frac{d}{d n} \int d z e^{-\frac{1}{2} z^2+n \ln \left[2 \cosh \left(\beta \sqrt{a r} z+\beta m \xi^1\right)\right]}\right\rangle \\ & =\left\langle\sqrt{\frac{1}{2 \pi}} \lim _{n \rightarrow 0} \int d z e^{-\frac{1}{2} z^2} \frac{d}{d n}\left[2 \cosh \left(\beta \sqrt{\alpha r} z+\beta m \xi^1\right)\right]^n\right\rangle \\ & =\left\langle\sqrt{\frac{1}{2 \pi}} \lim _{n \rightarrow 0} \int d z e^{-\frac{1}{2} z^2}\left[2 \cosh \left(\beta \sqrt{\alpha r} z+\beta m \xi^1\right)\right]^n \ln \left[2 \cosh \left(\beta \sqrt{\alpha r} z+\beta m \xi^1\right)\right]\right\rangle \\ & =\left\langle\sqrt{\frac{1}{2 \pi}} \int d z e^{-\frac{1}{2} z^2} \lim _{n \rightarrow 0}\left[2 \cosh \left(\beta \sqrt{\alpha r} z+\beta m \xi^1\right)\right]^n \ln \left[2 \cosh \left(\beta \sqrt{\alpha r} z+\beta m \xi^1\right)\right]\right\rangle \\ & =\left\langle\sqrt{\frac{1}{2 \pi}} \int d z e^{-\frac{1}{2} z^2} \ln \left[2 \cosh \left(\beta \sqrt{\alpha r} z+\beta m \xi^1\right)\right]\right\rangle \\ & =\int D z\left\langle\ln \left[2 \cosh \left(\beta \sqrt{\alpha r} z+\beta m \xi^1\right)\right]\right\rangle \end{align}$$
此时用Dz表示对z的高斯积分。
然后计算$\eqref{zn3}$中第三项。由于Q是对称矩阵,将其对角化: $$\begin{align} \mathbf{A Q A}^{-1}=\Lambda=\operatorname{diag}\left(\lambda_1, \lambda_2, \ldots, \lambda_n\right) \end{align}$$
将ln [I − βQ]进行指数展开$\ln (1-x)=-\sum_{n=1}^{\infty} \frac{x^n}{n}$,得到: $$\begin{align} \operatorname{Tr} \ln [\mathbf{I}-\beta \mathbf{Q}] & =\operatorname{Tr}\left\{\mathbf{A} \cdot \ln [\mathbf{I}-\beta \mathbf{Q}] \cdot \mathbf{A}^{-1}\right\} \\ & =-\operatorname{Tr}\left\{\sum_{l=1}^{\infty} \frac{\beta^l\left(\mathbf{A Q A}^{-1}\right)^l}{l}\right\} \\ & =-\operatorname{Tr}\left\{\sum_{l=1}^{\infty} \frac{\beta^l(\Lambda)^l}{l}\right\} \\ & =-\sum_{l=1}^{\infty} \frac{\beta^l}{l} \sum_{i=1}^n \lambda_i^l=\sum_{i=1}^n \ln \left[1-\beta \lambda_i\right] \end{align}$$
再结合矩阵恒等式Tr ln K = ln det K,可以计算Q的本征值: $$\begin{align} & \left|\begin{array}{cccc} 1-\lambda & q & \cdots & q \\ q & 1-\lambda & \cdots & q \\ \vdots & \vdots & & \vdots \\ q & q & \cdots & 1-\lambda \end{array}\right| \\ & =\left|\begin{array}{cccc} 1-\lambda+(n-1) q & 1-\lambda+(n-1) q & \cdots & 1-\lambda+(n-1) q \\ q & 1-\lambda & \cdots & q \\ \vdots & \vdots & & \vdots \\ q & q & \cdots & 1-\lambda \end{array}\right| \\ & =[1-\lambda+(n-1) q]\left|\begin{array}{cccc} 1 & 1 & \cdots & 1 \\ q & 1-\lambda & \cdots & q \\ \vdots & \vdots & & \vdots \\ q & q & \cdots & 1-\lambda \end{array}\right| \\ & =[1-\lambda+(n-1) q]\left|\begin{array}{cccc} 1 & 1 & \cdots & 1 \\ 0 & 1-\lambda-q & 0 \\ \vdots & \vdots & & \vdots \\ 0 & 0 & \cdots 1-\lambda-q \end{array}\right| \\ & =[1-\lambda+(n-1) q](1-q-\lambda)^{n-1}=0 \end{align}$$
可以得到1个本征值(1 + (n − 1)q)与n − 1个本征值(1 − q),可以将迹写为: $$\begin{align} \operatorname{Tr} \ln [\mathbf{I}-\beta \mathbf{Q}]=\ln (1-\beta+\beta q-n \beta q)+(n-1) \ln (1-\beta+\beta q) \end{align}$$ 从而;
$$\begin{align} \lim _{n \rightarrow 0} \frac{\operatorname{Tr} \ln [\mathbf{I}-\beta \mathbf{Q}]}{n} & =\lim _{n \rightarrow 0}\left[\frac{\ln \left(\frac{1-\beta+\beta q-n \beta q}{1-\beta+\beta q}\right)}{n}+\ln (1-\beta+\beta q)\right] \\ & =-\frac{\beta q}{1-\beta+\beta q}+\ln (1-\beta+\beta q) \end{align}$$
得到自由能为:
$$\begin{align} -\beta f & =\frac{1}{N}\langle\ln Z\rangle \\ & =\frac{\alpha \beta^2}{2} r(q-1)-\frac{\alpha}{2}\left[\ln (1-\beta+\beta q)-\frac{\beta q}{1-\beta+\beta q}\right]-\frac{\beta}{2} m^2 +\int D z\left\langle\ln \left[2 \cosh \left(\beta \sqrt{\alpha r} z+\beta m \xi^1\right)\right]\right\rangle \end{align}$$
求解其极值: $$\begin{align} \left\{\begin{array}{l} \frac{\partial(-\beta f)}{\partial r}=0 \\ \frac{\partial(-\beta f)}{\partial m}=0 \\ \frac{\partial(-\beta f)}{\partial q}=0 \end{array}\right. \end{align}$$
$$\begin{align} q= & -\frac{1}{\beta \sqrt{2 \pi \alpha r}} \int d z e^{-\frac{1}{2} z^2} z\left\langle\tanh \left(\beta \sqrt{\alpha r} z+\beta m \xi^1\right)\right\rangle+1 \\ = & \frac{1}{\beta \sqrt{2 \pi \alpha r}} \int d z \frac{d e^{-\frac{1}{2} z^2}}{d z}\left\langle\tanh \left(\beta \sqrt{\alpha r} z+\beta m \xi^1\right)\right\rangle+1 \\ = & \left.\frac{1}{\beta \sqrt{2 \pi \alpha r}} e^{-\frac{1}{2} z^2}\left\langle\tanh \left(\beta \sqrt{\alpha r} z+\beta m \xi^1\right)\right\rangle\right|_{-\infty} ^{+\infty} -\int D z\left\langle 1-\tanh ^2\left(\beta \sqrt{\alpha r} z+\beta m \xi^1\right)\right\rangle+1 \\ = & \int D z\left\langle\tanh ^2\left(\beta \sqrt{\alpha r} z+\beta m \xi^1\right)\right\rangle \\ = & \int D z \tanh ^2 \beta(\sqrt{\alpha r} z+m) \end{align}$$
可以得到联想记忆模型的鞍点方程: $$\begin{align} & q=\int D z \tanh ^2 \beta(\sqrt{\alpha r} z+m) \label{860} \\ & m=\int D z\langle\xi \tanh \beta(\sqrt{\alpha r} z+m \xi)\rangle=\int D z \tanh \beta(\sqrt{\alpha r} z+m) \label{861} \\ & r=\frac{q}{(1-\beta+\beta q)^2} \label{862}\\ \end{align}$$
可以从以上的内容分析相变点。
Zero-Temperature Limit
当T → 0(β → ∞)时候,有:
$$\tanh (\beta x) \rightarrow \operatorname{sign}(x)=\left\{ \begin{array}{ll} 1 & x>0 \\ 0 & x=0 \\ -1 & x<0 \end{array} \right.$$
$\eqref{861}$为:
$$\begin{align} m&=\int D z\operatorname{sign}(\sqrt{\alpha r} z+m)+O(T) \\ & =\operatorname{erf}\left( \frac{m}{\sqrt{2 \alpha r}} \right)+O(T) \end{align}$$
上面这个变换利用正态分布与误差函数之间的关系完成。 另一方面,当β → ∞:
$$\begin{align} 1-q & =\int \frac{d z}{\sqrt{2 \pi}} e^{-\frac{z^2}{2}}\left(1-\tanh ^2 \beta(\sqrt{\alpha r} z+m)\right) \\ & \left.\simeq \frac{1}{\sqrt{2 \pi}} e^{-\frac{z^2}{2}}\right|_{\tanh ^2 \beta(\sqrt{\alpha r} z+m)=0} \int d z\left(1-\tanh ^2 \beta(\sqrt{\alpha r} z+m)\right) \\ & =\frac{1}{\sqrt{2 \pi}} e^{-\frac{m^2}{2 \alpha r}} \frac{1}{\beta \sqrt{\alpha r}} \int d z \frac{\partial}{\partial z} \tanh \beta(\sqrt{\alpha r} z+m) \\ & =\frac{2}{\sqrt{2 \pi}} \frac{1}{\beta \sqrt{\alpha r}} e^{-\frac{m^2}{2 \alpha r}} \end{align}$$
$\eqref{860}$产生q = 1 − CT,其中
$$\begin{align} C \stackrel{\text { def }}{=} \sqrt{\frac{2}{\pi r \alpha}} e^{-\frac{m^2}{2 \alpha r}} \end{align}$$ 将$\eqref{862}$变为r = (1 − C)−2。
通过定义辅助变量$y=m / \sqrt{2 \alpha r}$将m 和 r 减少为一个方程: $$\begin{align} \operatorname{erf}(y)=y\left(\sqrt{2 \alpha}+\frac{2}{\sqrt{\pi}} e^{-y^2}\right) . \end{align}$$

其中的一个恒定解为y = m = 0。对于α ≥ αc = 0.138只有为0的唯一解;当a < αc时,m ≠ 0的解出现;当α = αc时,m = 0.967。

通过求解m = erf (y)可以得到m的值。图中纵坐标表示误差$P_{\text{error}}=\frac{1-m}{2}$,横坐标表述存储的比例。可以发现,在图中存在一个跃变的点,当α——c = 0.138的时候,误差跳至0.5,这是一个不连续的转变,此时代表跳转至玻璃相;当α < αc时,误差很小,表示此时网络可以从之前学习的模式中“恢复”;当α > αc时,误差为0.5,为瞎猜的几率,可以认为此时网络不能恢复之前学习的模式。
Hopfield 相图Append
高斯积分和误差函数之间的关系
高斯函数(Gaussian function)与误差函数(erf)之间的关系主要通过正态分布的累积分布函数(CDF)来体现。为了详细说明这一点,我们从标准正态分布及其累积分布函数出发。
标准正态分布
标准正态分布的概率密度函数(PDF)定义为:
$$f(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2 / 2}$$
标准正态分布的累积分布函数
累积分布函数(CDF)是从负无穷到某个值 x 的概率密度函数的积分。对于标准正态分布,CDF 通常记作 Φ(x):
$$\Phi(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} e^{-t^2 / 2} \, dt$$
误差函数的定义
误差函数(erf)定义为:
$$\text{erf}(x) = \frac{2}{\sqrt{\pi}} \int_0^x e^{-t^2} \, dt$$
高斯函数与误差函数的关系
我们可以通过一些变换将标准正态分布的 CDF 表示为误差函数。首先,考虑累积分布函数从负无穷大积分到某个值 x:
$$\Phi(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} e^{-t^2 / 2} \, dt$$
通过代换 $u = \frac{t}{\sqrt{2}}$,我们得到:
$$du = \frac{dt}{\sqrt{2}} \quad \Rightarrow \quad dt = \sqrt{2} \, du$$
因此,积分变为:
$$\Phi(x) = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}} e^{-t^2 / 2} \, dt = \int_{-\infty}^{x/\sqrt{2}} \frac{1}{\sqrt{2\pi}} e^{-2u^2 / 2} \cdot \sqrt{2} \, du$$
简化后,我们得到:
$$\Phi(x) = \frac{1}{2} \left(1 + \text{erf}\left(\frac{x}{\sqrt{2}}\right)\right)$$
因此,标准正态分布的累积分布函数与误差函数之间的关系为:
$$\Phi(x) = \frac{1}{2} \left(1 + \text{erf}\left(\frac{x}{\sqrt{2}}\right)\right)$$
逆误差函数
误差函数的反函数(逆误差函数)是一个重要工具,用于将累积分布函数反转:
$$x = \sqrt{2} \, \text{erf}^{-1}(2\Phi(x) - 1)$$
示例
假设我们想计算标准正态分布 𝒩(0, 1) 的某个值 x 的累积分布函数。使用 Python,我们可以如下计算:
1 | import scipy.special as sp |
这个示例计算了 x = 1 时的累积分布函数值。
总结
高斯函数(正态分布)与误差函数之间的关系通过正态分布的累积分布函数(CDF)体现。正态分布的累积分布函数可以表示为误差函数的形式:
$$\Phi(x) = \frac{1}{2} \left(1 + \text{erf}\left(\frac{x}{\sqrt{2}}\right)\right)$$
这使得误差函数成为研究正态分布及其相关问题的一个重要工具。