文章主要讨论在持续学习任务中,损失具有弹性是很关键,进而指出在深度学习中,仅仅依靠反向传播是不够的,需要结合随机、非梯度的优化方式(例如演化计算等)。
Link: * Loss of plasticity in deep continual learning * Nature正刊(演化深度持续学习)Loss of plasticity in deep continual learning
文章主要讨论在持续学习任务中,损失具有弹性是很关键,进而指出在深度学习中,仅仅依靠反向传播是不够的,需要结合随机、非梯度的优化方式(例如演化计算等)。
Link: * Loss of plasticity in deep continual learning * Nature正刊(演化深度持续学习)Loss of plasticity in deep continual learning
对于ReLU激活层单向性的分析,得到变化的上下界。
Link: * Injectivity of ReLU networks: perspectives from statistical physics
在之前的游戏引擎中存在仅适用于单一游戏的问题,虽然AlphaZero解决对于完全完美信息的通用性,但是对于扑克等依旧不存在通用算法。这篇文章提出一种新的通用算法Student of Games(SoG),该算法类似于AlphaZero通过自博弈的方式完成训练,同时拓展了适用边界——适用于非完全信息博弈,例如扑克。
这个算法结合了很多内容,并没有读懂
Link: * Student of Games:Aunified learning algorithm forboth perfect andimperfect information games
通过构建三个网络学习实空间重整化过程中的参数变化。
Reference: * Machine learning renormalization group for statistical physics
Parisi关于组合优化问题的分析。
reference: * Analytic and Algorithmic Solution of Random Satisfiability Problems
Stieltjes变换是一个用于分析和研究实数轴上测度(或函数)性质的工具。对于一个实数轴上的测度 μ,它的Stieltjes变换 $ G(z) $ 定义为:
$$ G(z) = \int_{-\infty}^{\infty} \frac{d\mu(x)}{x - z} $$
其中,$ z $ 是复平面上的一个点,且不在实数轴上的支撑集(即测度 μ 为零的区域)内。
对于一个函数 $ f(x) $ 来说,如果我们把它视为测度的密度函数,则Stieltjes变换可以写成:
$$ G(z) = \int_{-\infty}^{\infty} \frac{f(x) \, dx}{x - z} $$
Stieltjes变换的逆变换用于从变换后的函数恢复原始测度或密度函数。对于谱密度 $ (x) $,我们有:
$$ \rho(x) = \lim_{\epsilon \to 0^+} \frac{1}{\pi} \Im[G(x + i\epsilon)] $$
其中,$ $ 表示 $ G(z) $ 在 $ z = x + i$ 处的虚部。
Wigner矩阵是一个对称的随机矩阵,其元素是独立同分布的随机变量。设 $ W $ 是一个 $ N N $ 的Wigner矩阵,其元素 $ W_{ij} $ 满足以下条件: - $ W_{ij} = W_{ji} $ - 对于 $ i j $, $ W_{ij} $ 是均值为零、方差为 $ $ 的独立随机变量 - 对角元素 $ W_{ii} $ 是均值为零、方差为 $ $ 的独立随机变量
Wigner半圆定律描述了在 $ N $ 的极限下,Wigner矩阵的特征值分布趋向于一个半圆分布。
随机矩阵 $ W $ 的Stieltjes变换 $ G(z) $ 定义为: $$ G_N(z) = \frac{1}{N} \sum_{i=1}^N \frac{1}{\lambda_i - z} $$
在大尺寸极限下, $ G_N(z) $ 的期望值趋向于一个确定的值 $ G(z) ,满足自洽方程:$ G(z) = $$
这个方程通过以下步骤推导: 1. 将Stieltjes变换定义为矩阵的特征值求和。 2. 利用矩阵的迹和逆矩阵的关系,展开逆矩阵。 3. 在大尺寸极限下,假设矩阵元素足够小,进行平均场近似。 4. 得到自洽方程,并通过二次方程求解。
解自洽方程 $ G(z) = :$ G(z)^2 + zG(z) + 1 = 0 $$
解得: $$ G(z) = \frac{-z \pm \sqrt{z^2 - 4}}{2} $$
选择满足 $ $ 的分支: $$ G(z) = \frac{-z + \sqrt{z^2 - 4}}{2} $$
根据逆Stieltjes变换公式,谱密度 $ (x) $ 为: $$ \rho(x) = \frac{1}{\pi} \text{Im}[G(x + i\epsilon)] $$
代入 $ G(z) $ 的表达式,计算得: $$ \rho(x) = \frac{1}{2\pi} \sqrt{4 - x^2} $$
这正是Wigner半圆分布的谱密度。
Stieltjes变换在随机矩阵理论中是一个强大的工具,特别适用于谱密度的计算。通过Stieltjes变换,可以将实数轴上的谱密度问题转化为复平面上的解析问题,利用其逆变换可以从复平面上的函数恢复原始的谱密度,从而简化了复杂的计算过程。
主要用于实现我对 Hexo 各种奇奇怪怪的需求。
Utilizing neural networks and reinforcement learning to tackle the Traveling Salesman Problem, where the neural network model is a Recurrent Neural Network (RNN), and the policy for reinforcement learning employs policy gradients.
Reference: * Neural Combinatorial Optimization with Reinforcement Learning * code
Although the framework proposed by Bello at Neural Combiantorial Optimization with Reinforcement Learning works well on TSP, it is not applicable to more complicated combinatorial optimization problems in which the system representation varies over time, such as Vehicle Routing Problem(VRP). Thus, this paper propose a new model to overcome drawback of previous.
Reference: * Reinforcement Learning for Solving the Vehicle Routing Problem * code
Pointer Network(Ptr-Net) uses attention as a pointer to select a member of the input sequence as the output. The author shows that Ptr-Net could solve three challenging geometric problems - finding planner convex hulls, computing Delunary triangulations, and the planner Travelling Salesman Problem.
Reference: * Pointer Networks * Pointer Networks简介及其应用 * TSP问题从DP算法到深度学习3:Pointer Network * 2022最新版-李宏毅机器学习深度学习课程