文章主要讨论在持续学习任务中,损失具有弹性是很关键,进而指出在深度学习中,仅仅依靠反向传播是不够的,需要结合随机、非梯度的优化方式(例如演化计算等)。

Link: * Loss of plasticity in deep continual learning * Nature正刊(演化深度持续学习)Loss of plasticity in deep continual learning

阅读全文 »

在之前的游戏引擎中存在仅适用于单一游戏的问题,虽然AlphaZero解决对于完全完美信息的通用性,但是对于扑克等依旧不存在通用算法。这篇文章提出一种新的通用算法Student of Games(SoG),该算法类似于AlphaZero通过自博弈的方式完成训练,同时拓展了适用边界——适用于非完全信息博弈,例如扑克。

这个算法结合了很多内容,并没有读懂

Link: * Student of Games:Aunified learning algorithm forboth perfect andimperfect information games

阅读全文 »

Stieltjes变换概述

定义

Stieltjes变换是一个用于分析和研究实数轴上测度(或函数)性质的工具。对于一个实数轴上的测度 μ,它的Stieltjes变换 $ G(z) $ 定义为:

$$ G(z) = \int_{-\infty}^{\infty} \frac{d\mu(x)}{x - z} $$

其中,$ z $ 是复平面上的一个点,且不在实数轴上的支撑集(即测度 μ 为零的区域)内。

对于一个函数 $ f(x) $ 来说,如果我们把它视为测度的密度函数,则Stieltjes变换可以写成:

$$ G(z) = \int_{-\infty}^{\infty} \frac{f(x) \, dx}{x - z} $$

逆变换

Stieltjes变换的逆变换用于从变换后的函数恢复原始测度或密度函数。对于谱密度 $ (x) $,我们有:

$$ \rho(x) = \lim_{\epsilon \to 0^+} \frac{1}{\pi} \Im[G(x + i\epsilon)] $$

其中,$ $ 表示 $ G(z) $ 在 $ z = x + i$ 处的虚部。

应用示例:Wigner矩阵的谱密度

背景

Wigner矩阵是一个对称的随机矩阵,其元素是独立同分布的随机变量。设 $ W $ 是一个 $ N N $ 的Wigner矩阵,其元素 $ W_{ij} $ 满足以下条件: - $ W_{ij} = W_{ji} $ - 对于 $ i j $, $ W_{ij} $ 是均值为零、方差为 $ $ 的独立随机变量 - 对角元素 $ W_{ii} $ 是均值为零、方差为 $ $ 的独立随机变量

Wigner半圆定律描述了在 $ N $ 的极限下,Wigner矩阵的特征值分布趋向于一个半圆分布。

自洽方程推导

随机矩阵 $ W $ 的Stieltjes变换 $ G(z) $ 定义为: $$ G_N(z) = \frac{1}{N} \sum_{i=1}^N \frac{1}{\lambda_i - z} $$

在大尺寸极限下, $ G_N(z) $ 的期望值趋向于一个确定的值 $ G(z) $ G(z) = $$

这个方程通过以下步骤推导: 1. 将Stieltjes变换定义为矩阵的特征值求和。 2. 利用矩阵的迹和逆矩阵的关系,展开逆矩阵。 3. 在大尺寸极限下,假设矩阵元素足够小,进行平均场近似。 4. 得到自洽方程,并通过二次方程求解。

解析自洽方程

解自洽方程 $ G(z) = $ G(z)^2 + zG(z) + 1 = 0 $$

解得: $$ G(z) = \frac{-z \pm \sqrt{z^2 - 4}}{2} $$

选择满足 $ $ 的分支: $$ G(z) = \frac{-z + \sqrt{z^2 - 4}}{2} $$

恢复谱密度

根据逆Stieltjes变换公式,谱密度 $ (x) $ 为: $$ \rho(x) = \frac{1}{\pi} \text{Im}[G(x + i\epsilon)] $$

代入 $ G(z) $ 的表达式,计算得: $$ \rho(x) = \frac{1}{2\pi} \sqrt{4 - x^2} $$

这正是Wigner半圆分布的谱密度。

总结

Stieltjes变换在随机矩阵理论中是一个强大的工具,特别适用于谱密度的计算。通过Stieltjes变换,可以将实数轴上的谱密度问题转化为复平面上的解析问题,利用其逆变换可以从复平面上的函数恢复原始的谱密度,从而简化了复杂的计算过程。

主要用于实现我对 Hexo 各种奇奇怪怪的需求。

阅读全文 »

Utilizing neural networks and reinforcement learning to tackle the Traveling Salesman Problem, where the neural network model is a Recurrent Neural Network (RNN), and the policy for reinforcement learning employs policy gradients.

Reference: * Neural Combinatorial Optimization with Reinforcement Learning * code

阅读全文 »

Although the framework proposed by Bello at Neural Combiantorial Optimization with Reinforcement Learning works well on TSP, it is not applicable to more complicated combinatorial optimization problems in which the system representation varies over time, such as Vehicle Routing Problem(VRP). Thus, this paper propose a new model to overcome drawback of previous.

Reference: * Reinforcement Learning for Solving the Vehicle Routing Problem * code

阅读全文 »

Pointer Network(Ptr-Net) uses attention as a pointer to select a member of the input sequence as the output. The author shows that Ptr-Net could solve three challenging geometric problems - finding planner convex hulls, computing Delunary triangulations, and the planner Travelling Salesman Problem.

Reference: * Pointer Networks * Pointer Networks简介及其应用 * TSP问题从DP算法到深度学习3:Pointer Network * 2022最新版-李宏毅机器学习深度学习课程

阅读全文 »