参考文章在带有数学公式的markdown文档里的交叉引用实现。
这篇文章作为案例,实现公式的交叉引用。
更多阅读: * 在带有数学公式的markdown文档里的交叉引用 * $\LaTeX$在MathJax中的命令 * MathJax 与 Katex 在公式对齐、编号、交叉引用方面的不同 * Markdown杂记
参考文章在带有数学公式的markdown文档里的交叉引用实现。
这篇文章作为案例,实现公式的交叉引用。
更多阅读: * 在带有数学公式的markdown文档里的交叉引用 * $\LaTeX$在MathJax中的命令 * MathJax 与 Katex 在公式对齐、编号、交叉引用方面的不同 * Markdown杂记
这篇文章并未读完,更多的内容在于知识上的补充
共形对称发生在临界点,,但是在重整化群的相变点相撞的时候,这种对称性会消失。认为这种实平面的固定点将会变到复平面中。这篇工作,利用非厄米量子5态Potts模型,成功提取到了复平面的高度。
这篇文章分析了 Denoising Diffusion Models(DDM) 在图像领域的表示能力。通过不断解构DDM,从而分析Transformer的性能。最终得出结论:仅仅有很少的几个参数是有用的,对最后的图像生成起到关键作用。
这点和全连接神经网络十分相似,当层数过多的时候,只有输入层附近的几层与输出层附近的几层是关键的,中间几层处于液化状态(可以随意选取,不会影响最终的结果)。
文中有一些问题仍未处理,缺失具体代码的解读,对于TRPO算法的认知仍然存在不清楚的地方,高阶梯度怎么算的
这是一篇关于策略梯度算法的总结。首先给出梯度策略,介绍其基本含义,但是初始方案存在一个问题,可以知道梯度变化的方向,不知道梯度的步长。然后,提出自然梯度算法,通过加入约束的方案计算出梯度的步长。接下来,Trust Region Policy Optimization(TRPO)算法在此基础上进一步优化,进一步提出约束,使得满足该约束条件的样本可以稳定提升策略性能。最后,虽然TRPO十分优秀,但是大量的计算使其效率不高,因此进行简化提出Proximal Policy Optimization(PPO)算法。
基于值函数的强化学习:通过递归,求解bellman 方程维护Q值(离散列表或者神经网络),每次选择动作会选择该状态下对应Q值最大的动作。使得期望奖励值最大。
基于策略的强化学习:不再通过价值函数确定动作,而是直接学习策略本身,通过一组参数θ对策略进行参数化,并通过神经网络优化θ。
这篇文章的主要任务是,利用Diffusion Model生成具备高表现能力的神经网络参数。
利用 autoencoder 和 laten diffusion model 两个主要部件,其中autoencoder将网络参数进行提取,diffusion model再进行训练,然后再将训练好的模型进行解码。
将 Transformer 架构加入视觉领域,ViT与ViViT是分别是将该架构加入图片分类与视频分类领域,是该方向的两篇代表作。
sora完成了文本生成视频的任务,其中视频的时长与连贯性都有非常惊艳的效果,不仅将视频时长拓展到了60S的水平,而且即使视频中发生物品遮挡,在之后也能成功接上,视频整体非常连贯。
感谢Datawhale开源社区提供相关资源。
本笔记为阅读陈敏伯《统计物理》的读书笔记,包含大量基本概念与公式推导。按照本书前言所著,这本书大量使用变分原理进行推理基本公式。
本篇文章来自于: Deep Unsupervised Learning using Nonequilibrium Thermodynamics,arXiv:1503.03585v8 [cs.LG] 18 Nov 2015
该篇文章为首次提出Deffusion Model的概念。算法的主要目标是构造一个前向传播、扩散的过程,通过这个过程可以将复杂的分布逐渐变为一个简单的分布。