将文本作为图片进行输入，利用视觉token提升上下文输入长度。

文献： * DeepSeek-OCR: Contexts Optical Compression

这项工作将文本信息通过像素的形式表达，然后利用vision token进行读取识别，发现在压缩率达到10X的情况下，模型准确率维持在较高水平，由此说明视觉的vision token可以容纳更多的上下文信息。

如上图所示，紫色和蓝色分别使用不同的视觉token，柱状图表示准确率，折线图表示压缩率(文本token/视觉token)。处理较大文本token时候，压缩率高正确率低是符合预期情况的。

实验结果十分优秀，并且一些量的变化趋势与直觉是相吻合的，这里有几点疑惑需要解答： * 文本信息是天然有结构的，为什么通过视觉的像素方法反而比文本tokenizer的方法压缩率要高？这点违反直觉，应当使用先验知识（文本是序列化）文本tokenizer压缩率更高。这可能预示着文本信息可能存在更强的压缩方式。 * 这个规律在更大规模的数据集上是不是还成立？

模型架构

上图为核心架构。输入一个图像文档，分为多个patches，然后给每个图片标记位置(local attention)，通过卷积网络将图像识别为vision token，最后整合为embedding layer。接下来随着prompt一起输入DeepSeek-3B模型。

之后有一些技术细节需要讨论，如何将不同分辨率的图像编码到相同token数目。

上图是针对不同分辨率图像，采用的几种嵌入方式。除了嵌入融合技术问题外，还有如何训练的技术细节。

讨论

对于压缩原理，文章认为可以类比为人类的记忆过程，较远的信息（之前的记忆）通过降低分辨率从而模糊处理（遗忘），更近的信息提高分辨率（记忆清晰）。

文章本没有对于为什么使用视觉模块会有更好表现，进行进一步的探讨。