将文本作为图片进行输入,利用视觉token提升上下文输入长度。
文献: * DeepSeek-OCR: Contexts Optical Compression
这项工作将文本信息通过像素的形式表达,然后利用vision token进行读取识别,发现在压缩率达到10X的情况下,模型准确率维持在较高水平,由此说明视觉的vision token可以容纳更多的上下文信息。
如上图所示,紫色和蓝色分别使用不同的视觉token,柱状图表示准确率,折线图表示压缩率(文本token/视觉token)。处理较大文本token时候,压缩率高正确率低是符合预期情况的。
实验结果十分优秀,并且一些量的变化趋势与直觉是相吻合的,这里有几点疑惑需要解答: * 文本信息是天然有结构的,为什么通过视觉的像素方法反而比文本tokenizer的方法压缩率要高?这点违反直觉,应当使用先验知识(文本是序列化)文本tokenizer压缩率更高。这可能预示着文本信息可能存在更强的压缩方式。 * 这个规律在更大规模的数据集上是不是还成立?
模型架构
上图为核心架构。输入一个图像文档,分为多个patches,然后给每个图片标记位置(local attention),通过卷积网络将图像识别为vision token,最后整合为embedding layer。接下来随着prompt一起输入DeepSeek-3B模型。
之后有一些技术细节需要讨论,如何将不同分辨率的图像编码到相同token数目。
上图是针对不同分辨率图像,采用的几种嵌入方式。除了嵌入融合技术问题外,还有如何训练的技术细节。
讨论
对于压缩原理,文章认为可以类比为人类的记忆过程,较远的信息(之前的记忆)通过降低分辨率从而模糊处理(遗忘),更近的信息提高分辨率(记忆清晰)。
文章本没有对于为什么使用视觉模块会有更好表现,进行进一步的探讨。