
告别像素级死记硬背永旺配资,VFMTok用语义理解图像!
香港大学、阶跃星辰等,用一种名为VFMTok的新方法,通过让图像生成模型借用顶级视觉AI的眼睛来看世界,实现了更快、更高质量的图像生成,并且不再需要复杂的引导技巧。
这项研究的核心,是利用预训练好的视觉基础模型(vision foundation models, VFMs),如DINOv2,来充当一个高效的视觉分词器(visual tokenizer)。
它彻底改变了自回归模型理解和重构图像的方式,将过去那种对像素细节的死记硬背,转变为对高级语义的深刻理解。
图像生成的瓶颈:一套笨拙的视觉词汇
自回归图像生成,这个从语言模型领域借鉴而来的强大范式,其原理就像写作一样:一个词一个词地往外蹦,直到凑成一句话。
展开剩余92%在图像领域,就是一个像素块一个像素块地画,直到画完整张图。
要实现这一点,首先需要一个视觉词汇表,也就是一个视觉分词器。
它的工作是把一张连续的、充满无数像素信息的图像,翻译成一串离散的、有限的tokens。最著名的分词器之一是VQGAN。
传统的VQGAN,像一个从零开始学习语言的学生。它通过不断的看图说话练习(即图像重建),自己发明一套视觉词汇。这套词汇的目标非常单纯:只要能用这些词把原图尽可能无损地拼回去就行。
这种方式导致了一个根本性的问题。
VQGAN的词汇表里,充斥着大量描述底层细节的词,比如这里是深灰色纹理、那里是尖锐边缘。它对像素的还原能力很强,但对图中内容的意义却知之甚少。它知道如何描述一只猫的毛发质感,却不真正理解什么是猫。
这个潜在空间充满了冗余信息,而且缺乏高级语义。就像用上千个描述笔画的词去形容一幅书法作品,而不是用行云流水、力透纸背这样更具概括性的词。
这套笨拙的词汇表带来了两个直接的后果。
因为词汇太底层、太冗长,自回归模型需要学习非常长的序列才能画出一张图,这极大地延长了训练时间。
当需要根据类别(比如生成一只猫)来创作时,由于词汇本身不包含足够的语义信息,模型很难准确把握创作方向。
为了得到高保真度的图像,研究者们不得不引入一种名为无分类器引导(classifier-free guidance, CFG)的复杂技术。这就像在写作时,需要一个语法老师在旁边不断地指点:你这个词用得不对,应该这样写才更像猫。CFG虽然有效,却让推理过程变得更加缓慢和复杂。
就在生成模型为这套视觉词汇所困扰时,计算机视觉领域的另一条路上,已经诞生了一批视觉大师——预训练的视觉基础模型,比如DINOv2和CLIP。
它们通过在海量数据上的学习,早已具备了提取丰富语义、并且泛化能力极强的视觉特征的能力。它们能轻易地分辨出图片中的物体、场景和概念。
那这些视觉大师脑中的、高度结构化和语义丰富的特征,能否直接作为一套更高级、更高效的视觉词汇,供生成模型使用呢?
一场初步探索:借用大师之眼看世界
为了验证这个想法,研究人员进行了一项初步研究。
他们直接拿来已经训练好的、冻结的视觉基础模型(DINOv2、CLIP和SigLIP2),让它们去看一张图像,并提取出它们大脑深处的特征图。
这些特征图随后被量化成离散的token,再交给一个VQGAN的解码器,任务是把这些token翻译回图像。
结果令人振奋。
直接使用这些大师之眼提取的特征,在图像重建和生成性能上,已经可以与从零开始训练的普通VQGAN相媲美,甚至在某些方面有所超越。
更关键的发现是,这些基于视觉基础模型的分词器,其词汇的语义质量(L.P.线性探测得分)远远高于VQGAN。
例如,VQGAN的L.P.得分只有23.1,而借用DINOv2特征的分词器得分高达56.4,CLIP的更是达到了59.5。这说明,它们的词汇本身就蕴含着丰富的意义。
实验中也发现了一个有趣的现象:不同的大师永旺配资,其视觉语言风格也不同。
使用DINOv2和SigLIP2特征的效果,要优于使用CLIP特征。研究人员推测,这与它们的训练方式有关。
DINOv2和SigLIP2在训练时都包含掩码预测任务,这迫使它们不仅要理解整体语义,还要关注局部细节,这种能力对于高质量的图像重建至关重要。而CLIP的训练目标则更侧重于全局的图文对齐。
这次初步探索证实了核心假设:与其让生成模型自己费力地创造一套笨拙的词汇,不如直接让它学会使用视觉大师的语言。
这为VFMTok的诞生奠定了基础。
VFMTok的设计:更聪明的区域化视觉语言
基于视觉基础模型能提供语义丰富的网格特征这一洞见,研究人员设计了VFMTok,一个全新的区域自适应分词器。
它的核心思想是,不再像过去那样死板地把图像切成一个固定的网格,而是智能地识别出图像中语义一致的区域,并为每个区域生成一个token。
VFMTok的第一步,是利用一个冻结的、预训练好的视觉基础模型(如DINOv2)作为编码器,将输入图像翻译成深层的特征嵌入。
研究人员认识到,视觉基础模型的特征是分层的。浅层特征富含细节信息(纹理、边缘),深层特征则包含高级语义(物体、概念)。
这两者对于高质量的图像重建都不可或缺。因此,VFMTok会从视觉基础模型的多个层级提取特征,并通过一个简单的多层感知机(MLP)将它们投影到统一的维度。
接下来是VFMTok最核心的创新:区域自适应采样。
它不再是简单地取用整个特征网格,而是引入了一组可学习的锚点查询(anchor queries)。这些锚点可以被想象成一个个微小的、可自由移动的采样探针。初始时,它们被放置在一个规则的网格上。
通过多层可变形交叉注意力机制,这些探针开始在多层级的特征图上智能地探索。在每一层,每个探针都会预测一组采样偏移量,这让它能够跳出固定的网格,从图像中任何一个数据依赖的、不规则的位置进行采样。
这些探针学会了自己去寻找那些语义上相似的区域,比如,一个探针可能会学着去覆盖整只眼睛,另一个则覆盖整个车轮。
它们从这些区域采样特征,并通过注意力分数进行加权聚合,不断更新自身,最终捕获到高度浓缩的、特定于区域的信息。
这个过程结束后,最终优化好的查询,就是VFMTok的视觉token——区域自适应token。
这种方式与固定网格相比,优势是巨大的。
它自适应地将语义一致的区域聚合为一个token,极大地减少了空间上的冗余。一张图不再需要用576个甚至1024个token来描述,VFMTok证明了,仅仅256个语义浓缩的token,就足以实现更高质量的重建和生成。
获得了这些代表不规则区域的token后,下一步就是将它们解码回一张规则的图像。这里存在一个对齐的挑战。
VFMTok为此设计了一个巧妙的解码流程。它首先初始化一组掩码图像token,可以理解为一张空白的、等待被填充内容的画布。这组空白token与位置嵌入信息相加,从而具备了空间感知能力。
随后,去量化后的区域自适应token(也就是从码本中查回来的连续向量)与这组空白画布token连接在一起。这个组合序列被送入一个轻量级的Transformer解码器(EViT)。
这个Transformer的作用,就像一个信息广播站。它将每个区域自适应token中蕴含的丰富信息,有效地传播到画布上的正确位置。通过因果自注意力机制,信息流动的方向被设计为与后续自回归模型的生成顺序保持一致。
最终,这个Transformer输出一组被填充好的图像token,它们已经形成了规则的2D网格结构。这些token被重塑成空间网格,再输入一个标准的解码器,就能重建出最终的图像。
为了确保VFMTok的视觉token不仅能还原图像的皮囊,更能保留其灵魂(即语义),研究人员在训练时加入了一个额外的监督信号。
除了传统的图像重建损失(追求形似),VFMTok还增加了一个特征重建目标(追求神似)。
模型不仅要重建出原始图像,还要尝试重建出视觉基础模型自己看到原图时,在其最深层产生的那些高级语义特征。
通过计算重建特征与真实特征之间的余弦相似度损失,VFMTok的token被强制要求与视觉大师的理解保持高度一致。
在计算图像重建的对抗损失时,VFMTok用一个预训练的DINOv1-S模型替换了传统的PatchGAN判别器。研究人员发现,用一个同样懂语义的模型来做裁判,能提供更有意义的指导,从而稳定地提升重建质量。
通过图像重建和特征重建这两个目标的协同作用,VFMTok的训练过程被有效地引导,最终产生的token既能保留丰富的低级细节,又蕴含着高级的语义信息。
实验结果:更少的token,更好的画作
VFMTok在多个基准测试中都展现了其卓越的性能,无论是图像重建的保真度,还是图像生成的质量和效率。
在图像重建任务上,VFMTok与多个主流分词器进行了对比。
可以清晰地看到,VFMTok仅用256个token,就取得了0.89的rFID分数(越低越好),优于使用576个token的VQGAN(0.95)和同样使用256个token的TiTok(1.05)。
rIS分数(越高越好,衡量的是重建图像与原始图像在语义上的一致性)高达215.4,显著超过了所有其他方法,比如VQGAN的197.3和TiTok的191.5。这强有力地证明了VFMTok的token在重建过程中,能够更好地保持图像的核心语义内容不丢失。
在更具挑战性的ImageNet 256×256类别条件生成任务上,VFMTok的表现堪称惊艳。
VFMTok与主流扩散模型、掩码预测模型和自回归模型的全面对比。
在与同类自回归模型的比较中,VFMTok的优势尤为明显。在相同的训练设置下,VFMTok-B(111M参数)的gFID(越低越好)为3.43,gIS(越高越好)为252.2,而使用VQGAN的LlamaGen-B的gFID为6.09,gIS仅为182.5。VFMTok在性能上实现了碾压式的提升。
更令人印象深刻的是,当VFMTok与顶级的RAR生成框架结合时,它取得了1.36的gFID分数,这是目前已知的该任务上的最先进(SOTA)性能。
最关键的发现来自于无CFG的实验结果。当去掉无分类器引导这个辅助轮后,大多数模型的性能都会急剧下降。例如,LlamaGen-3B的gFID从2.19恶化到9.38。
而VFMTok,即使在没有CFG的情况下,其1.4B参数的模型(VFMTok-XXL)依然能取得1.95的gFID,甚至比带CFG的LlamaGen-3B还要好。
这个结果意义重大,它表明VFMTok的token本身就具有极强的语义指向性,模型不再需要额外的强力引导就能生成高质量、类别准确的图像。这也意味着,VFMTok可以在推理时省去CFG的复杂计算,从而极大地提升生成速度。
拆解VFMTok:每个部件都不可或缺
为了证明VFMTok的每一个设计都是有效的,研究人员进行了一项详细的消融研究,像搭积木一样,一步步地构建出完整的VFMTok,并观察每一步带来的变化。
这个过程清晰地揭示了VFMTok成功的秘诀:
起点(VQGAN):基线性能,使用576个token。 + 冻结VFM:第一步,用冻结的DINOv2替换VQGAN的编码器。重建和生成性能基本持平,但token的语义质量(L.P.)从23.1飙升到56.4。这证明了引入大师之眼的价值。 + 区域自适应:第二步,引入区域自适应采样,将token数量减少到256。效率提升了,但由于缺乏明确监督,重建和生成质量略有下降。 + 多级特征:第三步,让采样探针从VFM的多个层级提取特征。重建质量得到显著提升(rFID从1.20降至0.92),因为模型同时获得了细节和语义信息。 + 特征重建:最后一步,加入特征重建目标。这是点睛之笔。所有指标都得到了显著提升,rFID达到0.89,rIS达到215.4,生成gFID降至3.42,语义质量L.P.更是高达69.4。这个目标有效地校准了token,使其与视觉大师的理解完全对齐。最后,研究人员还做了一个反向实验:如果保留VFMTok的全部结构,但把预训练的VFM换成一个随机初始化的编码器会怎样?
结果显示(表4最后一行),性能全面退化,回到了普通VQGAN的水平。
这最终证明,冻结的、预训练的视觉基础模型,正是VFMTok成功的基石。它不仅提供了一个绝佳的起点,其语义丰富的潜在空间还极大地加速了自回归模型的训练收敛速度,达到了普通VQGAN的3倍。
VFMTok通过一套环环相扣的精妙设计,最终产生了一套紧凑、高效且语义丰富的视觉词汇,为自回归图像生成带来了质的飞跃。
VFMTok这套新的语言让自回归模型在图像重建和生成任务上都取得了SOTA级别的性能。
更重要的是,它用更少的token,实现了更快的训练收敛和推理速度,并且摆脱了对CFG的依赖。
参考资料:
https://github.com/CVMI-Lab/VFMTok-RAR
https://github.com/CVMI-Lab/VFMTok
https://arxiv.org/abs/2507.08441
END永旺配资
发布于:北京市粤有钱提示:文章来自网络,不代表本站观点。