HyperFree 论文浅读

Posted by in 未分类

本文主要介绍 HyperFree,这个模型解决了 由于高光谱图像的通道数各异导致训练的模型往往只能用于某些特定通道数的 HSI,作者通过使用 NLP 中的 Tokenizer 的方法,把 wavelength 当作自然语言中的 word 处理,避免了针对不同的 HSI 需要训练不同的模型的缺陷。

模型架构

HyperFree 在 SAM 架构的基础上,提出了两个自定义的组分:Channel-adaptive Embedding 、prompt-mask-feature (PMF)。

Channel-adaptive Embedding

受到自然语言处理的启发,Channel-adaptive Embedding 将 输入图片(有着不同的通道) 映射为 固定长度的 tokens。

ViT 会首先将图片打成 patch,将每个 patch 映射到一个向量,这是通过一个卷积层实现的。作者提出将不同通道下的不同卷积权重保存为一个字典,使用模型时无需重新训练,只需动态地选择字典中保存的权重构建模型即可

HyperFree 维护一个字典,key 为 channel index,value 为卷积层的权重。
假设 输出 的 Token 是 j 维向量,patch 的大小为 p\times p ,则每个 index channel 储存着权重矩阵,形状为 (p\times p \times j)

作者为了充分利用 key channel 的先验知识,将输入图片 split 为两部分 \textbf{X}_k\textbf{X}_c 。其中, \textbf{X}_k 代表 包含 key channel 部分,\textbf{X}_c 代表剩余部分。
最终,作者将这两部分的输出 token 相加,获得最终的输出 token。

Prompt-mask-feature (PMF) Interactive Inferring

很多时候,下游任务往往需要分割出所有的不同语义的类,而 SAM 的输出仅仅是一个掩码,直接应用于下游任务并不方便。
为了解决这个问题,作者提出将 feature\prompt\mask 融合到同一个特征空间中,其中,feature 代表语义信息、prompt 提示模型具体分割哪个物体、mask 指示物体的精确位置信息。

作者用余弦相似度衡量两个向量的相似性。

总结

作者利用 SAM 生成标签(借助 key channel),然后又用 SAM 去作为模型的主体架构。
作者的主要目的是获得一个对于任意波段都可以分割的模型,由于 SAM 生成的标签效果不错,所以作者直接将其当作 gt,然后由于原本的 SAM 只能分割 3 通道,作者重新设计了一下,使得模型可以接受不同数目的通道,随后通过训练使其适应 SAM 生成的标签。

之所以这样做可以 可能在于原作者 采取了一个 双分支预测的架构,模型的输入包括两部分:key channel 和 非key channel。这么做可以使得模型充分利用到 非 key channel 的信息。

虽然我们的标签是由 key channel 完全决定的,但是【非 key channel 的信息对于预测也是有一定效果的,因此,模型(双分支架构)也可试着学习通过非 key channel 的信息去预测,这提供了一定的泛化能力】。