Progressive Parameter Efficient Transfer Learning for Semantic Segmentation阅读笔记

总览

从分类到语义分割的迁移学习需要改变大量参数,现有迁移学习方法表现不佳。为此引入带中间任务的渐进式学习方法,将迁移过程分为两个阶段:中游适应阶段和下游微调阶段,首次在COCO-Stuff10k上效果超过全量微调。

渐进式迁移学习方法选择

备选方案1:Generalized Parametric Adaptation(GPA)

在FFN层中引入bottleneck结构随机初始化的adaption module,使得前向传播过程变为:

屏幕截图2025-04-29141731.png

中游适应阶段时,冻结原始权重参数,只更新的adaption module的权重,记分别为中间任务的损失函数和训练数据,优化目标为:

屏幕截图2025-04-29140020.png

下游微调时,优化目标变为:

屏幕截图2025-04-29140251.png

备选方案2:Decoupled Structured Adaptation(DSA)

同样在FFN层中引入bottleneck结构随机初始化的adaption module,但将其参数分为两大部分

中游适应阶段时,前向传播过程为:

屏幕截图2025-04-29142208.png

冻结原始权重,只优化,优化目标为:

屏幕截图2025-04-29143419.png

下游微调阶段,将原始前向传播的激活与中游适应后的激活拼接起来,前向传播过程变为:

屏幕截图2025-04-29143625.png

冻结,只优化,优化目标变为:

屏幕截图2025-04-29143716.png

两方案对比图

屏幕截图2025-04-29143819.png

经实验验证,DSA表现持续优于GPA,因此最终ProPETL框架选择使用DSA方法。

中游任务设计

角度1:感知粒度迁移(Perception Granularity)

记下游任务数据集为,每幅图片的高和宽分别为,种类数量为,则生成其类别的独热码矩阵代表使用不同大小的池化窗口对原始独热码矩阵进行处理。

当以整幅图片为感知粒度时,池化窗口大小为,得到的标签向量大小为

当以一个patch为感知粒度时,池化窗口与patch大小一致为,得到的标签向量大小为

屏幕截图2025-04-29150558.png

角度2:监督多样性迁移(Supervision Diversity)

的基础上,使用最大池化层生成独热标签,使用平均池化层生成many-hot(这里感觉可能和multi-hot差不多)标签,使用平滑系数融合两种标签,使得

屏幕截图2025-04-29151446.png

整体框架

屏幕截图2025-04-29151557.png

实验结果现实DSA持续优于GPA,作者认为这是因为在下游微调时,GPA会遗忘中游适应时学习到的知识。

本实验在中游任务设计时选取池化窗口大小为为1,选取了交叉熵函数。