Progressive Parameter Efficient Transfer Learning for Semantic Segmentation阅读笔记

总览

从分类到语义分割的迁移学习需要改变大量参数，现有迁移学习方法表现不佳。为此引入带中间任务的渐进式学习方法，将迁移过程分为两个阶段：中游适应阶段和下游微调阶段，首次在COCO-Stuff10k上效果超过全量微调。

在FFN层中引入bottleneck结构随机初始化的adaption module，使得前向传播过程变为：

屏幕截图2025-04-29141731.png

中游适应阶段时，冻结原始权重参数，只更新的adaption module的权重，记 $、$ 分别为中间任务的损失函数和训练数据，优化目标为：

屏幕截图2025-04-29140020.png

下游微调时，优化目标变为：

屏幕截图2025-04-29140251.png

同样在FFN层中引入bottleneck结构随机初始化的adaption module，但将其参数分为两大部分

中游适应阶段时，前向传播过程为：

屏幕截图2025-04-29142208.png

冻结原始权重，只优化，优化目标为：

屏幕截图2025-04-29143419.png

下游微调阶段，将原始前向传播的激活与中游适应后的激活拼接起来，前向传播过程变为：

屏幕截图2025-04-29143625.png

冻结，只优化，优化目标变为：

屏幕截图2025-04-29143716.png

屏幕截图2025-04-29143819.png

经实验验证，DSA表现持续优于GPA，因此最终ProPETL框架选择使用DSA方法。

记下游任务数据集为，每幅图片的高和宽分别为 $、$ ，种类数量为，则生成其类别的独热码矩阵，代表使用不同大小的池化窗口对原始独热码矩阵进行处理。

当以整幅图片为感知粒度时，池化窗口大小为，得到的标签向量大小为

当以一个patch为感知粒度时，池化窗口与patch大小一致为，得到的标签向量大小为

屏幕截图2025-04-29150558.png

在的基础上，使用最大池化层生成独热标签，使用平均池化层生成many-hot（这里感觉可能和multi-hot差不多）标签，使用平滑系数融合两种标签，使得

屏幕截图2025-04-29151446.png

屏幕截图2025-04-29151557.png

实验结果现实DSA持续优于GPA，作者认为这是因为在下游微调时，GPA会遗忘中游适应时学习到的知识。

本实验在中游任务设计时选取池化窗口大小为，为1，选取了交叉熵函数。