太原科技大学谢刚教授团队在中科院TOP期刊《IEEE Transactions on Geoscience and Remote Sensing》上发表文章“Frequency-Domain Guided Swin Transformer and Global–Local Feature Integration for Remote Sensing Images Semantic Segmentation”。本文第一作者是张浩雪博士,通讯作者是谢刚教授。本文面向遥感图像语义分割,提出一种频域引导的Swin Transformer(FGSwin),引入可学习权重的频域增强模块,通过FFT/IFFT变换在浅层特征中强化高频细节(如边缘、纹理),并耦合至Swin Transformer的注意力机制中,实现空域与频域联合建模。
FGNet 的设计表明:
(1)在特征表示层面,可以突破传统仅依赖空间域建模的范式,引入频域信息作为补充表达空间。其核心在于在网络内部实现空域与频域的协同建模,使模型能够同时利用结构信息与频率结构特征。
(2)该工作也体现了一种有效的结构设计思路,即通过多分支架构整合不同网络范式的优势,利用不同网络结构在表征能力上的互补性,实现全局语义与局部细节的协同表达。
文献引用:Zhang H, Xie G, Li L, et al. Frequency-domain guided swin transformer and global–local feature integration for remote sensing images semantic segmentation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2025, 63: 1-11.
DOI:10.1109/TGRS.2025.3535724