一、本文介绍本文记录的是利用MaxViT多尺度卷积模块改进YOLOv10的特征提取部分。MaxViT通过多尺度注意力机制和卷积操作的结合,实现高效的特征提取。二、MaxViT模块介绍2.1 设计出发点传统Transformer缺乏多尺度建模能力,MaxViT通过多尺度注意力机制实现不同分辨率特征的融合。2.2 模块结构MaxViT块:最大注意力:使用max pooling替代softmax多尺度融合:不同尺度特征的交互卷积增强:引入卷积操作增强局部特征三、MaxViT的实现代码importtorchimporttorch.nnasnnclass