-
2025-07-18 13:36:46
- 教学transformer原理及应用
- 本文先讲解注意力机制,包括定义、意义、公式、计算方式,以及自注意力和多头注意力机制;接着阐述Encoder-Decoder原理;再介绍Transformer原理,包括整体架构、Encoder、Decoder等;最后用飞桨框架实现ViT模型进行车辆图像分类,展示了数据处理、模型构建、训练及评估过程,验证集准确率达0.8416667。
-
304
-
2025-07-18 13:34:36
- 改进的注意力多尺度特征融合卷积神经网络
- 本文改进注意力多尺度特征融合卷积神经网络,加入基于style的重新校准模块(SRM),通过样式池提取特征图通道样式信息,经通道无关的style集成估计权重,增强CNN表示能力且参数少。用Caltech101的16类数据集,对比VGG19、ResNet50等模型,改进模型性能提升较明显。
-
573
-
2025-07-18 13:31:41
- Paddle2.0:浅析并实现 CoaT 模型
- 本文介绍基于Transformer的图像分类器CoaT,其含Co-Scale和Conv-Attentional机制,能为Vision Transformer提供多尺度和上下文建模功能,性能超T2T-ViT等网络。还阐述了Conv-Attention模块、Co-Scale机制的原理与代码实现,搭建了模型并验证了精度。
-
196
-
2025-07-18 13:22:55
- Paddle2.0:浅析并实现 LV-ViT 模型
- 本文探索提升ViT性能的训练技巧,提出LV-ViT模型。其改进包括增加网络深度、显式引入归纳偏置、改进残差连接、采用Re-labeling和Token Labeling策略及MixToken数据增广等。模型在ImageNet上性能优异,如LV-ViT-L在512分辨率下Top1精度达86.4,超越多种方案。
-
917
-
2025-07-18 13:20:20
-
2025-07-18 13:16:09
- FF Only:Attention真的需要吗?
- 本文复现去attention化论文,以Feed-Forward替代Transformer的attention层,基于ViT、DeiT模型在ImageNet表现良好。代码构建相关模型,展示结构与参数,在Cifar10简短训练,表明视觉Transformer中除注意力外的部分可能很重要。
-
911
-
2025-07-18 13:14:02
-
2025-07-18 13:10:36
- Paddle2.0:浅析并实现 FcaNet 模型
- FcaNet通过频率域分析重新审视通道注意力,证明GAP是二维DCT的特例。据此将通道注意力推广到频域,提出多谱通道注意力框架,通过选择更多频率分量引入更多信息。实验显示,其在ImageNet和COCO数据集表现优异,基于ResNet时精度高于SENet,且实现简单。
-
936
-
2025-07-18 11:41:34
- iFLYTEK:X光安检图像识别2021挑战赛
- 本文介绍科大讯飞X光安检图像识别2021挑战赛非官方baseline。赛事旨在用AI辅助安检,任务是检测X光图像中12类物品。初赛提供带标注训练数据和无标注测试数据,复赛增加无标注数据等。还给出数据划分、用HRNet训练模型、预测及结果提交等步骤。
-
726
-
2025-07-18 11:25:59
- 浅析并实现 CycleMLP,一种用于密集预测的类 MLP 模型
- CycleMLP是用于视觉识别和密集预测的通用主干,相较MLP Mixer等模型,能处理不同图像大小,以线性计算复杂度实现局部窗口操作。其核心是Cycle FC,结合并行算子与Channel MLP,有5种模型。在ImageNet - 1K和ADE20K上表现优异,参数和计算量更少。
-
482