windows搭建MMDetection框架指南

1. 安装MMCVOpenMMLab是商汤贡献到 OpenI 启智社区的国产人工智能视觉算法框架,而MMCV是openMMLab的一些列框架的基础支持库,例如目标检测框架的MMDetection、语义分割MMSegmentation和...

Exploring Plain Vision Transformer Backbones for Object Detection 论文笔记

ViT作为一个基于Transformer的图片分类模型,在提出之后就得到了很多人的研究,前段时间何凯明基于ViT提出了一个大规模的图像预训练模型MAE,而本篇论文就是在探索将MAE预训练之后的ViT作为目标检测网络的可行性以及有效性

Scaling Up Y our Kernels to 31x31: Revisiting Large Kernel Design in CNNs论文笔记

本篇论文的灵盖来自于ViT,本文指出了一个观点,就是使用少量的大的卷积核代替原先的小卷积核的堆叠将会形成一个更加有效的卷积神经网络范式,当然这一切都会基于作者提出来的五条准则之上的。

End-to-End Object Detection with Transformers

本文提出了一种新的方法,将目标检测视为一个直接的集合预测问题。这种方法简化了检测pipeline,有效地消除了对许多需要手工设计的组件,如非极大抑制程序或Anchor的生成,这些组件明确地编码了任务相关的先验知识。这个新框架的主要部分称为DEtection TRansformer或DETR,是一个基于集合的全局损失,它通过两方匹配强制进行独特的预测,它还包含一个Transformer encoder-decoder架构。

Objects as Points 论文笔记

这篇论文是Anchor-free目标检测模型的另一个经典模型,但是这篇论文不止是做了2D目标检测的研究,还将其提出的模型在3D目标检测任务以及人体姿态估计任务上做了探索,但是那一部分对我目前的方向没有太大的参考价值,所以直接就跳过了。还有 Related work 部分都是目标检测任务中一些老生常谈的模型,R-CNN系列、YOLO系列,以及SSD等,所以这一部分也不再详述,只摘取一两段重要的精读一下。