木须肉,climate,红尘-婆媳关系处理网,我国最复杂的关系,分析及案例分享

admin 2019-05-16 阅读:244

本文转载自来源人工智能研讨院。

撰稿:Fahad Khan,孙国磊,廖胜才,卢宪凯

导语

CVPR (Conference on Computer Vision andPattern Recognition) 作为人工智能范畴核算机视觉方向的最重要的学术会议,每年都会招引全球最顶尖的学术组织和公司的很多投稿。

近四年的论文录入状况别离是:

CVPR 2016,投稿2145篇、选用643篇、选用率29.98%;

CVPR 2017,投稿2620篇、选用783篇、选用率29.89%;

CVPR 2018,投稿3359篇、选用979篇、选用率29.15%;

CVPR 2019,投稿5156篇,选用1299篇、选用率25.19%。

在CVPR 2019的剧烈竞逐中,IIAI (Inception Institute of Artificial Intelligence, 来源人工智能研讨院) 有25篇论文被选用。本文将选择其间别离关于Tracking、Detection、Segmentation方向的三篇优秀论文做扼要介绍。

1. Tracking

ATOM: Accurate Tracking by Overlap Maximization (Oral)

作者:Martin Danelljan, Goutam Bhat, Fahad Shahbaz Khan, Michael Felsberg

Motivation. 在线视觉盯梢(online visual tracking)是一个具有挑战性的问题:盯梢器一般需求依据最少的监督信息,如视频的初始帧,学习一个appearance model,然后模型要能泛化于各式各样的条件,如不同的方针形状、不同的光照等。

盯梢问题能够分解为方针分类使命(classification task)和方针估量使命(estimation task)。分类使命将图画区域分类为远景和布景,然后供给方针的大略方位;估量使命给出方针的详细状况(如,2D方位和方针的长宽),一般由bounding box表明。

近年来,盯梢问题的研讨一向会集在分类使命上,如在线练习correlation-filter-based tracker,运用各种强壮的deep feature representations。可是估量使命的研讨进展缓慢:大都作业仅简略暴力地经过多标准查找(multi-scale search)给出bounding box的详细状况。

咱们以为这种过度依靠分类使命的盯梢办法有局限性,因为分类器对方针的详细状况并不灵敏,多标准暴力查找过于简略且耗时。精准地估量方针状况应该需求有关该方针的高层先验信息,所以近年又有SiamRPN出现,集成先验信息、做很多离线练习。可是SiamRPN这类办法没有在线练习的进程,导致它不能很好地应对盯梢中的搅扰。

本文在线练习分类器,并经过广泛地离线学习将高层先验信息运用到估量使命上。经过猜测target和estimated bounding box的overlap来完成方针估量。

本文提出的ATOM盯梢模型在5个benchmark数据集上完成了state-of-the-art功能;在TrackingNet数据集上,相对于之前的最佳办法提高了15%,一起运转速度超越30 FPS。

Method. 本文提出了一种新颖的盯梢架构,包含专门用于方针分类和估量的组件。受最近提出的IoU-Net的启示,咱们练习估量组件以猜测target与estimated bounding box之间的IoU overlap,如Jaccard index。

因为开始的IoU-Net是class-specific的,因而不适用于通用盯梢,咱们提出了一种新的架构,能够将target-specific信息用于IoU猜测中。详细而言,咱们引进一个模块化的网络组件,该组件将target appearance合并到图画中以完成target-specific IoU估量。这使得估量组件能够在大规模数据集进步行离线练习。盯梢时,仅经过最大化predicted IoU overlap即可找到对应的bounding box。

为了开宣布一种无缝且通明的盯梢办法,咱们还从头审视了方针分类问题,以防止不必要的复杂度。分类组件简略而强壮,仅由两层全卷积组成。与估量组件不同,分类组件是在线练习的,提高了场景中抗搅扰方针的鲁棒性。

为了确保盯梢实时性,咱们针对在线优化中梯度下降缺少的问题供给解决办法:选用Conjugate-Gradient-based战略,并展现了如安在深度学习中完成它。

ATOM全体架构. 如图能够看到分类网络和估量网络被整合到了一个网络结构中,两个使命运用了相同的骨干网络,即ResNet-18,这部分是在ImageNet上预练习好的,然后在盯梢中榜首帧上fine-tune。方针估量运用离线练习的IoU猜测模块,在很多的数据集上练习,这一块有四个输入,别离是参阅帧的bounding box及骨干网络提出的特征和测验帧的候选bounding box及特征,它会输出候选框对应的IoU值,终究的bounding box运用梯度下降最大化IoU值得到。

分类网络是在线练习的一个全卷积结构,用于增强分类器差异方针和场景中其他物体的判别力,输入当时帧查找域的特征,它会输出方针方位的置信度。

方针估量组件的完好架构. 分为上下两部分,上半部分运用参阅帧生成调制向量给下半部分测验帧的网络进行调制。两支的输入特征网络都是共同的。上半部分提出的是参阅帧x0的参阅方针B0的特征,输出一个正数的D维的调制向量c (D对应特征层数)。

而在测验帧x时,网络部分发生了改变,骨干网络提出的特征后多接了一层卷积层,相应的后边pooling也变大了,之后用调制向量对特征的每一通道做了加权处理,即赋予了参阅帧的信息,调制后的特征再被送给IoU猜测模块g,即三个全衔接层后输出IoU。一切卷积层和全衔接层后边都进行BatchNorm和ReLU操作。

Experiments. 咱们在五个benchmark数据集上(NFS, UAV123, TrackingNet, LaSOT和VOT2018)进行了全面的试验。成果表明,ATOM的功能在一切的数据集上都有显着的提高。如下所示。

State-of-the-art comparison on the NSF dataset.

State-of-the-art comparison on TrackingNet dataset.

State-of-the-art comparison on LaSOT dataset

State-of-the-art comparison on VOT2018 dataset

2. Detection

High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection

作者:Wei Liu, Shengcai Liao, Weiqiang Ren, Weidong Hu, Yinan Yu

52CV从前榜首时间对该论文做过解读:

CVPR 2019 行人检测新思路:高档语义特征检测获得精度新打破

Motivation. 方针检测一般选用传统的密布滑窗的办法或许当时干流的铺设锚点框(anchor)的检测办法,但不论哪种办法都不可防止地需求针对特定数据集规划乃至优化滑窗或锚点框超参数,然后增加了练习难度并约束了检测器的通用性。

能否跳出这种窗口式或锚点框式的约束而完成方针检测?

受启示于前期的归于低层视觉的特征检测或许感兴趣区域检测的思路,本文把方针检测当作一个具有高阶语义的特征检测使命,为方针检测供给一个新的视角。

详细地,像边际、角点、斑驳或感兴趣区域等低层特征检测,本文办法也扫描全图寻求感兴趣特征点,为此卷积是天然担任的。但跟传统的底层特征不一样的是,本文进一步寻求具有高阶语义的笼统特征点,如行人、人脸等,而当今的深度卷积神经网络现已具有这种高阶语义的笼统才能。

此外,类似斑驳或感兴趣区域检测,本文也一起为每个中心点猜测出方针的标准,这也是一个直接的卷积式猜测。因而,本文以行人检测为例将方针检测简化为一个直接的全卷积式的中心点和标准猜测使命,并将该办法命名为CSP(Center and Scale Prediction)检测器。

尽管该检测器结构简略,但在干流的Caltech和Citypersons行人检测数据会集仍然到达了当时最好的检测功能,一起具有与单阶段检测器适当的检测速度,因而是个简而可用的新的检测思路。

Method. 该办法一个简略的示意图如下图所示,首要将一张图画输入全卷积网络,依据网络提取的特征图再卷积式地猜测两个映射图,一个以热图的办法出现方针的中心点方位,一个担任猜测方针的标准巨细。

在此根底上,便能够将两者映射到原图上并解译成方针检测框:中心点热图的方位对应检测框的中心方位,猜测的标准巨细对应检测框的巨细,而中心点热图上的置信度则对应检测框的得分。

Experiments. 本文提出的办法在Caltech和Citypersons行人检测数据集进步行了验证。在Caltech数据集上,成果如下图所示。

仅用Caltech练习集练习时,在测验集的合理(Reasonable)子集上,CSP的均匀漏检率为4.5%,比当时最好的RepLoss的5.0%好0.5%。当比照的办法都在Citypersons上预练习时,CSP获得当时最好的均匀漏检率3.8%。

在严峻遮挡子集上,CSP没有预练习时比RepLoss好2.1%,有预练习时比RepLoss好5.3%。值得指出的是,CSP没有额定规划针对遮挡的战略,而RepLoss和OR-CNN是专门针对遮挡规划的。

在Citypersons数据集上,成果如下表所示。一切成果都是针对中心线标示,原始图画 (1024x2048)上测验的。

能够看出,在合理子集上,CSP比当时最好的ALFNet提高了1.0%,在严峻遮挡子集上提高了2.6%,在小方针上提高了3.0%。

而测验速度与ALFNet适当,在NVIDIA GTX1080Ti单张显卡上每张1024x2048巨细的图画均匀用时0.33秒。特别是,同为无需锚点框的办法,CSP比TLL提高了4.5%,比TLL+MRF提高了3.4%。

近年盛行的锚点框检测器获得了很大的成功,但仍然是VJ检测器奠定的根底,其规划深受滑窗分类器的影响。

可是,深度卷积神经网络高度的语义笼统才能拓荒了更宽广的潜力,使得扔掉锚点框成为一种或许,而本文提出的CSP检测器就是这方面的一种新的测验。

现在已在行人检测和人脸检测上验证了有效性,未来可进一步考虑拓宽到车辆检测和通用物体检测等相关的检测使命。

3. Segmentation

See More, Know More: Unsupervised Video Object Segmentation with Co-Attention Siamese Networks

作者:Xiankai Lu, Wenguan Wang, Chao Ma, Jianbing Shen, Ling Shao, Fatih Porikli

Motivation. 无监督视频方针切割(UVOS)需求主动确认给定视频的远景方针,而且将其切割出来。与半监督视频方针切割(SVOS)的算法不同,UVOS没有榜首帧的信息,因而UVOS不只要处理SVOS中常见的方针遮挡,形变,漂移等问题,还要依据帧之间的相关信息,然后确认出远景方针。

现有的UVOS算法,往往是运用轨道(trajectory)来结构长时间运动信息, 从而捕捉到远景方针。而 依据深度学习的办法,往往运用部分的运动信息,比方optical flow来结构双路的网络(two stream network),或许运用LSTM是学习部分的时序信息。

这些算法缺少对大局信息的捕捉,无法综合运用视频帧内的相关信息 。咱们这篇文章中,将UVOS看作是一个co-attention进程,提出了一个Co-attention Siamese Network(COSNet)来完成整个算法。

Method. 整个网络是一个Siamese Network,由三部分组成,别离是根底网络,Co-attention部分以及切割网络,如下图所示。其间根底网络是DeeplabV3,然后Co-attention 部分是全衔接网络,切割网络是全卷积网络。整个网络能够端到端练习。

其间,Co-attention来源于天然语言处理,其表达式如下:

(1) 首要核算两个特征

之间的类似度矩阵。

(2) 然后对这个类似度矩阵S进行归一化(别离依照行和列进行归一化)。

(3) 依据归一化的矩阵别离核算彼此之间的attention summarization。

Experiments. 咱们在DAVIS2016, FBMS以及Youtube Objects都进行了测验 ,而且都获得了最好的试验成果。下面是DAVIS2016的试验成果。