许可优化
许可优化
产品
产品
解决方案
解决方案
服务支持
服务支持
关于
关于
软件库
当前位置:服务支持 >  软件文章 >  【论文解析】无监督发现物体地标作为结构表示(Unsupervised Discovery of Object Landmarks as Structural Representations)

【论文解析】无监督发现物体地标作为结构表示(Unsupervised Discovery of Object Landmarks as Structural Representations)

阅读数 7
点赞 0
article_banner

最近在翻CVPR2018的文章,突然就翻到了这篇oral,关于无监督学习的 关键点检测  ,感觉还是很流弊的,特地来分享一下

   论文链接:Unsupervised Discovery of Object Landmarks as Structural Representations

   首先,来看一下网络结构
在这里插入图片描述

主要分成三个部分,landmark detector(对应于左上角的蓝色部分),Local latent descriptors(对应左下角的粉色部分)以及landmark-based decoder(对应于右半部分)。

1.landmark detector:

   可以看到,这部分主要是一个hourglass网络,输入的是一张原图,没有label 信息 ,经过这个网络得到一个初始的类似于heatmap的raw score map(R)。
在这里插入图片描述

   θ表示网络参数,要注意的是这里R有k+1个 通道  ,k是landmark 的数量,第k+1代表的是background。

   然后R经过softmax归一化之后得到detection confidence map(我把它叫做置信图)
在这里插入图片描述

   然后把Dk看作是一个权重图,第k个landmark的坐标用以下式子计算:
在这里插入图片描述

   然后在这里插入图片描述是一个空间归一化因子,就是为了坐标乘上权重计算得到landmark坐标之后能够返回原来的 坐标系  下对应的scale。同时这个式子3是可导的,意味着它可以进行反向传播(除非Dk权重都集中在一个坐标上面,那就是完美的理想网络也不需要可导直接可以用了hh)

   但是上面得到的landmark是随机的,太任意了,很可能得到的landmark都不能用,为此作者也提出了几个软约束

   1.Concentration constraint

   浓度约束,目的是为了让权重图Dk的密度集中在小部分区域,然后以至于可以把最集中区域的中心点当作是landmark,否则如果权重图很分散的话会陷入不知道选那个点当作landmark的尴尬境地。把Dk/ζk当作是二项分布的密度,计算两个方差σ²det,u和σ²det,v,得到loss函数
在这里插入图片描述

   把这个loss函数当作一个各向同性的高斯分布的熵的指数形式(把loss函数当作熵的目的是因为熵越低意味着更高的峰值分布),可以得到一个对密度Dk/ζk作估计的高斯分布
在这里插入图片描述

   2.separation constraint

   分离约束,这个其实比较易于理解,就是为了让各个landmark都尽可能地分离,否则最开始的随机性可能导致预测出来的landmark坐标都在图像中心附近。在这里插入图片描述

   3.equivariance constraint

   不变性约束。就是对于变换后的图像,检测出来的landmark位置还能和原来的一样,不受旋转,缩放等影响。变换函数用TPS(薄板样条插值)随机参数随机得到。

在这里插入图片描述

   这里g是对变换后的图像检测得到的坐标,然后后面的(xk,yk)是直接对原图坐标作同样变换得到的值,两个构成了类似于MSEloss的loss函数。

   4.Cross-object correapondence

   跨对象的一致性主要是通过同一滤波器共享 语义相似度 这个事实。

2.Local latent descriptors

   因为landmark可能不足以描述图像的structural representation,所以引入了额外的局部潜在描述器,所谓局部,意味着它也不能编码太多了全局信息。

   还是通过一个hourglass 结网络,得到feature map F。
在这里插入图片描述对于每个F,用式子6中得到的置信图高斯估计分布当作软掩模,来得到每个landmark的局部特征。C小于S,因为里面有一个 线性  操作子Wk,专门用来降维,将landmark的feature表示降到低维空间,使得可以用特定有限bits的pattern来表示。
在这里插入图片描述

3.Landmark-based decoder

   因为是encoder-decoder结构,所以图像重建也是可以的。

   首先采用以前面1中得到的landmark的坐标为中心得到的各向同性高斯分布图当作raw score map。背景通道被置为1,再across channels正则化R得到D。
在这里插入图片描述
在这里插入图片描述

然后结合2中得到的fk,把D当作软掩模,进行一个全局反池化,得到最后的feature map。
在这里插入图片描述

   里面的η是非线性激活函数,如LeakyReLU等等。

   但是,D和F得到了之后,如果只用一组,可能效果不好,因为要平衡D中的密度锐度。若D中越密,那么早期反向传播的 像素  点就会越少,对网络的迭代不好,所以作者的做法是用不同的σdec得到很多组D和F,用它们来进行图像的重建。

在这里插入图片描述

   最后的loss函数如下:
在这里插入图片描述

   其中Lrecon为在这里插入图片描述

   λ取0.5

(最近任务多,先写完网络结构了,实验部分后面补)


免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删

相关文章
技术文档
QR Code
微信扫一扫,欢迎咨询~
customer

online

联系我们
武汉格发信息技术有限公司
湖北省武汉市经开区科技园西路6号103孵化器
电话:155-2731-8020 座机:027-59821821
邮件:tanzw@gofarlic.com
Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利
遇到许可问题?该如何解决!?
评估许可证实际采购量? 
不清楚软件许可证使用数据? 
收到软件厂商律师函!?  
想要少购买点许可证,节省费用? 
收到软件厂商侵权通告!?  
有正版license,但许可证不够用,需要新购? 
联系方式 board-phone 155-2731-8020
close1
预留信息,一起解决您的问题
* 姓名:
* 手机:

* 公司名称:

姓名不为空

姓名不为空

姓名不为空
手机不正确

手机不正确

手机不正确
公司不为空

公司不为空

公司不为空