人类的出发点是因果,模型的出发点是数据 — David 9
没有上层逻辑(或reasoning)和自恰的抽象归纳,在这一点上深度学习只能沦为一般的“工具”。举例说这个360全景室内图的3D重建应用:
如果要设计一个端到端的模型,应该把神经网络实际输出抽象成什么?也许只有像作者等领域专家才会想到分成两个图(角点图和边缘图)去建立室内3D场景:
因为对于室内场景,把角点和边缘线准确找到,再假设房顶和地面平行,就可以预测出比较好的3D模型盒子(box)了:
因此细想一下,AI专家系统的复兴是不是未来一个可以期待的方向?况且,David认为,论文中“reladted work”部分蕴含了大量人类探知知识的“因果”。
我们还是回到室内3D重建上来,该文章还有两个有意思的改进。
首先,对于挖掘轮廓信息,文章所用的CFL(corners for layout)也采用类似Unet的对称跳层连接:
并且由上图可以注意到,在Decoder部分的较低像素层也采用了初步的预测反馈(preliminary predictions),保证在低像素阶段也在学习轮廓相关的信息。
其次,文章针对全景图片提出全景卷积(EquiConvs)的方式,如下图依次是一般卷积、变形卷积和全景卷积:
为什么这种“扇形”卷积对全景图像适配性比较好呢 ?因为本质上360全景图像未展开时就是一个球体投影:
而如果要在球面上卷积,当球面展开为类似世界地图的长方形时,是不是就是相应的“梯形”卷积了:
值得注意的是文中也支持靠近边缘的卷积不需要做padding,因为如果有offset的话,卷积会自动去找另一端相连的像素(整个球体投影是收尾相连的)。
参考文献:
- Corners for Layout: End-to-End Layout Recovery from 360 Images
- https://github.com/cfernandezlab/CFL
- Equirectangular Projection(ERP)
本文采用署名 – 非商业性使用 – 禁止演绎 3.0 中国大陆许可协议进行许可。著作权属于“David 9的博客”原创,如需转载,请联系微信: david9ml,或邮箱:yanchao727@gmail.com
或直接扫二维码:
David 9
Latest posts by David 9 (see all)
- 修订特征已经变得切实可行, “特征矫正工程”是否会成为潮流? - 27 3 月, 2024
- 量子计算系列#2 : 量子机器学习与量子深度学习补充资料,QML,QeML,QaML - 29 2 月, 2024
- “现象意识”#2:用白盒的视角研究意识和大脑,会是什么景象?微意识,主体感,超心智,意识中层理论 - 16 2 月, 2024