3D Object Detection/Monocular 3D

[논문리뷰] MVC-MonoDet: Semi-supervised Monocular 3D Object Detection by Multi-Veiw Consistency (2022 ECCV)

논문리뷰 2023. 1. 5. 21:25

[논문리뷰] monoMVC : Semi-supervised Monocular 3D Object Detection by Multi-Veiw Consistency (2022 ECCV)

저자 : Qing Lian, Yanbo Xu, Weilong Yao, Yingcong-Chen, and Tong Zhang

 

- 홍콩과기대에서 작성된 논문으로 2022 ECCV에 accept 됨

- stereo카메라 혹은 연속된 두 sequence 의 두장의 이미지 사이의 consistency가 필요하다고 주장하며 Monocular 3D Object에서 semi-supervised learning을 적용한 논문


Introduction

각각 (a) Pseudo-lidar (b) Multi-task 를 뜻하는 그림

- Pseudo-lidar, Multi-task detection의 문제

  • 중간 단계의 pixel-level depth representation을 3D detection으로 연결 필요
  • Depth estimation, 3D detection 의 목적이 달라 supervision의 bias로 작용
    • Depth-estimation - 배경과 객체의 표면에 집중
    •     3D detection    - object center 에 집중

제안하는 MVC-MonoDet의 방식은 직접적으로 3D Detection에 필요한 supervision을 줄 수 있음

- Semi-supervised in Multi-view(video), Stereo

  • Foreground object에 대한 direct한 supervision을 제안
    1. Box-level regularization 
    2. Object-level regularization

Overall Architecture

Consistency Loss

  • Source view는 Stereo image 이거나, Mono에서 t-1 시점의 image로 사용 가능
  • Source view(unlabel), Target view(label or unlabel) Box 예측이 유사해야 함
  • Source view에서 Target view로 Projection 이후 Consistency loss 계산
  • Box, Object level regularization

Box-level Consistency

Box-level Consistency 식

  • Source box - Target 으로 Projection 시키면 Target 에서의 Box 와 같아야 함
  • 2D box 를 이용하여 pixel-level 로 매칭 – 간단하고 효율적
  • SSIM similarity score 를 이용하여 minimumSSIM 인 경우 matching
    • confidence 0.5 이하 -  제거

Object-level Consistency

  • Pixel 별 Photometric Consistency 를 통해, 더 Cense 한 Supervision 
    • Step1 – 3D box 생성
    • Step2 – Source view 에서 Target 으로 Projection
      • cube-shaped assumption 
      • Surface-to-cube offset head
    • Step3 – Shape Uncertainty
      • Laplacian distribution

Object-level Consistency – Step2

cube-shaped assumption

  • 3D box를 통해 객체의 표면의 각 픽셀 depth 를 알아야 함
    • Cube-shaped Assumption – 객체는 육면체라고 가정
    • Camera origin $𝑜$ 에서 Source view $𝑝$ 로의 vector $𝑜𝑝$
      • 생성된 box 의 각 평면 벡터 $𝑏 ⃗^𝑖𝑗$ : 외적하면 교차점
      • $i$번째 box, $j$번째 방향 벡터

카메라 픽셀을 box로 projection 하는 식

Surface-to-plane offset

  • 육면체의 평면과 Gap 이 존재
  • Offset Head -  각 픽셀의 box 표면으로부터의 offset 예측
  • GT가 있는 경우 box는 GT 박스를 사용하여 offset 예측
    • 없는 경우는 estimated box 사용

Object-level Consistency – Step3

  • object 의 몇몇 pixel – less informative, unstable when learning
  • Laplacian distribution loss - 각 pixel 마다 uncertainty 함께 를 예측


Experiments

Performance of Proposed model

  • Baseline – Centernet + Additional Head
  • Multi-task – DD3D (with depth estimation)

Comparison with SOTA

  • 기존의 다른 모델들보다 더 좋은 성능을 보여줌


Ablation Study

  • Ablation을 통해 제안한 모델의 효과를 입증하는데, 둘 중에선 box level만 사용할 때 더 좋은 성능을 보이며, video보다는 stereo에서 더 좋은 성능을 보임