새소식

딥러닝, 머신러닝/Pose Estimation

Multi Person 3D Pose Estimation

  • -

여러 사람의 3D Pose estimation에서 가장 중요한 부분은 그 사람의 3D 위치입니다.

ROMP 모델 아키텍처

  • Top-down 방식을 쓰든, Bottom-up 방식을 쓰든 결국 사람의 3D joint를 추정하고, 그 사람이 전체 3D 공간에서 어디에 위치해있는지를 맞춰주는 게 중요한데요.
  • 위 그림의 ROMP 모델의 경우는 Bottom-up 방식을 사용해서, 각 pixel마다 해당하는 사람의 center point가 어디 있는지를 추정하고 있습니다. 

 

대표적인 모델로, Meta 문경식님의 3DMPPE(2019) 논문을 소개해보겠습니다.

 

3DMPPE (2019)

  • 이 논문은 Root joint의 위치화까지 학습 기반으로 하게끔 처음으로 제안한 논문입니다.
    기존의 방식들은 3D to 2D fitting 방식을 적용했는데요. 기존 방식은 아래와 같은 문제점이 있습니다.

 

3D to 2D fitting

  • 추정된 2D pose와 project된 3D pose 사이의 pixel 거리 최소화하는 방식
  • 한계점
    1) 2D pose, 3D pose 모두 추정값이기 때문에 틀릴 수 있고, 그것이 얻어진 root position에 큰 영향을 끼칠 수 있다.
    2) 학습 기반의 알고리즘이 아니기 때문에 잘못된 2D/3D pose 추정치(noise)에 매우 민감하다
    (학습 기반인 경우, 몇가지 에러가 있을 때 error를 correction하는 방식으로 학습 가능)

 

3DMPPE

  • 3가지의 분리된 모듈로 구성되어있고, feature 공유를 하지 않고 있습니다.
    완전히 분리되어 있기 때문에, detectnet과 posenet은 성능이 개선된 최근의 모델들로 교체해서 사용할 수 있다고 합니다.
  • 1) DetectNet : human detection network (Pre-trained Mask R-CNN 사용, 현재는 yolov5가 더 빠르고 정확하다)
  • 2) PoseNet : cropped human image를 입력으로 받고, root-relative 3D single person pose estimation를 출력으로 한다.
  • 3) RootNet : 이 논문에서 RootNet이 핵심인데, 하나의 cropped human image를 입력으로 받아, root joint(pelvis)의 절대위치를 추정한다.

 

여기서 2가지의 문제가 생긴다.

차 피규어 (출처 : 구글, https://www.youtube.com/watch?v=3k_iIGfRXLo)

1) scale ambiguity : 만약 위와 같이 현실적으로 잘 구성된 모형이 있다고 하면,
크기가 작고 카메라에 가까이 있는 물체 vs 크기가 크고 카메라에 멀리 있는 물체를 구분할 수 없다.

2) Zoom ambiguity : focal length(=zoom), 줌을 얼마나 땡겼는지 알 수 없기 때문에, 그 사람의 절대 위치가 얼마나 카메라에서 떨어져 있는지 알 수 없다.

 

위의 2가지 문제를 해결하기 위해 camera pinhole model에서는 일부 가정과 데이터셋(mocap dataset에서 제공하는 focal length, 몇 mm를 1px로 바꿀지 정하는 카메라의 factor - 카메라에 담겨있음)을 활용한다.

  • A_real : 사람의 일반적인 면적을 상수로 가정한다 = 2m*2m
    하지만 앉아있거나, 아이들처럼 키가 어른들보다 작은 경우 문제가 생긴다.

 

위의 2가지 문제를 RootNet에서 image feature를 활용해서 해결한다 : human pose, appearance를 통해 어느 정도 구분할 수 있기에


 

Multi Person 3D Pose Estimation 분야에서 비교적 최근에 나온 논문인 ROMP(2021) 모델도 참고하시면 좋을 것 같아 관련 설명글 링크 공유드립니다.

https://code.debro.co.kr/4

 

Monocular, One-stage, Regression of Multiple 3D People

2020년 8월에 나온 3D pose estimation 논문인 "Monocular, One-stage, Regression of Multiple 3D People" 논문을 살펴보도록 하겠습니다. 발표영상과 함께 보시면 좋을 것 같아 공유합니다. https://www.youtube..

code.debro.co.kr

 

 

 


 

참고자료

https://arxiv.org/pdf/2008.12272.pdf

 

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.