ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [논문] Deep 3d human pose estimation: A review
    CV & ML 2021. 11. 22. 21:33

    이 논문은 딥러닝 기반 3D 사람 포즈 추정(Human Pose Estimation; HPE)에 대한 풀어야할 문제들과 알고리즘, 데이터셋 등에 대해 정리해놓은 리뷰 논문이다.

    오랫동안 미뤄놓았던 HPE 공부를 다시 시작하기 위해 블로그에 정리하면서 익힐 예정이다.

     

    1. Introduction

    먼저 Human Pose Estimation이란 사진이나 영상으로부터 사람(들)의 관절(articuated joing)의 위치를 찾는 연구분야다.

    현재는 2D 영상을 통해 2D 관절 위치를 찾는 데까지는 성공적인 수준까지 연구가 완료되었지만 여전히 3D 위치를 찾는 것은 과제로 남아있다. 일단, 우리는 이 HPE 기술이 어느 분야에서 활용될 수 있는지 살펴보겠다.

     

    1.1 Application

    • 사람-컴퓨터간 상호작용: 서비스 로봇이 사람의 3D 위치, 행동에 대해 이해한다면 더 나은 보조를 할 수 있다. (예: 로봇이 만약 사람이 넘어질려고 할 때의 3D 관절 위치를 알게 된다면, 넘어지기 전에 부축할 수 있다.)
    • 자율 자동차
    • 영상 모니터링
    • 생물 역학과 약학
    • 스포츠 수행력 분석과 교육
    • 심리
    • 패션 산업과 가상 착용

     

     

    1.2 Challenges

    2D HPE에서 풀어야 할 주요 과제들

    • 사람들의 다양한 자세
    • 복잡한 배경
    • 입고 있는 옷 형태
    • 가림 현상(occlusion)

     

    3D HPE에서 주요 과제들은 다음과 같다.

    • 실제 환경에 가까운 3D 데이터셋
    • 깊이 값의 모호함
    • 많은 자세 정보 필요성(예: 회전, 이동행렬)
    • 관절 위치 추정을 위한 탐색 영역(searching state space)이 큼

     

    세부적으로 다뤄볼 과제들은

    (1.2.1) Different Inputs

    다양한 종류의 입력으로 인해 3D 자세 추정을 할 수 있다.

    예를 들어 크기를 알고 있는 물체나 그림자같은 시각적 정보들(Visual Cues)을 통해 깊이 정보를 추정해볼 수 있다. 하지만 이런 시각 정보를 2D 이미지에서 바로 찾아내기에는 어려움이 있다. 그렇다고 해서 무시하자니 3D 포즈를 찾을 수 없게 된다.

    Fig.1을 보면 하나의 2D 포즈(2D Reprojections)는 여러개의 3D 포즈(Hypothesis 1~5)와 매칭될 수 있다.

     

     

    사실 시간적 정보와 멀티뷰 영상에 의해서 깊이 값을 찾아낼 수 있다.

    하지만 시간적 정보를 사용할 경우 또다른 풀어야 할 문제들이 발생한다. 예를 들면 배경이 자주 바뀐다든지, 카메라가 이동하거나, 물체의 빠른 움직임, 옷이 바뀌거나 조명이 바뀌는 상황이 발생하면 시간에 따라 사람 모습이 완전 다르게 보일 수 있다.

    멀티뷰 영상을 사용할 때는 여러 카메라 영상 정보를 어떻게 하나로 합칠지에 대한 문제가 발생한다. 

    그리고 2D 자세에서 occlusion이나 잘못된 추정이 발생할 경우, 3D 포즈로 전환하는 게 훨씬 어려워진다.

    단순히 triangularization으로 풀수있는 문제가 아니다, 특히 촬영 카메라 갯수가 적은 경우.

     

    (1.2.2) Multiple Persons

    한 사람의 자세를 추정하는 것보다 여러 명의 사람들의 자세를 한꺼번에 추정하는 게 더욱 도전적인 과제다. 

    하나의 카메라 영상으로 여러 명의 자세를 추정할 때 어떤 사람이 가까이 있는 사람에 의해 부분적으로 가려질 때 상황을 해결해야 한다. 

    2개 이상의 시점에서 여러 명의 사람 자세를 추정할 때는 더 큰 state space, occlusion, cross-view 모호함이 발생한다. (Fig.2)

     

     

     

     

     

    (1.2.3) In-the-Wild Scenario

    딥러닝을 기반으로 3D 자세 추정을 하기 위해선 무엇보다도 충분한 데이터셋이 필수적으로 필요한데 3D 라벨링은 상당히 시간과 자원이 많이 드는 과제 중 하나다. 2D 영상의 경우 사람이 직접 골격 위치를 만들어낼 수 있지만, 거리를 포함해야 하는 3D 라벨은 수동으로 만들기 힘들다. 또한 현재 존재하는 데이터셋 HumanEva나 Human3.6M의 경우 실내에서 모션 캡처 시스템을 통해 촬영되었기 때문에, 이 데이터셋에 학습한 모델들을 실외 환경에 적용하면 일반화(generalization) 문제가 발생한다. 

     이 문제를 개선하기 위해서 ①2D 자세를 3D로 올림(lift), ②지식 전파(knowledge transfer) ③ weak supervision signal  방법들이 존재하지만 아직까지는 3D 데이터셋 부족 문제를 해결하기엔 부족하다.

     

    1.3 Scope of this survey

    이 논문에서는 딥러닝 기반의 3D HPE의 분류 체계, 3D 표현 방법, 데이터셋에 대해 정리해보았다.

    Fig.3에는 프레임 갯수, 사람 수, 시점 수에 따른 3D HPE 방법을 분류해놓았다.

    이 논문에서는 3D human pose를 추정하는  딥러닝 기반 알고리즘을 소개할 것이다.  입력 데이터도 한 장의 이미지 혹은 동영상 / 단일뷰(single view) 혹은 멀티뷰(multi view) / 한 사람 혹은 여러명 등 다양하게 소개할 예정이다. Parametric model인 SCAPE, SMPL, DensePose 모델들은 사람 몸 형태를 구현하는 데 사용된다. 

    여러 명의 사람들이 존재하는 데이터에서 3D HPE를 추정하는 two-stage 방법에는  대표적으로 2가지가 있다. 'top-down'과 'bottom-up' .

    'top-down' 은  영상에서 사람을 먼저 인식해서 bounding box를 찾아내고, 각각의 box에서 사람 pose를 추출한다. 'bottom-up'은 한 영상에서 바로 사람의 관절 위치를 추출한 다음, 한 사람으로 추정되는 관절들을 모아 한 사람씩 분류한다.

     

      

    2. Human body modeling, datasets, and evaluation metrics

     

    2.1 Human body modeling

     관절 모델 (Skeleton-Based Model)

     SMPL 모델 (Skinned Multi-Person Linear Based Model)

     표면 모델 (Surface-Based Model)

     

    2.2 Datasets

    HumanEva-I

    Human3.6M

    MPI-INF-3DHP (MARker-Less Motion Capture in Outdoor and Indoor Scenes)

    Total Capture

    SURREAL (Synthetic hUmans foR REAL)

    Unite the People

    JTA (Joint Track Auto)

    3DPW (3D Poses in the Wild)

    Shelf and Campus

    CMU Panoptic

    MuCo-3DHP (Multiperson Composited 3D Human Pose)

     

     

    2.3 Evaluation metrics

    3D HPE 분야에서 주로 사용되는 평가 방법에 대해 소개하겠다.

    MPJPE (Mean Per Joing Position Error)

    f: frame

    S: 해당 관절

     

     

     

     

    * Parametric model: 데이터가 특정한 모델을 따른다고 가정하고, 그것의 고정된 개수의 파라미터들을 학습해서 튜닝하는 것

     

     

     

     

     

     

     

     

    댓글

Designed by Tistory.