2022년 인체 자세 추정 기술력 및 활용 사례

인간 자세 추정이란 무엇인가?


인간 자세 추정(HPE)은 컴퓨터 비전에서 특정 장면에서 인체의 위치를 식별하는 데 초점을 맞춘 작업이다. 대부분의 HPE 방법은 신체 부위와 전체 자세를 감지하기 위해 광학 센서로 RGB 이미지를 기록하는 것을 기반으로 한다. 이것은 피트니스 및 재활, 증강 현실 애플리케이션 및 감시를 위한 다른 컴퓨터 비전 기술과 함께 사용될 수 있습니다.

 

이 기술의 본질은 팔다리, 관절, 심지어 사람의 얼굴에서 관심 지점을 감지하는 데 있다. 이러한 핵심 사항은 인체 모델의 2D 또는 3D 표현을 생성하는 데 사용된다.

 

이 모델들은 기본적으로 우리가 이동 중에 추적하는 신체 관절의 지도입니다. 이것은 컴퓨터가 사람이 그냥 앉아 있는 것과 쪼그리고 앉아 있는 것의 차이를 찾을 뿐만 아니라 특정 관절의 굴곡 각도를 계산하고 움직임이 올바르게 수행되는지를 말하기 위해 수행된다. 

인간 모델에는 골격 기반 모델, 윤곽 기반 모델 및 볼륨 기반 모델의 세 가지 일반적인 유형이 있습니다. 골격 기반 모델은 유연성 때문에 인간 포즈 추정에 가장 많이 사용된다. 이것은 발목, 무릎, 어깨, 팔꿈치, 손목, 그리고 인간의 골격 구조를 구성하는 사지 방향과 같은 일련의 관절로 구성되어 있기 때문이다.

 

골격 기반 모델은 3D 표현뿐만 아니라 2D 표현에도 사용되지만, 일반적으로 2D와 3D 방법이 함께 사용된다. 3D 인간 포즈 추정은 깊이 좌표를 고려하고 그 결과를 계산에 가져오기 때문에 응용 프로그램 측정에 더 나은 정확도를 부여한다. 대부분의 움직임에서 깊이는 중요한데, 인체는 2D 차원에서 움직이지 않기 때문이다.  

그럼 이제 기술적 관점에서 3D 인간 포즈 추정이 어떻게 작동하는지 알아보고 그러한 시스템의 현재 기능을 알아보자.



3D 인체 자세 추정 작동 방식


신체 자세 추정 시스템의 전반적인 흐름은 초기 데이터를 캡처하여 시스템이 처리할 수 있도록 업로드하는 것으로 시작한다. 움직임 감지를 다루고 있기 때문에 움직임 패턴 동안 핵심 포인트가 어떻게 변화하는지 추출해야 하므로 정지 사진이 아닌 일련의 이미지를 분석해야 합니다. 

이미지가 업로드되면 HPE 시스템이 분석에 필요한 핵심 포인트를 감지하고 추적합니다. 간단히 말해서, 다양한 소프트웨어 모듈은 2D 키 포인트를 추적하고, 신체 표현을 생성하고, 이를 3D 공간으로 변환하는 역할을 한다. 따라서 일반적으로 신체 자세 추정 모델을 만드는 것에 대해 이야기할 때, 우리는 2D 및 3D 평면에 대해 두 가지 다른 모듈을 구현하는 것을 의미합니다.

따라서 대부분의 인간 포즈 추정 작업의 경우 흐름은 두 부분으로 나뉩니다.

영상 시퀀스에서 2D 키 포인트를 감지하고 추출합니다. 이는 골격 구조를 형성하는 수평 및 수직 좌표를 사용하는 것을 수반한다.
2D 키포인트를 3D로 변환하여 깊이 치수 추가. 
이 프로세스 중에 애플리케이션은 포즈 추정을 수행하는 데 필요한 계산을 수행합니다. 

운동 중에 사람의 자세를 추정하는 것은 피트니스 산업의 한 예에 불과하다. 일부 모델은 사람의 얼굴과 트랙 헤드 위치의 주요 지점을 감지할 수도 있으며, 이는 스냅챗 마스크와 같은 엔터테인먼트 애플리케이션에 적용될 수 있다. 그러나 HPE의 사용 사례에 대해서는 기사 후반부에 설명하겠습니다. 

간단한 동작을 수행하는 짧은 비디오를 업로드하고 처리 시간을 기다려 포즈 분석을 확인하십시오.


3D 포즈 추정 성능 및 정확성


선택한 알고리즘에 따라 HPE 시스템은 다른 성능 및 정확도 결과를 제공합니다. 가장 인기 있는 두 가지 인간 포즈 추정 모델인 VideoPose 3D와 BlazePose와 우리의 실험 측면에서 그들이 어떻게 상관관계가 있는지 알아보자. 

2160*3840 치수와 초당 60프레임의 5초 비디오를 사용하여 BlazePose와 VideoPose 3D 모델을 동일한 하드웨어에서 테스트했습니다. VideoPose3D는 총 8분의 영상 처리 시간을 얻었고, 정확도가 좋았다. 대조적으로 BlazePose 처리 시간은 초당 3-4 프레임에 도달하여 실시간 애플리케이션에서 사용할 수 있습니다. 그러나 아래에 표시된 정확도 결과는 어떤 HPE 작업의 목표와도 일치하지 않습니다.

 

처리 시간은 이동 복잡성, 비디오 및 조명 품질, 2D 포즈 감지기 모듈에 따라 달라집니다. BlazePose와 VideoPose3D가 다른 2D 검출기를 가지고 있다는 사실을 고려할 때, 이 단계는 두 경우 모두 성능 병목 현상으로 보인다.

HPE 성능을 최적화하는 가능한 방법 중 하나는 2D 키 포인트 감지의 가속화이다. 기존의 2D 검출기는 일반적인 정확도를 향상시키기 위해 후처리 단계로 수정하거나 증폭할 수 있다.


실시간 3D 인체 자세 추정


우리가 피트니스 앱을 다루든, 재활용 앱을 다루든, 얼굴 마스크를 쓰든, 감시를 하든, 실시간 처리는 매우 필요하다. 물론 모델의 성능은 선택한 알고리즘과 하드웨어에 따라 달라지지만, 기존 오픈 소스 모델의 대부분은 꽤 긴 응답 시간을 제공한다. 반대 시나리오에서는 정확도가 저하됩니다. 그렇다면, 기존의 3D 인간 자세 추정 모델을 개선하여 실시간 처리로 허용 가능한 정확도를 달성하는 것이 가능할까요?

BlazePose와 같은 모델은 실시간 처리를 제공할 수 있지만, 추적의 정확성은 상업적 사용이나 복잡한 작업에 적합하지 않다. 실험 측면에서, 우리는 파이썬 언어를 사용하여 수정된 3D 포즈 기준선 모델을 사용하여 BlazePose의 2D 구성 요소를 테스트했다. 

속도 측면에서, 우리 모델은 비디오 렌더링 없이 위에서 언급한 하드웨어에서 약 46 FPS를 달성하는 반면, 2D 포즈 감지 모델은 약 50 FPS로 핵심 포인트를 생성한다. 수정된 3D 기준선 모델은 2D 포즈 검출 모델과 비교하여 약 780 FPS의 키포인트를 생성할 수 있다. 접근 방식의 처리 시간에 대한 자세한 정보는 아래에 나와 있습니다.

 

이 접근 방식은 조명이 어둡거나 특이한 포즈를 취하는 복잡한 시나리오에서 신뢰성을 보장하지 않지만, 표준 비디오는 실시간으로 처리할 수 있다. 그러나 일반적으로 모델 예측의 정확성은 훈련과 선택된 아키텍처에 따라 달라진다. 인간 포즈 추정의 진정한 기능을 이해하면 이 기술에 대한 몇 가지 일반적인 비즈니스 애플리케이션과 일반적인 사용 사례를 분석할 수 있다.


인체 자세 추정 사용 사례


HPE는 피트니스, 재활, 증강 현실, 애니메이션, 게임, 로봇 공학 및 심지어 감시와 같은 응용 분야에 기반이 있기 때문에 상당히 성숙한 기술로 간주될 수 있다. 이제 기존 사용 사례에 대해 살펴보겠습니다.


AI 피트니스 및 셀프 코칭


피트니스 애플리케이션과 AI 기반 코치는 신체 자세 추정을 위한 가장 명확한 사용 사례 중 일부이다. 전화 앱에 구현된 모델은 하드웨어 카메라를 센서로 사용하여 운동을 하는 사람을 기록하고 분석을 수행할 수 있다. 

인체의 움직임을 추적하는 운동은 편심 운동과 동심 운동의 단계로 나누어 다양한 각도의 굴곡과 전체 자세를 분석할 수 있다. 이는 핵심 사항을 추적하고 힌트 또는 그래픽 분석의 형태로 분석을 제공함으로써 이루어집니다. 이것은 실시간으로 또는 약간의 지연 후에 처리될 수 있으며, 사용자에게 주요 이동 패턴과 신체 역학에 대한 분석을 제공한다.

재활 및 물리치료


물리치료 산업은 유사한 적용 규칙을 가진 또 다른 인간 활동 추적 사용 사례이다. 원격의료 시대에는 가정 내 상담이 훨씬 유연해지고 다양해진다. 인공지능 기술은 치료가 온라인에서 이루어질 수 있는 더 복잡한 방법을 가능하게 했다. 

재활 활동의 분석은 정확성 요구사항을 제외하고 피트니스 애플리케이션에 유사한 개념을 적용한다. 우리는 부상에서 회복하는 것을 다루기 때문에, 이 범주의 애플리케이션은 의료 범주에 속할 것이다. 이는 특정 국가의 의료 산업 및 일반 데이터 보호법의 기준을 충족해야 한다는 것을 의미합니다. 


증강현실 


가상 피팅룸과 같은 증강 현실 애플리케이션은 우주에서 인체의 위치를 감지하고 인식하는 가장 진보된 방법 중 하나로 인간 추정의 혜택을 받을 수 있다. 이것은 쇼핑객들이 사기 전에 옷을 맞추려고 애쓰는 전자 상거래에서 사용될 수 있다. 

인체의 주요 지점을 추적하고 이 데이터를 사용자의 옷에 맞는 증강현실 엔진에 전달하기 위해 인간 포즈 추정을 적용할 수 있다. 이것은 어떤 신체 부위나 종류의 옷, 심지어 얼굴 마스크에도 적용될 수 있다. 우리는 가상 피팅 룸에 인간 포즈 추정을 사용한 경험을 전용 기사에서 설명했다.

 

애니메이션 및 게임


게임 개발은 인체 역학에 대한 지식이 필요한 복잡한 작업이 많은 어려운 산업이다. 신체 자세 추정은 특정 위치의 추적된 핵심 포인트를 애니메이션 모델로 전송하여 이 과정을 단순화하기 위해 게임 캐릭터의 애니메이션에 널리 사용된다. 

이 작업의 과정은 비디오 제작에 사용되는 모션 추적 기술과 유사하지만 모델에 많은 수의 센서를 배치할 필요는 없다. 대신 여러 대의 카메라를 사용하여 움직임 패턴을 감지하고 자동으로 인식할 수 있습니다. 그런 다음 가져온 데이터는 게임 엔진에서 실제 3D 모델로 변환 및 전송될 수 있습니다. 


감시 및 인간 활동 분석


몇몇 감시 사건들은 사람들의 무리에서 범죄를 발견할 필요가 없다. 대신, 카메라는 식료품점에서 쇼핑하는 것과 같은 일상적인 과정을 자동화하는 데 사용될 수 있다. 

예를 들어, Amazon GO와 같은 캐셔리스 스토어 시스템은 사람이 선반에서 어떤 물건을 가져갔는지를 이해하기 위해 사람의 포즈 추정을 적용한다. HPE는 다른 컴퓨터 비전 기술과 결합하여 사용되며, 이는 카메라 센서, IoT 장치, 그리고 아마존이 그들의 상점에서 체크아웃 과정을 자동화할 수 있게 한다. 

인체 자세 추정은 제품과의 실제 접촉 부위가 카메라에 보이지 않는 과정을 담당한다. 여기서 HPE 모델은 고객의 손과 머리의 위치를 분석하여 제품을 선반에서 가져갔는지 아니면 제자리에 두었는지를 파악합니다.

Designed by JB FACTORY