IndexFiguresTables |
Jin-Ho Chung† and Dongsik Jo††Automatic Adaptation Based Metaverse Virtual Human InteractionAbstract: Recently, virtual human has been widely used in various fields such as education, training, information guide. In addition, it is expected to be applied to services that interact with remote users in metaverse. In this paper, we propose a novel method to make a virtual human‘ interaction to perceive the user's surroundings. We use the editing authoring tool to apply user’s interaction for providing the virtual human’s response. The virtual human can recognize users' situations based on fuzzy, present optimal response to users. With our interaction method by context awareness to address our paper, the virtual human can provide interaction suitable for the surrounding environment based on automatic adaptation. Keywords: Virtual Human , Metaverse , Authoring , Multimodal , Interaction 정진호† , 조동식††자동 적응 기반 메타버스 가상 휴먼 상호작용 기법요 약: 최근 가상 휴먼은 국방, 의료, 산업, 유통, 문화, 엔터테인먼트 등 다양한 서비스 분야에서 교육, 훈련 정보 가이드, 홍보 전시 등 널리 활용되고 있다. 또한, 가상 휴먼을 통해 원격지에 접속한 사용자와 상호작용하기 위한 메타버스 서비스가 급속히 확대 적용될 것으로 전망하고 있다. 메타버스 환경 안에서 가상 휴먼(혹은 아바타)을 이용한 상호작용은 참여자가 현실 세계의 실제 친구와 대화하는 것처럼 자연스럽게 소통하는 방식으로 운용이 되고, 이를 위해서는 사용자의 음성, 동작, 감정 등 다양한 입력을 기반으로 반응하는 가상 휴먼 상호작용 매핑 관계를 제작하여야 한다. 또한, 현실 세계의 변화에 동작하는 가상 휴먼의 경우 현실의 환경에 기반한 상호작용 동작이 되도록 지원하여야 한다. 하지만, 기존 가상 휴먼 상호작용 방법은 미리 정해진 반응형 패턴을 제작하기 위해 수작업으로 동작 결과를 프로그래밍하여 구현되었다. 이러한 방법은 개발 기간이 상대적 으로 많이 소요되고, 상호작용 수정이 쉽게 변경하지 못하는 단점이 있다. 또한, 실제 주변 환경의 영향에 의해 반응적으로 동작하는 상호작용을 지원하기가 어렵다고 할 수 있다. 본 논문에서는 가상 휴먼의 직관적인 상호작용을 위해 음성, 동작, 감정 등 사용자의 멀티모달 입력과 주변 환경에 대한 반응하는 가상 휴먼 제작 방법을 제시한다. 이를 위한 가상 휴먼 상호작용 저작도구를 통해 쉽고 빠르게 사용자와 반응하는 가상 휴먼의 표현을 생성하고, 가상 휴먼이 자동 적응 기반으로 사용자 입력 및 주변 환경에 변화에 동작할 수 있도록 하였다. 키워드: 가상 휴먼, 메타버스, 저작도구, 멀티모달, 상호작용 1. 서 론최근 언택트 디지털 기술의 발달에 따라 가상 휴먼 기반 기술 적용이 널리 확대가 되고 있다[1,2]. 특히, 포스트코로나 시대의 비대면 비지니스 미팅 혹은 메타버스 형태의 실감형 SNS 서비스가 확산이 되고 있다. 이는 원격지 간 다자 참여 커뮤니케이션 수단으로 가상 휴먼 기반의 Teleported avatar를 표현하여 가상의 공간에 함께 있는 느낌을 제공하고, 실감 상호작용을 극대화하는 것이라 할 수 있다[3-5]. 이러한 시나리오로 사용될 수 있는 가상 휴먼은 사용자와 상호작용을 위해 사용자의 멀티모달 입력(음성, 동작, 감정 등)을 기반으로 반응형 동작을 표현해야 할 필요가 있다[6,7]. 하지만, 가상 휴먼의 반응을 제작하기 위해서는 수작업의 프로그래밍 방법(모션캡쳐와 정해진 애니메이션 동작 표현)을 통해 제작을 해야 하는 어려움이 있으므로 쉽고 빠르게 이를 구현할 수 있는 방법이 필요한 상황이다[8,9]. 또한, 사용자 주변 상황과 환경 정보를 바탕으로 가상 휴먼 표현(가시화 및 상호작용 행동 표현)을 사용자 및 환경의 상황에 맞게 상호작용 결과를 자동 적응(automatic adaptation)하는 방법이 필요한 사항이다. 기존의 가상 휴먼을 반응형 동작을 제작하는 방법의 경우 사용자의 입력에 따른 가상 휴먼의 동작의 출력을 매뉴얼하게 설정하는 방법으로 진행이 되었으나 최근 인공지능(AI) 등 기술의 발전으로 이를 자동화하는 방법으로 진보가 되고 있다[10-13]. 또한, 가상 휴먼 행동을 자동 적응하기 위해 다양한 환경(가상 휴먼이 디스플레이 되는 위치, 사용자의 위치 및 원격지 간 서로 다른 환경에 대한 인식을 통한 가상 휴먼 표현, 다수의 가상 휴먼 제공 방법 등)에 따른 사용자 및 환경에 일치하는 동공의 움직임, 시선, 상반신 제스쳐, 전신 동작 등 적응적으로 표현해야 한다. 예를 들면, 사용자가 설정한 디스플레이의 형태, 위치를 기반으로 가상 휴먼이 동적으로 행동 변형할 수 있는 자동 적응 방법이 필요하다. 본 논문에서는 사용자의 음성, 동작, 감정 등 멀티모달 입력 상황을 인식하여 가상 휴먼의 반응형 동작을 편집하기 위한 저작도구를 제시한다. 이를 위해 사용자의 입력을 기반으로 가상 휴먼의 반응형 동작(가상 휴먼의 음성, 동작, 감정 표현 등)도 정의가 가능한 툴킷을 제작하였다. 또한, 본 논문에서는 퍼지 이론 방식을 통해 사용자-가상 휴먼, 주변상황에 따른 자동화된 반응형 가상휴먼 상호작용이 지원되도록 구현이 되었고, 애니메이션 결과는 사용자 및 주변 환경에 따라 적응형으로 동작하도록 하였다. Fig. 1은 본 논문의 구현에 따라 사용자 박수 동작에 반응하는 가상 휴먼의 동작표현 결과 예시이다. 2. 기존 연구 분석본 논문에서 제시하고자 하는 적응형 가상 휴먼 상호작용에 대해 사용자와 주변 환경에 적용되는 몇 가지 연구 사례 및 연구 결과를 살펴보겠다. 가장 대표적인 연구 결과 중 하나인 USC ICT센터의 virtual human toolkit의 연구에서는 가상 휴먼의 상호작용 행동을 결정하기 위해 편집 툴을 기반으로 동작하는 방법을 제시하였다. 하지만, 주로 음성에 기반한 반응형 캐릭터 동작에 대한 방법만 제시하여 사용자의 동작, 감성에 대한 반응, 주변 환경에 대한 적응형 동작을 생성하기에는 적용하기에는 한계를 가지고 있다[14]. 또 다른 대표 연구인 Benjamin Lok 연구는 다수의 가상 휴먼들을 이용한 의료 훈련 시나리오에 적용 사례이다. 이 연구는 정해진 시나리오에 의존하여 가상 휴먼이 동작하는 wizard-of-oz 방법을 적용하였고, 사용자와 주변 상황에서 따른 가상 휴먼이 상호작용하기에는 어려움이 있다[15]. 또한, Ho et al. 의 연구에서는 두 명의 캐릭터 간 혹은 캐릭터와 상호작용하는 물체 간 행동에 영향을 주는 공간적인 상관관계를 정의하고, 이에 따라 자동으로 동작을 표현할 수 있는 수학적 모델을 제시하였지만 실시간 적용에는 한계를 가지고 있다[16]. 유사 연구 결과인 Al-Asqhar et al.의 연구에서는 실시간으로 변형되는 객체의 정보에 반응하여 캐릭터의 모션을 결정하는 관절의 위치 정보를 계산하고, 이를 이용하여 가상 휴먼 행동을 표현하는 기술을 소개한 바 있지만 사용자와 상호작용하는 기술 적용에는 어려움을 가지고 있다[17]. 즉, 기존의 연구들에 따르면 가상 휴먼의 동작 편집 혹은 애니메이션 동작 오류를 최소화하기 위한 방법에 집중을 하였고, 사용자 혹은 주변 환경에 맞게 가상 휴먼 상호작용을 최적화하는 것에는 한계가 있다고 할 수 있다. 따라서, 본 논문에서는 사용자의 상호작용 행동 및 실제 주변 환경의 영향에 의해 반응적으로 동작하는 가상 휴먼의 직관적인 상호작용을 위한 반응형 가상 휴먼 제작 및 자동 적응형 동작 생성 방법을 제시한다. 3. 가상 휴먼 상호작용저작 툴킷본 논문에서는 제시한 자동 적응형 가상 휴먼 상호작용을 동작하기 위해서는 먼저 가상 휴먼 상호작용 저작 툴킷에 의해 사용자의 음성, 동작, 감정에 따른 가상 휴먼 동작 매핑 관계를 편집한 후 사용자의 상호작용 입력 및 주변 환경에 반응하는 적응형 상호작용 결과 제시 2단계로 이루어진다. 첫 번째 단계는 가상 휴먼의 동작에 대한 후보를 매핑 관계를 정의를 목적으로 하고, 두 번째 단계는 실시간으로 사용자와 상호작용하는 상황에서 가상 휴먼이 동작을 설정하는 방법을 제공하기 위한 것이다. 이에 3장에서는 가상 휴먼 상호작용 저작 툴킷의 구현 및 매핑 관계에 대해 설명하고, 4장에서는 자동 적응 기반 반응형 가상 휴먼 상호작용 기법에 대한 구체적인 내용을 제시하겠다. Fig. 2는 본 논문에서 구현한 가상 휴먼 상호작용 저작 툴킷이다. 가상 휴먼 상호작용의 매핑 관계를 설정하기 위해 사용자 상호작용 입력과 주변 환경의 상황을 바탕으로 가상휴먼 애니메이션 동작(음성, 모션 등 동작)을 매핑하였다. 먼저, 사용자는 가상 휴먼을 운용하는 백그라운드 환경 구성 및 가상의 캐릭터를 정의하고, 사용자-가상 휴먼 간 상호작용 입출력 정의를 수행한다. 가상 휴먼의 상호작용 출력은 감정, 제스쳐, 음성으로 구성하였고, 각각의 데이터는 추가할 수 있도록 구성하였다. 즉, 사용자가 UI를 통해 구성된 툴킷에서 가상 휴먼을 선택하고, 감정, 제스쳐, 음성 등 편집이 가능하여 추후 반응형 가상 휴먼 동작을 표현하는 후보를 정하도록 하였다. 사용자가 가상 휴먼의 사용자 및 주변 상황의 입력과 가상 휴먼 상호작용 출력에 대한 매핑 관계는 실제 사람들 간의 커뮤니케이션을 수행하는 특성을 반영하기 위해 10인의 대상으로 동작 매핑 출력 후보를 설정하도록 하였다. 가상 휴먼에 대한 모션 DB는 Adobe Mixamo 애니메이션 DB(총852개 동작)를 분류하여 동작을 선정하였고, 사용자 및 주변 환경에 대한 입력은 감정을 기반으로 놀람, 행복, 화남, 슬픔, 중립으로 분류하여 각각 대표되는 음성 및 동작(제스쳐) 매핑하여 사용하였다. 또한, 사용자에게 반응하는 가상 휴먼의 표정, 행동, 대사로 동작 출력 애니메이션을 적용하였다. 표정은 감정, 행동은 제스쳐, 대사는 음성 출력으로 매핑되도록 각각구축된 데이터를 기반으로 초기 설정되도록 하였다. Fig. 3 구성된 가상 휴먼 상호작용 저작 툴킷이다. 사용자의 입력 편의성 및 즉각적인 결과 확인을 위해 선택한 입력과 출력에 따른 가상 휴먼 모션이 가시화되도록 기능을 추가하였다. 4. 자동 적응기반 반응형 가상 휴먼 상호작용사용자 상호작용을 지원하는 가상 휴먼 동작 표현 기술은 사용자의 입력 및 실제 환경 구성 변화에 반응하는 플랫폼 형태로 발전 중이고, 이에 사용자의 음성, 사용자 주변 환경의 변화에 동적으로 반응하는 지능형 디지털 가상 휴먼(아바타) 상호작용 기술로 발전하고 있다[2]. 이를 통해 메타버스와 같은 비대면 환경에서 범용적으로 서비스가 확대하기 위해 참여자-가상 휴먼 간 상호작용을 위한 입출력 저작 및 반응형 상호작용 매핑에 대해 쉽고 빠르게 제작하고, 매핑 관계를 표현하는 것이 필요하다[6]. Table 1은 사용자와 주변환경 입력에 적응하는 가상 휴먼 동작 결과에 대한 알고리즘이다. 사용자 상호작용(음성, 동작, 제스쳐 등) 및 사용자 주변 환경의 상황(사운드 입력 등)을 바탕으로 가상의 휴먼은 음성, 제스쳐, 감정 표현을 결과로 나타낸다. 먼저, 사운드는 가상 휴먼이 어떤 말을 할지에 대한 판단하기 위해 사용자 음성(혹은 주변 환경의 사운드)을 기반으로 strings으로 변환을 수행한 뒤 음소분석을 통한 선별 과정으로 수행하였다. 가상 휴먼의 립싱크 모션은 Oculus 15개Viseme를 통해 얼굴에 대한 캐릭터 모션으로 표현 하였다. 사용자의 제스쳐는 행복, 슬픔, 지루함, 화남, 놀람 동작을 인식하여 박수, 춤, 축 처진 어깨 등과 같은 가상 휴먼 동작으로 예측되도록 구성하였다. 그리고, 감정에 대한 인식은 Paul Ekman의 micro expressions을 기준으로 감정을 분리하여 OpenCV를 기반으로 한 얼굴의 특징점 분석을 통한 감정 인식을 적용하였다[18]. 본 논문에서는 사용자 음성, 동작, 감정을 센싱하여 파라이터화하고, 미리 정해진 기준에 따라 부정, 중립, 긍정에 대한 소속 수치를 가지는 퍼지 이론 기반의 상호작용 결과를 매핑하도록 하였다. 이를 위한 추론 방법은 무게중심법을 통해 규칙 및 결과를 본 저작 도구에서 계산하여 동작할 수 있도록 제작하였다. 즉, 가중치와 반응 집합을 구성하여 가상 휴먼 상호작용 결과를 어떻게 도출할 것인지를 탐색하는 방법으로 하였다. 마지막으로 적응형 가상 휴먼 동작을 표현하기 위해서 사용자의 위치, 주변 환경의 소리의 위치 등을 인식하여 가상 휴먼의 시선(gaze), 안구(eyeball)를 자동 변형하는 방식으로 구동하였다. 최종적인 가상 휴먼의 상호작용 동작은 3장에서 제시된 저작도구로 매핑된 후보를 가지고 선정되도록 하였다. Fig. 4는 사용자와 가상 휴먼과 상호작용을 수행하기 위한 프로세스와 시스템 전체 구성도이다. 가상 휴먼 상호작용 시스템을 구성하기 위해 음성, 제스쳐, 표정 등 인식이 필요하다. 음성을 인식하기 위한 마이크로폰, 사용자의 제스쳐를 인식하기 위한 depth camera, 감성을 인식하기 위한 부가적으로 카메라를 설치하여 센싱을 수행하였다. 특히, Depth camera는 사람의 스케레톤 위치를인식하여 사용자 제스쳐 동작에 활용하였다. 또한, 몰입도를 극대화하기 위해 가상 휴먼을 실제 사람의 크기로 보이게 하기 위한 대형 디스플레이 공간(80인치 세로로 설치)에 가시화하였다. 초기 파일럿 테스트를 통해 사용자의 동작 패턴과 위치에 따라 가상 휴먼이 반응했을 때 상호작용 효과가 극대화된다는 것을 판단하여 사용자의 위치 기반으로 가상 휴먼의 gaze, eyeball이 자동으로 일치되도록 하였고, 사용자의 동작 기반으로 가상 휴먼의 동작이 표현되도록 구성하였다. 5장에서는 구성된 가상 휴먼을 통한 상호작용 측정 방법과 결과를 통해 본 논문에 대한 성능을 제시한다. 5. 가상 휴먼 상호작용 결과 측정본 연구에서는 피실험자들을 대상으로 같이 공간에 존재하는 느낌(co-presence), 감정적인 반응(emotional response)를 측정하기 위해 가상 휴먼이 사용자와 상호작용하는 상황을 표현하기 위한 애니메이션을 구성하였다. 가상 휴먼 동작과 관련하여 안구의 움직임, 시선의 움직임, 전신 움직임(예. idle 모션), 입 모양(lip sync) 등이 가능하도록 하였다. 즉, 안구의 움직임은 상하좌우와 안구의 움직임의 크기가 조절이 되도록 구성하였고, 가상 휴먼의 시선의 움직임은 사용자(혹은 피실험자)의 위치에 따라 가상 휴먼의 시선이 따라가도록 좌우 움직임, 시선 움직임의 크기가 조절이 되도록 하였다. 가상 휴먼의 전신 움직임은 상호작용을 위해 주어진 문장을 가상 휴먼이 말하도록 하였고, 이에 따른 각각의 움직임과 idle 모션을 포함하였다. 또한, 가상 휴먼이 피실험자에게 말할 때 입 모양을 이에 맞추어서 말하도록 lip sync 얼굴 움직임에 대한 구현을 수행하였다. 사용자의 위치와 주변 환경에 소리에 반응하는 자동 적응형 가상 휴먼 모션의 정확도를 gaze, eyeball에 대한 angular mean error를 측정하였고, 그 결과는 Fig. 5와 같다. 그림에서 나타난 바와 같이 가상 휴먼이 디스플레이되는 영역을 기준으로 각도가 멀수록 정확도가 떨어지는 것을 알 수 있었고, eyeball의 경우에는 보다 불명확한 것으로 나타났다. 이는 depth camera 센서의 정확도에 의존을 한 것으로 추후 하이브리드 트래킹 방식 등 사용자 위치에 대한 정확도를 높이기 위한 방법이 필요하다고 판단되었다. 추가적으로 본 연구에서는 다양하게 동작하는 가상 휴먼의 표현을 가지고, 피실험자들을 대상으로 구성된 가상 휴먼에 대한 co-presence, emotional response를 정성적으로 측정하였다. Co-presence는 공간에 아바타가 나와 같이 있는 느낌을 측정하는 것으로, 가상 휴먼의 physicality 차이를 변수로 설정하여 피실험자-가상 휴먼 간 상호작용 할 수 있도록 시나리오를 구성한 뒤 피실험자의 결과를 7-likert scale로 report하는 방식으로 수행하였다. 또한, emotional response는 피실험자가 가상 휴먼의 형태를 가지고, 감정적인 변화에 대한 차이를 측정하는 것으로 역시 가상 휴먼의 다양한 동작을 설정하여 task를 수행한 뒤 측정하도록 하였다. 여기에서 피실험자-가상 휴먼 간 상호작용은 피실험자가 실험을 위해 가상 휴먼 앞에 서 있을 경우 30초 가량 정도 가상 휴먼과 상호작용을 주고 받을 수 있도록 구성하였다. 측정한 데이터에 대한 명확히 제공 본 논문의 실험 결과에 따라 나와 같이 있다는 느낌을 제공하는 co-presence의 경우는 대부분의 피실험자(10명 중에 7명)가 5점(7점 만점) 이상을 점수를 주었다. 실험을 마친 피실험자의 추가 설문을 통해 co-presence의 경우에는 가상 휴먼이 가시화된 디스플레이의 크기에 따라 높은 점수를 부여하였지만 가상 휴먼의 다양한 동작 표현 개수에 대한 애니메이션 결과의 부족을 문제로 지적하였다. 반면 emotional response는 가상 휴먼의 얼굴 표정 변화 다양성 제공에 따라 대다수의 피실험자(10명 중에 9명)가 5점(7점만점) 이상의 부여한 것으로 결과가 나왔다. 즉, 실제 사람과의 상호작용과 같이 다양한 표현을 가상 휴먼이 제시한다면 보다 가상 휴먼과 함께 상호작용하는 만족도가 높을 것으로 전망할 수 있겠다. 6. 결 론최근, 가상 휴먼 기술은 비대면 화상회의 시스템, 국방분야의 훈련, 산업분야의 고장 수리 가이드, 의료 분야의 팀 트레이닝, 교육 분야의 설명 가이드, 쇼핑 분야의 구매 요구 제공 등 다양한 분야에 널리 활용될 전망이다. 또한, 가상 휴먼은 메타버스 환경에서 원격지 간 사용자와 상호작용할 수 있는 다양한 서비스에 확대하여 적용될 전망이다. 추가적으로, 가상 휴먼은 인공지능 가이드를 제공하는 것과 같이 실 생활에서 질문에 대한 답을 수행할 수 있는 서비스에 적용 효과가 높다고 할 수 있다. 이러한 가상 휴먼은 사용자 및 실제 환경 구성 변화에 반응하는 아바타 플랫폼 형태로 발전 중이고, 이에 사용자의 음성, 사용자 주변 환경의 변화에 동적으로 반응하는 지능형 디지털 가상 휴먼(아바타) 상호작용 기술 출현하고 있다. 본 논문에서는 가상 휴먼 상호작용에 대한 저작 및 주변 환경 적응형으로 자동 동작하는 방법을 제시하였다. 본 논문에 따르면 사용자-가상 휴먼 간 상호작용을 위한 입출력 저작 및 반응형 상호작용 매핑에 대해 쉽고 빠르게 제작하는 것이 가능할 것이다. 추후 연구로는 딥러닝과 같은 인공지능 알고리즘을 통해 실 생활에서의 사람과의 상호작용의 결과를 방대한 데이터로 구성하여 매핑하도록 할 계획이다. 이러한 방법은 인간과 컴퓨터 상호작용 분야에서 가상 휴먼과 실재감을 제공하기 위한 방법으로 고정밀의 상호작용 결과 제시가 가능할 것으로 본다. 또한, 음성으로만 서비스되고 있는 인공지능 비서가 가상 휴먼을 통해서 상호작용하는 미래 시나리오에 적용할 수 있을 것으로 본다. BiographyBiographyReferences
|
StatisticsHighlights트윗 텍스트 마이닝 기법을 이용한 구제역의 감성분석H. Chae, J. Lee, Y. Choi, D. Park, Y. Chung오픈 소스 라이선스 양립성 위반 식별 기법 연구D. Lee and Y. Seo향상된 음향 신호 기반의 음향 이벤트 분류Y. Cho, J. Lee, D. Park, Y. Chung3차원 가상 실내 환경을 위한 심층 신경망 기반의 장면 그래프 생성D. Shin and I. Kim생성적 적대 네트워크로 자동 생성한 감성 텍스트의 성능 평가C. Park, Y. Choi, K. J. Lee암 예후를 효과적으로 예측하기 위한 Node2Vec 기반의 유전자 발현량 이미지 표현기법J. Choi and S. Park단일 영상에서 눈송이 제거를 위한 지각적 GANW. Wan and H. J. Lee궤적 데이터 스트림에서 동반 그룹 탐색 기법S. Kang and K. Y. Lee하둡을 이용한 3D 프린터용 대용량 데이터 처리 응용 개발K. E. Lee and S. Kim국민청원 주제 분석 및 딥러닝 기반 답변 가능 청원 예측W. Y. Hui and H. H. KimCite this articleIEEE StyleJ. Chung and D. Jo, "Automatic Adaptation Based Metaverse Virtual Human Interaction," KIPS Transactions on Software and Data Engineering, vol. 11, no. 2, pp. 101-106, 2022. DOI: https://doi.org/10.3745/KTSDE.2022.11.2.101.
ACM Style Jin-Ho Chung and Dongsik Jo. 2022. Automatic Adaptation Based Metaverse Virtual Human Interaction. KIPS Transactions on Software and Data Engineering, 11, 2, (2022), 101-106. DOI: https://doi.org/10.3745/KTSDE.2022.11.2.101.
|