Index


Figures


Tables

Ryu† , Oh†† , Jeong††† , Jung††† , Lee††† , Lopez†††† , and Kim†††††: Grasping a Target Object in Clutter with an Anthropomorphic Robot Hand via RGB-D Vision Intelligence, Target Path Planning and Deep Reinforcement Learning

Ga Hyeon Ryu† , Ji-Heon Oh†† , Jin Gyun Jeong††† , Hwanseok Jung††† , Jin Hyuk Lee††† , Patricio Rivera Lopez†††† and Tae-Seong Kim†††††

Grasping a Target Object in Clutter with an Anthropomorphic Robot Hand via RGB-D Vision Intelligence, Target Path Planning and Deep Reinforcement Learning

Abstract: Grasping a target object among clutter objects without collision requires machine intelligence. Machine intelligence includes environment recognition, target & obstacle recognition, collision-free path planning, and object grasping intelligence of robot hands. In this work, we implement such system in simulation and hardware to grasp a target object without collision. We use a RGB-D image sensor to recognize the environment and objects. Various path-finding algorithms been implemented and tested to find collision-free paths. Finally for an anthropomorphic robot hand, object grasping intelligence is learned through deep reinforcement learning. In our simulation environment, grasping a target out of five clutter objects, showed an average success rate of 78.8%and a collision rate of 34% without path planning. Whereas our system combined with path planning showed an average success rate of 94% and an average collision rate of 20%. In our hardware environment grasping a target out of three clutter objects showed an average success rate of 30% and a collision rate of 97% without path planning whereas our system combined with path planning showed an average success rate of 90% and an average collision rate of 23%. Our results show that grasping a target object in clutter is feasible with vision intelligence, path planning, and deep RL.

Keywords: Anthropomorphic Robot Hand , Reinforcement Learning , Path Planning , Object Detection

류가현† , 오지헌†† , 정진균†† , 정환석††† , 이진혁††† , Patricio Rivera Lopez†††† , 김태성†††††

RGB-D 환경인식 시각 지능, 목표 사물 경로 탐색 및 심층 강화학습에 기반한 사람형 로봇손의 목표 사물 파지

요 약: 다중 사물 환경에서 목표 사물만의 정밀한 파지를 위해서는 장애물과의 충돌 회피 지능과 정교한 파지 지능이 필요하다. 이 작업을 위해선 다중 사물 환경 인지, 목표 사물 인식, 경로 설정, 로봇손의 사물 파지 지능이 필요하다. 본 연구에서는 RGB-D 영상 센서를 이용하여 다중 사물 환경과 사물을 인지하고 3D 공간을 매핑한 후, 충돌 회피 경로 탐색 알고리즘을 활용하여 목표 사물까지의 경로를 탐색 및 설정하고, 강화학습을 통해 학습된 사람형 로봇손의 목표 사물 파지 지능을 활용해 최종적으로 시뮬레이션 및 하드웨어 사물 파지 시스템을 구현하고 검증하였다. 사람형 로봇손을 구현한 시뮬레이션 환경에서 5개의 사물 중 목표 사물을 지정하고 파지한 결과 경로 탐색 없는 파지 시스템이 평균 78.8%의 성공률과 34%의 충돌률을 보일 때, 경로 탐색 지능과 결합된 시스템은 평균 94%의 성공률과 평균 20%의 충돌률을 보였다. UR3와 QB-Soft Hand를 사용한 하드웨어 환경에서는 3개의 사물 중 목표 사물을 지정하고 파지한 결과 경로 탐색 없는 파지 시스템이 평균 30%의 성공률과 97%의 충돌률을 보일 때, 경로 탐색 지능과 결합된 시스템은 평균 90%의 성공률과 평균 23%의 충돌률을 보였다. 본 연구에서는 RGB-D 시각 지능, 충돌 회피 경로 탐색, 사물 파지 심층 강화학습 지능의 결합을 통하여, 사람형 로봇손의 목표 사물 파지가 가능함을 제시하였다.

키워드: 사람형 로봇손, 강화 학습, 경로 탐색, 물체 인식

1. 서 론

다중 사물 환경에서 로봇손이 정교한 작업을 수행하기 위해서는 작업 환경과 다중 사물 파악 후에 정확하게 지정된 목표 사물만을 충돌 없이 파지하는 지능이 필요하다. 이를 위해서는 다음과 같은 기술들이 필요하다.

첫째, 사람의 시각 지능과 유사한 기계 시각 지능이 필요하다. 시각 지능은 영상 센서로부터 환경을 인식하고, 목표 사물과 장애물을 구분하는 역할을 한다. 다중 사물 환경에서 사물의 위치, 크기 및 모양과 같은 정보를 얻기 위해 많은 RGB-D 이미지 센서 기반 시각 지능이 개발되고 있다. Katzet al.[1]에서는 컬러 이미지의 색상, 질감 불연속면과 깊이 이미지의 기하학적 불연속면을 상호 교차 검증하여 물체를 구분하는 알고리즘을 제안하였다. Ji et al.[2]에서는 깊이 이미지로부터 얻은 3D Point Cloud를 거리 기반으로 집합화하여 분할하는 방법을 사용하였다. 이외에 이미지 사물 검출 딥러닝 학습 알고리즘도 연구되고 있다. Redmon et al.[3]은 이미지 전체에 대해 한 번의 계산으로 사물의 경계 상자와 클래스 확률을 예측하는 딥러닝 알고리즘인 YOLO를 제안하였다. Ren et al.[4]은 CNN 네트워크에서 얻어진 특징 지도를 처리하는 Region Proposal Network를 통해 속도와 정확성을 높인 이미지 객체 검출 알고리즘 Faster R-CNN을 제안하였다. He et al.[5]에서는 Faster R-CNN 구조에 RoIAlign 레이어를 추가하여 경계 상자와 동시에 픽셀 단위의 마스크를 제공하는 알고리즘인 Mask R-CNN을 제안하였다. 이에 더해 Agnew et al.[6]과 같이 여러 물체 환경에서 물체의 유실된 부분을 복원하는 알고리즘 역시 개발되고 있다.

둘째, 다중 사물 환경에서 방해 사물과의 충돌을 회피하는 지능이 필요하다. 이를 위해서는 3차원 공간 및 다중 사물의 인식 결과를 이용하는 경로 탐색 지능이 필요하다. 로봇팔에 대한 경로 탐색 알고리즘 연구 역시 이어지고 있다. Sánchez et al.[7]은 무작위로 구성 공간을 샘플링하고 충돌 없는 지점을 이정표로 유지하며 확률론적 로드맵을 형성하는 그래프 기반 Probabilistic Roadmap(PRM) 방법을 제안하였다. Fu et al.[8]에서는 노드 기반 최단 경로 탐색 알고리즘인 A* 알고리즘을 산업용 로봇에 적용하였다.

마지막으로 로봇손의 사물 파지 지능이 필요하다. 사물의 정교한 파지를 위해서는 기존의 그리퍼나 석션 형태의 로봇손보다는 사람형 로봇손의 활용이 적합하나, 높은 자유도로 인해 고차원적인 사물 파지 지능이 필요하다. 최근엔 강화학습으로도 사람과 비슷한 고차원적인 파지 동작을 학습시키는 연구가 활발하게 진행되고 있다. 예로 박나현 외[9]는 사람형 로봇손의 심층 강화학습에 사람 데모 정보를 추가하여 물체 파지 학습 성능을 높였다. Valarezo et al.[10, 11]은 물체에 따른 손 포즈 추정 정보와 손의 물체 표면 접촉면 정보인 Haptic maps 등을 더해 고차원적인 사물을 사람과 비슷하게 잡을 수 있는 지능 학습 방법을 제안하였다.

이 세 가지 기술을 이용한 다중 사물 속 파지 시스템 연구도 진행되어 왔다. Saxena et al. [12]에서는 PRM 기반 경로 탐색과 학습된 이미지 기반 파지 지능을 이용한 그리퍼의 사물 파지 시스템을 제안하였다. Liu et al.[13]은 RRT-Connect 경로 탐색 알고리즘과 사람형 로봇손의 접촉 센서를 이용한 사물 파지 시스템을 제안하였다. Breyer et al.[14]의 경우 3D 장면 정보를 입력으로 로봇이 파지 가능한 위치를 직접 출력하는 VGN 네트워크를 제안한다. 하지만 이러한 기존의 파지 시스템 연구는 사람형 로봇손의 고차원적인 파지 지능과는 거리가 있다.

본 연구에서는 시뮬레이션 환경에서 딥러닝 사물 인식 알고리즘을 이용해 3D 공간 환경을 파악하고, 목표 사물까지의 경로 파악 알고리즘을 비교해 최적의 알고리즘을 찾은 후, 사람형 로봇손에 목표 사물 파지 강화학습 지능을 학습시켜 다중 사물 속 사람형 로봇손의 목표 사물 파지 시스템을 개발하고, 목표 사물의 파지 및 이동 실험을 통하여 제안하는 시스템의 성능을 평가하고 검증한다. 이후 이 시스템을 하드웨어 환경에 맞게 변형하여 실제 환경에 구현하고 검증한다.

2. 사람형 로봇손의 장애물 회피 사물 파지

2.1 장애물 회피 사물 파지: Simulation Setups

본 연구에서 제안하는 다중 사물 속 목표 사물 파지 시뮬레이션 시스템의 전체 구조도는 Fig. 1과 같다. RGB-D 영상으로부터 사물을 검출하고 사물의 종류를 인식한 후, 3D 사물 위치 및 공간 정보를 파악한다. 이 정보를 기반으로 로봇손의 최초 위치에서부터 목표 사물까지의 충돌 회피 경로를 탐색한다. 최종적으로 로봇손이 탐색 된 경로를 따라 파지 위치로 이동한 후 학습한 강화학습 사물 파지 지능으로 목표 사물을 파지한다.

Fig. 1.

Overview of the Proposed Collision-free Target Object Grasping System – Simulation Systems
1.png

1) 시뮬레이션 환경

시뮬레이션 연구는 MUJOCO[15] 가상 로봇 시뮬레이션 환경에서 인간형 로봇손과 사물을 구현하여 진행하였다. 구현한 인간형 ADROIT[16] 로봇손은 손목과 팔에 8 개의 자유도, 엄지와 새끼손가락에 각각 5 개의 자유도, 나머지 3 개 손가락에 각각 4 개의 자유도로 총 30 개의 자유도를 가지고 있다. 사물은 칼, 병, 카메라, 사과, 상자를 사용하였다.

2) 사물 검출 및 인식 기계 비전 지능

본 연구에서는 컬러 영상에 You Only Look Once(YOLO) 딥러닝 인식기[3]를 적용하여, 사물을 검출하고 종류를 인식하였다. YOLO 학습에는 구현된 사물인 칼, 병, 카메라, 사과, 상자를 대상으로 각 사물 당 310장의 학습 데이터를 만들어 사용하였다. 컬러 영상 사물 검출 정보를 활용하여, 깊이 영상으로부터 얻은 사물의 3D Point Cloud에 매핑하고 3D 사물 배치 및 공간을 파악하였다. 이후 각 사물은 3D 상자로 표현하여 충돌 회피 경로 탐색에 활용하였다.

3) 목표 사물 경로 탐색 알고리즘

목표 사물과 장애물들의 영역이 3D 상자로 구역화된 환경에서, 로봇손이 목표 사물까지 이동할 때 다른 사물과 충돌하지 않는 경로를 찾기 위해 3D 경로 탐색 알고리즘을 사용하였다. 로봇손의 최초 위치와 목표 사물의 파지 가능 위치 사이의 단일 경로를 찾는 것이므로 노드 기반 최적화 알고리즘이나 샘플링 기반 알고리즘을 사용하는 것이 적절하다[17]. 본 연구에서는 노드 기반의 2종, 샘플링 기반의 3종을 비교해 평가하여, 가장 적합한 알고리즘을 적용하였다.

a) 노드 기반 최적화 알고리즘

A* 알고리즘[18]은 대표적인 노드 기반 최적화 알고리즘이다. 이는 주어진 공간을 복셀 구조로 분리하여 각 복셀 칸마다 평가 함수 f(n)에 따라 점수를 부여하고, 이에 따라 시작점으로부터 끝점까지의 최적 경로를 찾는다. 시작점을 시작으로, 현재 노드에 가장 인접한 노드 중 가장 평가 함숫값이 낮은 노드가 다음 차례가 되고, 현재 차례 노드는 다음 차례 노드의 부모 노드가 된다. 만일 더 이상 평가 함숫값이 좋은 노드가 없다면, 지금껏 차례가 오지 않은 노드 중 가장 평가 함숫값이 낮은 노드가 다음 차례가 된다. 이 과정이 현재 노드가 끝점이 될 때까지 반복된다. 평가 함수는 다음과 같다.

(1)
[TeX:] $$f(n)=g(n)+h(n)$$

g(n)은 시작 노드로부터 현재 노드까지의 거리이고, h(n)은 현재 노드로부터 최종 노드까지의 예상 거리이다.

Bi-A* 알고리즘[19]은 시작점과 끝점으로부터 동시에 평가 함수를 계산하며 진행한다. 이는 기존 A* 알고리즘에 비해 상대적으로 빠르다.

b) 샘플링 기반 알고리즘

Rapidly Exploring Random Tree(RRT)는 공간을 격자 구조로 분리하지 않고 랜덤으로 샘플점을 생성하여 경로를 탐색하는 알고리즘이다[20]. 전체 공간에서 랜덤으로 하나의 샘플점을 고른 후, 기존의 경로와 가장 가까운 점에서 샘플점의 방향으로 단위 길이만큼 경로를 성장시킨다. 끝점에 도달할 때까지 이를 반복한다.

Extended-RRT(E-RRT)는 기본적으로 RRT와 같지만 랜덤으로 샘플점을 생성할 때 일정 확률로 끝점이나 이전에 경로가 자란 방향으로 생성한다[21]. 여기선 끝점으로 설정될 확률 10%, 이전에 경로가 자란 방향으로 설정될 확률 60%로 정했다.

RRT-Connect는 시작점과 끝점으로부터 동시에 경로를 성장시키는데, 하나의 샘플점을 생성했을 때 반대쪽 경로도 성장시키되 충돌이 일어나지 않는 한 최대 길이로 성장시킨다[22]. 이를 양쪽에서 두 경로가 만날 때까지 반복한다.

4) 사람형 로봇손의 사물 파지 심층 강화학습 지능

이 연구에선 사물의 정교한 파지를 위하여, 강화학습으로 사람형 로봇손에게 사물 파지 정책을 학습시켰다. Natural Policy Gradient(NPG)는 기존의 표준 경사 하강법에 기반을 둔 Policy Gradient 방법이 실제 최솟값으로 수렴하지 않는 문제를 Natural Gradient 기법을 접목하여 보완한 강화학습의 정책 최적화 방법이다[23]. 이는 가장 좋은 정책을 찾는 방향으로 학습이 진행될 수 있도록 한다. NPG만으로는 자유도가 높은 사람형 로봇손을 학습시키는 것이 어렵기 때문에, 실제 사람 데모를 추가하여 학습 성과를 높일 수 있다.

사람 데모는 기존의 NPG에 두 가지 방법으로 결합된다. 첫째로 본격적인 강화학습 이전에 행동 복제를 통해 정책을 초기화한다. 이는 파지 작업과 상관없는 공간을 탐색하는 시간과 샘플 복잡성을 줄인다. 식은 다음 Equation (2)과 같다.

(2)
[TeX:] $$\underset{\theta}{\operatorname{maximize}} \sum_{(s, a) \in \rho_D} \ln \pi_\theta(a \mid s) \text {. }$$

[TeX:] $$\rho_D$$는 사람 데모의 데이터셋으로 상태-행동 쌍과 보상, 다음 상태를 포함한다. 이렇게 초기화된 정책은 사람 데모에서 취한 동작을 모방하려고 시도하지만, 파지 작업과 같은 순차적인 정보를 손실 없이 전부 학습할 수 없다. 따라서 기울기에 Equation (3)과 같이 사람 데모 정보를 추가하여 NPG를 Demonstration Augmented(DA)-NPG[10]로 확장한다.

(3)
[TeX:] $$\begin{aligned} g_{a u g}= & \sum_{(s, a) \in \rho_\pi} \nabla_\theta \ln \pi_\theta(a \mid s) A^\pi(s, a)+ \\ & \sum_{(s, a) \in \rho_D} \nabla_\theta \ln \pi_\theta(a \mid s) w(s, a) . \end{aligned}$$

(4)
[TeX:] $$w(s, a)=\lambda_0 \lambda_1^k \max _{\left(s^{\prime}, a^{\prime}\right) \in \rho_\pi} A^\pi\left(s^{\prime}, a^{\prime}\right) \quad \forall(s, a) \in \rho_D,$$

[TeX:] $$\rho_\pi$$는 정책 로부터 얻어진 데이터셋이고, [TeX:] $$\rho_D$$는 사람 데모로부터 얻어진 데이터셋이다. w(s, a)는 데모에 대한 가중치 함수로, Equation (4)와 같다. [TeX:] $$\lambda_0$$는 1.0, [TeX:] $$\lambda_1$$는 0.95이고, k는 반복 횟수로 w(s,a)는 학습이 반복됨에 따라 감소하게 된다.

학습은 사과, 카메라, 칼, 병을 대상으로 진행하였다. 각 사물마다 사람 데모를 획득하여 DA-NPG를 적용하고, 사물마다의 파지 지능을 확보하였다.

2.2 장애물 회피 사물 파지: Hardware Setups

시뮬레이션 연구 내용을 하드웨어 시스템에 구현한다. Fig.2는 다중 사물 속 목표 사물 파지 하드웨어 시스템의 전체 구조이다. 먼저 RGB-D 영상으로부터 사물을 검출하고 종류를 인식한 후, 3D 사물 위치 및 공간 정보를 파악한다. 이 정보를 기반으로 경로 탐색을 통해 로봇손의 최초 위치로부터 목표 사물의 파지 위치까지의 충돌 회피 경로를 찾는다. 최종적으로 사람형 로봇손이 탐색된 경로를 따라 파지할 위치로 이동한 후 목표 사물을 파지한다.

Fig. 2.

Overview of the Proposed Collision-free Target Object Grasping System – Hardware Systems
2.png

1) 하드웨어 환경

하드웨어 환경에서는 시각 센서로 Intel RealSense Camera를 사용해 RGB-D 영상을 획득하였다. 사물 파지에는 UR3[24]와 QB-Soft Hand[25]를 결합한 사람형 로봇팔/손을 사용하였다. 로봇팔은 40x55cm의 공간에 배치된 사물들 중 지정한 목표 사물을 파지한다. 사물은 병, 축구공, 인형, 상자의 4개 사물을 사용하였다.

2) 사물 검출 및 인식 머신 비전 지능

하드웨어 환경의 경우 시뮬레이션 환경보다 공간이 좁고, 이미지만으로 사물과 환경에 대한 모든 정보를 얻어야 하기 때문에 사물이 겹쳐있는 경우 경계 상자만으로는 여러 사물들을 완전히 구분해내기 어렵다. RGB-D 이미지에서 사물들을 픽셀 단위로 분할하면 더 정확한 모양과 위치 정보를 추출할 수 있다. 따라서 촬영된 컬러 영상에 Mask R-CNN[5] Image Segmentation 모델을 적용해 사물을 검출하고, 종류를 인식하였다. Mask R-CNN 모델은 MS COCO Dataset을 이용해 미리 학습된 것을 사용하였다[26]. 이 컬러 영상 사물 검출 정보를 깊이 영상으로부터 얻어진 3D Point Cloud에 매핑해 3D 공간의 사물 배치를 파악하였다. 각 사물의 Point Cloud는 3D 상자로 표현되어 충돌 없는 경로 탐색에 이용하였다.

3) 경로 탐색 알고리즘

로봇손의 최초 위치로부터 목표 사물의 파지 위치까지의 경로 탐색에는 시뮬레이션에서 반복 실험을 통하여 도출한 최적 알고리즘인 RRT-Connect를 사용하였다.

4) 사람형 로봇손의 목표 사물 파지

사물의 Point Cloud의 평균값으로부터 중심값을 추출하고, 주성분 분석(Principal Component Analysis, PCA)을 통하여 사물의 주축 정보를 추출하였다. 파악된 목표 사물의 중심과 주축 방향은 사물 파지에 이용한다. 파지는 Softhand가 주축과 직각인 방향에서 중심 위치로 접근하면서 이루어지고, 이는 동시에 경로 탐색의 목표 지점이 된다. 만일 주축과 직각인 방향에서의 파지가 경로 탐색에 의해 불가능하다고 판단되면, 차선책으로 주축과 평행한 방향에서의 접근과 파지를 시도하였다.

3. 실험 결과

3.1 장애물 회피 사물 파지: Simulation

YOLO로 컬러 영상에서 사물을 검출하고 분할한 결과는 Fig. 3(a)와 같다. 병, 사과, 상자, 칼, 카메라의 5개 사물이 인식되었다. 사물 검출 정보를 이용해 깊이 영상의 3D Point Cloud를 Fig. 3(b)에서처럼 목표 사물과 장애물로 구별하였다. 목표 사물인 사과는 청색으로, 그 외의 장애물들인 칼, 병, 상자, 카메라는 적색으로 표현하였다.

Fig. 3.

(a) Result of Image Object Detection by YOLO (b) Recognize Target Object(Blue) and Obstacles(Red) in the 3D Point Cloud
3.png

방법론에 제시한 5개의 경로 알고리즘을 목표 사물과 장애물들을 랜덤으로 배치한 환경에서 100번 반복해 실행 시간과 경로 길이의 평균을 내었다. Table 1에 비교 결과를 도시하였다. 노드 기반 최적화 알고리즘 a*와 bi-a*는 최단거리에 가까운 짧은 거리를 반환하지만 실행시간이 샘플링 기반 알고리즘에 비해 오래 걸린다. 샘플링 기반 알고리즘은 공간을 복셀 구조로 나누지 않기 때문에 실질적으로도 더 적은 시간이 걸린다. RRT-Connect와 E-RRT는 다른 알고리즘과 비교하여 속도가 빠르고 비슷한 경향성을 보이지만, RRTConnect가 경로 길이와 실행 시간 양쪽에서 더 나은 결과를 보인다. 경로의 길이보다는 실행 시간에서 얻는 이득이 더 크므로 전체 파지 시스템에는 RRT-Connect를 사용한다.

Table 1.

Performance Comparison of Path Planning Algorithms
Path Length (m) Mean(STD) Time (sec) Mean(STD)
A* 0.53 (±0.12) 3.90 (±2.85)
Bi-A* 0.54 (±0.13) 1.86 (±1.51)
RRT 1.14 (±0.42) 2.84 (±6.08)
Extended_RRT 0.85 (±0.21) 0.06 (±0.07)
RRT-Connect 0.70 (±0.29) 0.02 (±0.02)

Fig. 4는 Fig. 3의 환경에서 각 사물의 Point Cloud가 차지하는 3D 상자 영역과 RRT-Connect를 통해 도출된 사물 파지 경로를 보여준다. 로봇손의 최초 위치인 시작점으로부터 목표 사물의 중심점으로부터 20cm 위에 있는 끝점까지 잇는 경로는 장애물과의 충돌이 없도록 도출되었다.

Fig. 4.

3D Box Area and Collision-free Path from RRT-Connect in Simulation
4.png

로봇손이 경로를 따라 이동한 후, DA-NPG로 학습된 강화 학습 파지 지능으로 목표 사물을 파지하였다. Fig. 5는 같은 환경에서 경로 탐색 없이 바로 파지 가능 위치로 이동해 파지 정책을 시행한 경우 Fig. 5(a)와, 탐색된 경로를 따라 이동한 이후 학습된 강화학습 파지를 시행한 경우 Fig. 5(b)를 보여준다. 경로 탐색이 없는 (b)의 경우 손과 상자가 충돌하여 상자가 넘어졌고, 넘어진 상자에 의해 손의 파지 동작도 방해받아 목표 사물인 사과를 안정적으로 파지하는 것에도 실패하였다.

Fig. 5.

Object Grasping in Clutter (a) Grasping Apple in Clutter Using DA-NPG Without Path Planning (Collision Occurred with Box) (b) Grasping Apple Using DA-NPG with Path Planning (No Collision Occurred)
5.png

공간에 여러 사물이 존재하는 환경에서 경로 탐색의 사용여부에 따른 파지 성공률을 비교하였다. Table 2는 파지 환경에 목표 사물이 단독으로 존재할 때, 목표 사물을 포함해 3개 존재할 때, 5개 존재할 때 각각에서 경로 탐색의 여부에 따른 목표 사물 파지 성공 횟수와 장애물 충돌 횟수를 보여준다. 성공 조건은 파지가 끝났을 때 목표 사물을 들고 있는지 여부이고, 장애물 충돌 조건은 사물 파지 이전에 손에 의해 사물이 2cm 이상 움직였는지 여부이다. 각 실험은 100번 시행되었다.

Table 2.

Target object grasping success rate in simulation(%) (number of occurrences of object collisions)
Target Object Apple only Apple + 2 Clutter Objects Apple + 4 clutter objects
Without Path Planning 98 87 (29) 77 (32)
With Path Planning 98 97 (13) 92 (20)
Bottle only Bottle + 2 objects Bottle + 4 objects
Without Path Planning 98 79 (30) 78 (37)
With Path Planning 99 94 (10) 92 (24)
Camera only Camera + 2 objects Camera + 4 objects
Without Path Planning 98 94 (19) 87 (28)
With Path Planning 97 95 (8) 94 (13)
Knife only Knife + 2 objects Knife + 2 objects
Without Path Planning 99 87 (32) 73 (39)
With Path Planning 100 99 (12) 98 (23)

환경에 장애물이 없는 경우 경로 탐색이 없는 경우와 있는 경우 모두 각각 평균 98.25%와 98.5%의 높은 성공률을 보여준다. 장애물이 2개일 경우 평균 86.75%에서 96.25%로, 4개일 경우 평균 78.75%에서 94%로 경로 탐색이 성공률을 높였다. 충돌률의 경우 장애물이 2개일 경우 평균 27.5%에서 10.75%로, 4개일 경우 평균 34%에서 20%로 감소하였다.

모든 사물에 대해 경로 탐색이 정확도를 상승시켰지만, 카메라의 경우 경로 탐색 없이도 평균 90.5%의 높은 성공률을 보였다. 사과와 병, 칼의 경우 경로 탐색이 성공률을 평균 12.5%, 14.5, 18.5% 증가시켰는데, 이는 카메라의 4.5%에 비해 상대적으로 큰 결과이다.

3.2 장애물 회피 사물 파지: Hardware

Fig. 6(a)의 컬러 영상에서 Mask R-CNN으로 사물을 검출하고 분할한 결과는 Fig. 6(b)와 같다. 병, 축구공, 인형, 상자의 4개 사물을 인식하였다. 사물 검출 정보를 이용해 깊이 영상의 3D Point Cloud를 Fig. 6(c)에서처럼 목표 사물과 장애물로 구분하였다. 목표 사물인 병은 청색으로, 그 외의 장애물들은 적색으로 표현하였다.

Fig. 6.

(a) Raw RGB Image in Hardware-Toy, Ball, Bottle, Box (b) Result of Image Object Detection by Mask R-CNN (c) Recognized Target Object (Blue) and Obstacles(Red) in the 3D Point Cloud
6.png

손의 최초 위치로부터 목표 사물의 파지 위치까지의 경로를 RRT-Connect를 이용해 탐색한 결과는 Fig. 7과 같다.

Fig. 7.

3D Box Area and Collision-free Path from RRT-Connect in Hardware
7.png

Fig. 8은 Fig. 6의 하드웨어 환경에서 경로 탐색 없이 바로 목표 파지 위치로 이동해 파지를 시행한 경우 (a)와, 탐색된 경로를 따라 이동한 이후 파지를 시행한 경우 (b)를 보여준다. 경로 탐색 없이 파지하는 경우 손과 충돌한 상자가 파지 공간을 벗어난다. 경로 탐색이 있는 경우 경로상의 장애물과 충돌 없이 목표 사물을 파지하는 것을 볼 수 있다.

Fig. 8.

Object Grasping in Clutter (a) Grasping toy in Clutter Without Path Planning (Note Collision with Box) (b) Grasping toy with Path Planning (No Collision)
8.png

Table 3은 파지 환경에 목표 사물이 단독으로 존재할 때, 목표 사물을 포함해 2개 존재할 때, 3개 존재할 때 각각에서 경로 탐색의 여부에 따른 목표 사물 파지 성공 횟수와 장애물 충돌 횟수를 보여준다. 각 실험은 10번 시행되었다. 성공 조건은 파지 이후 목표 사물을 시작 지점으로 이동시켰는지 여부이고, 장애물 충돌 조건은 사물 파지 이전에 손에 의해 사물이 2cm 이상 움직였는지 여부이다.

Table 3.

Target Object Grasping Success Count in Hardware (Number of Occurrences of Object Collisions)
Target Object Bottle only Bottle + 1 Clutter Objects Bottle + 2 clutter objects
Without Path Planning 10 7 (10) 4 (10)
With Path Planning 10 9 (0) 10 (2)
Ball only Ball + 1 Clutter objects Ball + 2 Clutter objects
Without Path Planning 10 4 (6) 2 (9)
With Path Planning 10 8 (2) 8 (3)
Toy only Toy + 1 Clutter objects Toy + 2 Clutter objects
Without Path Planning 10 6 (7) 3 (10)
With Path Planning 10 9 (0) 9 (2)

환경에 장애물이 없는 경우 경로 탐색 여부와 관계없이 평균 96.7%의 정확도를 보여준다. 장애물이 1개일 경우 평균 56.7%에서 86.7%로, 2개일 경우 평균 30%에서 90%로 경로 탐색이 성공률을 높였다. 충돌률의 경우 장애물이 1개일 경우 평균 76.7%에서 6.7%로, 2개일 경우 평균 96.7%에서 23.2%로 감소하였다. 장애물이 2개 이상 있을 때 경로 탐색 없이는 대부분 사물과 충돌하였음을 볼 수 있다.

축구공의 경우, 장애물이 2개일 때 경로 탐색 없이는 20%로 전체에서 가장 낮은 성공률을 보였다.

4. 고 찰

모든 환경에서 경로 탐색으로 로봇손의 이동 경로를 지정해 주는 경우가 그렇지 않은 경우와 비교해 성공률은 높고 충돌률은 낮았다. 제안한 시스템은 특히 경로에 높은 사물이 있을 때, 사물을 측면에서부터 잡아야 할 때 더 유용했다. 또한 경로 탐색을 시행한 경우 장애물과 충돌했음에도 파지에 성공한 비율이 높았다.

경로 탐색을 시행했음에도 파지에 실패하는 경우는 주로 경로 탐색 이후 사물을 파지하는 단계에서 다른 사물이 파지 작업을 방해하는 경우였다. 이는 단일 사물에 대한 파지 지능이 장애물을 고려하지 못하기 때문에 발생하는 문제이다. 따라서 제안한 시스템은 일반적인 상황에는 적용 가능하지만, 사물들이 크게 근접해있는 경우에는 목표 사물에 대해 더 다양한 방향에 대응하는 안정적인 파지 지능이 필요하다. 하지만 경로 탐색과 결합된 시스템에서는 공간 전체를 고려할 필요 없이 목표 사물의 근거리 환경만을 고려하면 되기 때문에, 제안 시스템은 파지 지능의 학습 복잡성을 줄이는 데 효과적일 것이다.

5. 결론 및 향후 방향

본 연구에서는 시뮬레이션 및 하드웨어 환경에서 딥러닝 사물 인식 알고리즘을 이용해 3D 공간 환경을 파악하고, 목표 사물까지의 경로 파악 알고리즘을 비교해 최적의 알고리즘을 찾은 후, 사람형 로봇손에 사물 파지 강화학습 지능을 학습시켜 다중 사물 속 사람형 로봇손의 목표 사물 파지 시스템을 고안하고 시험하였다. 단일 사물에 대한 파지 지능과 경로 탐색 지능을 결합하는 것으로 로봇과 사물의 충돌이 크게 줄어들었고, 모든 환경에서 파손 위험성을 줄이면서도 더 높은 성공률로 목표 사물을 파지할 수 있었다.

향후 연구는 사물들이 크게 근접해 있는 환경에 적용할 수 있도록 파지 지능과 시스템을 개선하는 방향으로 진행할 것이다.

Biography

류 가 현

https://orcid.org/0000-0002-4609-4394

e-mail : yugacandy@khu.ac.kr

2020년 경희대학교 생체의공학과(학사)

2022년 경희대학교 전자정보융합공학과(석사)

관심분야 : 인공지능, 로봇지능, 강화학습, 머신러닝

Biography

오 지 현

https://orcid.org/0000-0003-0488-116X

e-mail : dhwlgjs3@khu.ac.kr

2020년 경희대학교 생체의공학과(학사)

2022년 경희대학교 전자정보융합공학과(석사)

2022년 ~ 현 재 경희대학교 전자정보융합공학과 박사과정

관심분야 : 인공지능, 로봇지능, 강화학습, 머신러닝, 컴퓨터 비전

Biography

정 진 균

https://orcid.org/0000-0001-6757-6651

e-mail : wjdwlsrbs77@khu.ac.kr

2021년 경희대학교 생체의공학과(학사)

2022년 ~ 현 재 경희대학교 전자정보융합공학과 석사과정

관심분야 : Reinforcement Learning for Dual-Arm Robot, Computer Vision, Data Science

Biography

정 환 석

https://orcid.org/0000-0003-2694-2525

e-mail : ghkstjrdms13@gmail.com

2022년 경희대학교 생체의공학과(학사)

2022년 ~ 현 재 경희대학교 전자정보융합공학과 석사과정

관심분야 : 인공지능, 머신러닝

Biography

이 진 혁

https://orcid.org/0000-0002-9092-9280

e-mail : qlqjs3647@khu.ac.kr

2022년 경희대학교 생체의공학과(학사)

2022년 ~ 현 재 경희대학교 전자정보융합공학과 석사과정

관심분야 : 인공지능, 머신러닝

Biography

Patricio Rivera Lopez

https://orcid.org/0000-0001-6440-5478

e-mail : patoalejor@khu.ac.kr

2015년 Univ. of the Armed-Forces-ESPE, Electronics, Automation and Control Engineering(학사)

2022년 경희대학교 전자정보융합공학과(박사)

관심분야 : Signal & Depth image Processing, Reinforcement Learning, Autonomous Robotic Systems

Biography

김 태 성

https://orcid.org/0000-0001-7118-1708

e-mail : tskim@khu.ac.kr

1991년 Univ. of Southern California, Biomedical Engineering(학사)

1993년 Univ. of Southern California, Biomedical Engineering(석사)

1998년 Univ. of Southern California, Electrical Engineering(석사)

1999년 Univ. of Southern California, Biomedical Engineering(박사)

2013년 ~ 현 재 경희대학교 생체의공학과 및 전자정보융합공학과 교수

관심분야 : 기계학습, 패턴인식, 인공지능, 뇌공학

References

  • 1 D. Katz, M. Kazemi, J. A. Bagnell, and A. Stentz, "Clearing a pile of unknown objects using interactive perception," 2013 IEEE International Conference on Robotics and Automation, IEEE, pp.154-161, 2013.doi:[[[10.1109/icra.2013.6630570]]]
  • 2 S. Q. Ji, M. B. Huang, and H. P. Huang, "Robot intelligent grasp of unknown objects based on multi-sensor information," Sensors, Vol.19, No.7, pp.1595, 2019.doi:[[[10.3390/s19071595]]]
  • 3 J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, "You only look once: Unified, real-time object detection," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.779-788, 2016.doi:[[[10.1109/cvpr.2016.91]]]
  • 4 S. Ren, K. He, R. Girshick, and J. Sun, "Faster r-cnn: Towards real-time object detection with region proposal networks," Advances in Neural Information Processing Systems, Vol.28, pp.91-99, 2015.doi:[[[10.1109/tpami.2016.2577031]]]
  • 5 K. He, G. Gkioxari, P. Dollar, and R. Girshick, "Mask r-cnn," Proceedings of the IEEE International Conference on Computer Vision, pp.2961-2969, 2017.doi:[[[10.1109/tpami.2018.2844175]]]
  • 6 W. Agnew et al., "Amodal 3d reconstruction for robotic manipulation via stability and connectivity," Conference on Robot Learning, PMLR, pp.1498-1508, 2021.custom:[[[https://arxiv.org/abs/2009.13146]]]
  • 7 G. Sánchez and J. C. Latombe, "On delaying collision checking in PRM planning: Application to multi-robot coordination," The International Journal of Robotics Research, Vol.21, No.1, pp.5-26, 2002.doi:[[[10.1177/027836402320556458]]]
  • 8 B. Fu et al., "An improved A* algorithm for the industrial robot path planning with high success rate and short length," Robotics and Autonomous Systems, Vol.106, pp.26-37, 2018.doi:[[[10.1016/j.robot.2018.04.007]]]
  • 9 N. H. Park, J. H. Oh, G. H. Ryu, P. R. Lopez, E. V. Añazco, and T. S. Kim, "Evaluation of human demonstration augmented deep reinforcement learning policies via object manipulation with an anthropomorphic robot hand," KIPS Transactions on Software and Data Engineering, Vol.10, No.5, pp.179-186, 2021.doi:[[[10.3745/KTSDE.2021.10.5.179]]]
  • 10 E. V. Añazco et al., "Natural object manipulation using anthropomorphic robotic hand through deep reinforcement learning and deep grasping probability network," Applied Intelligence, Vol.51, No.2, pp.1041-1055, 2021.doi:[[[10.1007/s10489-020-01870-6]]]
  • 11 E. V. Añazco et al., "Human-like object grasping and relocation for an anthropomorphic robotic hand with natural hand pose priors in deep reinforcement learning," Proceedings of the 2019 2nd International Conference on Robot Systems and Applications, pp.46-50, 2019.doi:[[[10.1145/3378891.3378900]]]
  • 12 A. Saxena, L. Wong, M. Quigley, and A. Y. Ng, "A vision-based system for grasping novel objects in cluttered environments," Robotics Research, pp.337-348, 2010.doi:[[[10.1007/978-3-642-14743-2_28]]]
  • 13 Y. R. Liu, M. B. Huang, and H. P. Huang, "Automated grasp planning and path planning for a robot hand-arm system," 2019 IEEE/SICE International Symposium on System Integration. SII), IEEE, pp.92-97, 2019.doi:[[[10.1109/sii.2019.8700433]]]
  • 14 M. Breyer, J. J. Chung, L. Ott, R. Siegwart, and J. Nieto, "Volumetric grasping network: Real-time 6 dof grasp detection in clutter," arXiv preprint arXiv:2101.01132, 2021.custom:[[[https://arxiv.org/abs/2101.01132]]]
  • 15 E. Todorov, T. Erez, and Y. Tassa, "Mujoco: A physics engine for model-based control," 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vilamoua, pp.5026-5033, 2012.doi:[[[10.1109/iros.2012.6386109]]]
  • 16 V. Kumar, Z. Xu, and E. Todorov, "Fast, strong and compliant pneumatic actuation for dexterous tendon-driven hands," 2013 IEEE International Conference on Robotics and Automation, Karlsruhe, pp.1512-1519, 2013.doi:[[[10.1109/icra.2013.6630771]]]
  • 17 L. Yang, J. Qi, D. Song, J. Xiao, J. Han, and Y. Xia, "Survey of robot 3D path planning algorithms," Journal of Control Science and Engineering, 2016. 2016.doi:[[[10.1155/2016/7426913]]]
  • 18 P. E. Hart, Nilsson J. Nilsson, and B. Raphael, "A formal basis for the heuristic determination of minimum cost paths," IEEE transactions on Systems Science and Cybernetics, Vol.4, No.2, pp.100-107, 1968.doi:[[[10.1109/tssc.1968.300136]]]
  • 19 Dennis de Champeaux, "Bidirectional heuristic search again," Journal of the ACM (JACM), Vol.30, No.1, pp.22-32, 1983. https://doi.org/10.1145/322358.322360doi:[[[10.1145/322358.322360]]]
  • 20 S. M. LaValle, "Rapidly-exploring random trees: A new tool for path planning," pp.98-11, 1998.custom:[[[http://msl.cs.illinois.edu/~lavalle/papers/Lav98c.pdf]]]
  • 21 J. Bruce and M. M. Veloso, "Real-time randomized path planning for robot navigation," In: Robot Soccer World Cup., pp.288-295, 2002.doi:[[[10.1109/irds.2002.1041624]]]
  • 22 J. J. Kuffner and S. M. LaValle, "RRT-connect: An efficient approach to single-query path planning," Proceedings 2000 ICRA. Millennium Conference. IEEE International Conference on Robotics and Automation. Symposia Proceedings (Cat. No. 00CH37065), Vol.2, IEEE, pp.995-1001, 2000.doi:[[[10.1109/robot.2000.844730]]]
  • 23 S. M. Kakade, "A natural policy gradient," Advances in Neural Information Processing Systems, Vol.14, pp.1531-1538, 2001.custom:[[[https://proceedings.neurips.cc/paper/2001/file/4b86abe48d358ecf194c56c69108433e-Paper.pdf]]]
  • 24 UR3e Collaborate Robot Arm that Automates Almost Anything (Internet), https://www.universal-robots.com/products/ur3robot/custom:[[[https://www.universal-robots.com/products/ur3robot/]]]
  • 25 qb SoftHand Research - Anthropomorphic Robot Hand- Qbrobotics (Internet), https://qbrobotics.com/products/qbsofthand-research/custom:[[[https://qbrobotics.com/products/qbsofthand-research/]]]
  • 26 Mask R-CNN, (2021), GitHub Ropository (Internet), https://gith ub.com/matterport/Mask_RCNNcustom:[[[https://github.com/matterport/Mask_RCNN]]]

Statistics


Related Articles

이미지 이어붙이기를 이용한 인간-객체 상호작용 탐지 데이터 증강
S. Lee and K. Lee
모바일 디바이스 화면의 클릭 가능한 객체 탐지를 위한 싱글 샷 디텍터
M. Jo, H. Chun, S. Han, C. Jeong
영상 객체 검출을 이용한 드론과 지상로봇의 센서 융합 도킹 시스템
J. Beck, H. Park, S. Oh, J. Shin, S. Kim
학습 성능 향상을 위한 차원 축소 기법 기반 재난 시뮬레이션 강화학습 환경 구성 및 활용
S. Yeo, S. Lee, S. Oh
강화학습을 이용한 무인 자율주행 차량의 지역경로 생성 기법
M. J. Kim, K. C. Choi, B. H. Oh, J. H. Yang
TensorRT와 SSD를 이용한 실시간 얼굴 검출방법
H. Yoo, M. Park, S. Kim
단-단계 물체 탐지기 학습을 위한 고난도 예들의 온라인 마이닝
I. Kim
Stereo Vision과 AlphaPose를 이용한 다중 객체 거리 추정 방법에 관한 연구
J. Lee, H. Bae, G. Jang, J. Kim
C-COMA: 동적 다중 에이전트 환경을 위한 지속적인 강화 학습 모델
K. Jung and I. Kim
멀티모달 맥락정보 융합에 기초한 다중 물체 목표 시각적 탐색 이동
J. H. Choi and I. C. Kim

Cite this article

IEEE Style
G. H. Ryu, J. Oh, J. G. Jeong, H. Jung, J. H. Lee, P. R. Lopez, T. Kim, "Grasping a Target Object in Clutter with an Anthropomorphic Robot Hand via RGB-D Vision Intelligence, Target Path Planning and Deep Reinforcement Learning," KIPS Transactions on Software and Data Engineering, vol. 11, no. 9, pp. 363-370, 2022. DOI: https://doi.org/10.3745/KTSDE.2022.11.9.363.


ACM Style
Ga Hyeon Ryu, Ji-Heon Oh, Jin Gyun Jeong, Hwanseok Jung, Jin Hyuk Lee, Patricio Rivera Lopez, and Tae-Seong Kim. 2022. Grasping a Target Object in Clutter with an Anthropomorphic Robot Hand via RGB-D Vision Intelligence, Target Path Planning and Deep Reinforcement Learning. KIPS Transactions on Software and Data Engineering, 11, 9, (2022), 363-370. DOI: https://doi.org/10.3745/KTSDE.2022.11.9.363.