과학

2차원의 그림을 3차원 입체로 자동변환하는 연구 진행중

o2zone 2017. 8. 25. 07:56

"이차원적인 이미지에서 입체를 예측한다"라고 하는 능력을 AI에 익히게 하면 좋을까? 라고 한것으로, 캘리포니아 버클리 대학의 박사 연구원 인 Christian Hane 씨가 자신의 방법을 이용한 연구를 실시하고 있다.


인간이 한장의 그림이나 사진으로부터 입체로 객체의 모양을 추측 할 수 있는 것은, 두 눈으로 "깊이"를 인식 할 수 있기 때문이다. 또한 인간은 사진상의 객체를 보았을 때 실제로는 사진에 찍혀있지 앟은 부분을 추리 할 수 있다.



위와 같은 능력은 개체의 모양을 파악하는데 매우 중요하지만, AI에게 같은 일을 수행하게 하는 것은 쉬운 일이 아니다.


이미지나 사진이라고 하는 한정된 정보 입력으로 입체를 재구성하는데 사용되는 기본 원칙은 "물건의 모양은 임의적인 것이 아니다"라는 것이다. 비행기라면 몸통이 있고, 측면에 2개의 날개가 있고, 후방에는 스태빌라이저가 반드시 붙어있다.




인간은 세계에 넘치고 있는 것을 두 눈으로 관찰하고, 자신의 손으로 만지는 등 인터렉티브 한 방식으로 이 사실을 알 수 있다. 한편, 컴퓨터가 이러한 원칙을 학습하려면 대량의 데이터가 필요하다.



그러므로 3D 재구성을 이행하려는 연구에서 최근 취해지고 있는 것은 "회선 신경망(CNN)"이라하는 신경망 1종에, 복셀의 점유량에서 객체의 형태를 예측시키는 방법. 이 방법은 3D 오브젝트를 세분화하여, 복셀화라고 하는 입방체 중, 어디가 비어있는지 어디가 입체에 의해 점유되어 있는지, 물체의 내부와 외부는 각각 어딘지를 판단되어진다.


데이터의 입력은 객체의 색상 이미지가 사용되고, CNN이 복셀의 사용량을 예측할 수 있게함과 동시에 CAD 모델 데이터 세트를 사용하여 네트워크를 관리 교육했다. 그 결과, CNN은 다양한 개체 클래스 모델을 학습한 것.



그러나 이 방법을 사용하면, 해상도를 올렸을 때 정상적이라면 매끄럽고 2면이어야 할 표면 부분이 울퉁불퉁하게 되어 버리는 문제가 있었다. 그래서 연구자들은 낮은 해상도의 입체를 고해상도로 할 때 물체의 표면을 이차원의 성질이 있는 여부를 계층적으로 예측 시키는 방법을 취한 것.


구체적인 방법은 다음과 같다. 먼저 입력 된 컬러 이미지를 저장, 인코더를 사용하여 낮은 양의 3D 표현으로 인코딩한다. 그리고 이것을 3D 점유량으로 디코딩. Hane 씨 등의 연구에서 특징적인 hierarchical surface prediction(계층적 표면 예측/HSP)도 이 디코딩 작업시에 이루어진다. 보통이면 복셀에서 이 비어 있거나 점유되고 있는지를 예측하는 방법을 가지고 있지만, Hane 교수는 "공백", "점유 공간" 이외에 "경계"의 세 가지 분류를 사용하기 위해 낮은 해상도의 입체에서 이차원적인 얼굴을 가진 고해상도의 입체를 예측하는 것이 가능하다.



또한 입체 예측을 할 때 기준으로 low resolution hard (LR hard)와 low resolution soft(LR soft)라는 두 가지 방법을 취하고, HSP를 실시한 결과와 비교 한 결과, 동일한 이미지를 입체화시켜도 입체 예측에 상당한 차이가 있는 것으로 발표되고 있다. 다음 이미지가 비교 그림으로, 왼쪽부터 입력 이미지, HSP, LR Soft, LR Hard로 되어있다.





의자나 자동차의 이미지로 입체 예측하면 이런 느낌. HSP는 특히 "표면의 매끄러운 입체"의 표현을 전문으로 하고있다는 것을 알 수 있다.