정보통신기술

높은 번역 수준을 자랑하는 Google의 "Transformer", RNN와 CNN을 능가

o2zone 2017. 9. 1. 17:26

신경망 중에서도 리 커런트 신경망(RNN)은, 언어 모델링 및 기계 번역, 질의 응답 등 언어 이해 작업에 대한 주요 접근 방법으로 간주되고 있다. 그런 가운데, Google은 RNN보다도 언어 이해 작업에 뛰어난 신경망 구조 "Transformer"를 개발하고 있다.


Google에 의한 언어 이해 작업에 뛰어난 신경망 아키텍처의 "Transformer"는, "영어에서 독일어, 영어에서 프랑스어의 2가지 번역을 벤치마킹하고 있으며, 그 모두 RNN이나 회선 신경망(CNN)을 구사 한 아키텍처보다 뛰어나다는 것을 보여준다. Transformer는 학습에 필요한 계산량이 다른 신경망보다 압도적으로 적기 때문에, 현대의 기계 학습 하드웨어에 적합하며, 높은 품질의 번역을 제공할 수 있게되는 것이다.



신경망을 이용한 번역 모델 "GNMT(Google 신경 기계 번역)", "ConvS2S", "SliceNet"과 Transformer로 영어에서 독일어로 번역하고, 번역의 품질을 점수 화 한 것이 다음의 그래프. 점수가 높을수록 번역의 질이 높다는 것을 보여주고 있으며, Transformet가 가장 높은 품질의 번역에 성공하고 있다.



다음은 영어에서 프랑스어로 번역 할 때의 유사한 벤치 마크. 여기서도 Transformer가 뛰어난 번역을 선보였다.



보통의 신경망은 고정 또는 가변 길이의 벡터 공간 표현을 생성하여 언어를 처리한다. 구체적으로는, 개벌 단어나 단어의 표현에서 시작하여 주위의 단어에서 정보를 수집하고, 맥락에서 언어의 특별한 의미를 결정한다. 최근 번역 분야에서 표준이 되고있는 RNN의 경우, 언어 처리는 왼쪽에서 오른쪽 또는 오른쪽에서 왼쪽으로 순차적으로 실시하고 있다.




하나의 단어를 인식하면 여러 단계를 수행하여 단어의 의미를 결정하고, 그것을 하나씩 처리해 나가는 것이 RNN의 방법. 이에 대해 CNN의 경우 RNN만큼 순차적으로 처리를 해 나간다고 하는 것은 아니지만, CNN 아키텍처 ByteNet과 ConvS2S의 경우 단어 사이의 의미를 이어가기 위해 필요한 처리는 RNN 보다 많다고 한다.


이와는 대조적으로, Transformer는 단지 일정한 스텝 수 밖에 실행하지 않는 장점이 있다. Transformer의 각 단계에서는, 각 단어의 위치에 관계없이 문장의 모든 단어 사이의 관계를 직접적으로 모델링하는 자기주의 메커니즘이 적용된다. 더 구체적으로 말하면, 각 단어가 문장의 모든 단어와 비교되어, 그 결과가 문장내의 모든 단어의 어탠션 스코어로 남고, 이 점수를 바탕으로 각각의 단어가 어떤 의미를 가지고 있는지가 결정된다.


다음 GIF 이미지는 Transformer에 의한 기계 번역의 흐름을 쉽게 도시 한 것이다.



계산 성능과 번역 정밀도의 향상 이외에도 Transformer는 장점이 있다. 그것은 특정 단어를 처리 또는 번역할 때, 네트워크가 관련된 문장의 다른 부분을 시각화하고, 정보가 네트워크를 어떻게 이동하는지에 대한 통찰력을 얻을 수 있다는 점이다. 이것을 알기쉽게 설명하기 위한 예문이 다음과 같다. 각각 영어 원문과 프랑스어 번역문이 나와있다.



첫 번째 영어 문장에서 "it"이 "animal(동물)"을 의미하며, 두 번째 영문으로는 "it"이 "street(거리)"를 가리킨다. 이 영문을 프랑스어로 번역하는 경우 "it"의 번역은, 그것이 가리키는 명사의 성별에 따라 달라진다. 그리고 프랑스어로 "동물"과 "거리"는 성별이 다르기 때문에, 다르게 번역이 된다. 그러나 Google 번역에서는 "it"이 가리키는 것에 의해서 결정되는 프랑스어 번역의 변화를 정확하게 변역할 수 없지만, Transformer라면 "il"과 "elle"라는 식으로 정확하게 번역 할 수 있다.





왜 Transformer라 제대로 변역 할 수 있는가 하면, "특정 단어를 처리 또는 번역 할 때, 네트워크가 관련된 문장의 다른 부분을 시각화하고, 정보가 네트워크를 어떻게 이동하는지에 대한 통찰력을 얻는것이 가능"이라는 특징에 따라 네트워크가 "it"이 가리키는 것을 어떻게 판단했는지를 시각화하는 것으로 잘 알 수 있다. "it"에서 연장선은 "it"이 가리키는 의미의 후보이며, 가장 점수가 높은 것이 가장 진한 색으로 표시되어 있으며, 각각 다른 의미를 가르키는 네트워크를 이해하고 있기 때문에 제대로 프랑스어로 번역 할 수 있었다는 것이다.


Google은 "Transformer가 가진 미래의 가능성에 흥분하고 있고, 자연 언어뿐만 아니라 동영상과 사진 등의 입력 및 출력이 크게 달라지는 것에도 적용하기 시작했다"고 말하고 있다.