텍스트를 수정하는 것으로 동영상의 말 실수를 쉽게해결하는 기술 개발

정보통신기술

텍스트를 수정하는 것으로 동영상의 말 실수를 쉽게해결하는 기술 개발

o2zone 2019. 6. 10. 10:35

영화에서 대사를 잘못하면, 억지로 음성을 편집하고 또한 입의 움직임이나 음성 연결 방법이 부 자연스럽게되어 버리기 때문에, 정상이라면 재 촬영하지 않을 수 없다.

그러나 스탠포드 대학, 말스 플랑크 정보 과학 연구소, 프린스턴, Adobe의 연구자가 공동 개발 한 기술을 응용하면, 동영상에서 말하고있는 내용을 텍스트 기반으로 수정하여, 동영상 및 음성도 동시에 수정하는 것이 가능하게된다고한다.

실제로 어떤 식으로 수정하는지는, 아래 동영상을 보면 알 수있다.

예를 들어, 다음은 "Apple의 주가는 종가 191.45달러를 기록했다"라는 대사를 말하고있는 여성의 동영상.

동영상에서는 여성이 말하는 문장을 "Apple의 주가는 종가 182.25 달러를 기록했다"로 수정할 경우, 텍스트의 해당 부분을 그대로 수정만 하면 ok. 그렇게하면, 여성의 얼굴과 음성도 동시에 편집되고, 여성이 거의 위화감없는 채로 올바른 내용을 이야기하는 동영상으로 수정되어진다.

이 기술의 시스템은 다음과 같은 느낌. 동영상을 입력하면, 그 음성이 음소에 따라 분해된다. 음소는 텍스트와 연결되어지고, 텍스트를 수정하면 다른 음성으로부터 수정된 음성을 만들어 이를 대체한다. 동시에 말하고있는 사람의 얼굴 모델을 생성하고, 수정 된 음성에 따라 추적하고 합성한다는 것.

아래 이미지는, 왼쪽이 입력 한 수정 이전의 동영상, 중앙이 수정 처리중인 동영상, 오른쪽이 수정 된 동영상을 늘어 놓은 것. 수정 된 음성은 자연스럽고, 그에 따라 동영상도 처리되어있다. "입 모양의 움직임과 음성이 완벽하게 싱크로하고있다"고 할만큼 정확도가 높은 것은 아니지만, 언뜻보면 수정 된 동영상이라는 것을 모를 정도로 자연스러운 움직임으로 수정되어있다.