AI가 OTT를 혁신하는 방법 : #1 AI 더빙
AI가 산업을 변화시킬 수 있다는 기대의 맨 선두에는 미디어와 엔터테인먼트 업계가 있습니다. 5월 1일 부터 파업 중인 미국 작가 조합의 요구 조건 중에 ‘AI 기술 사용 중지’ 가 있을 정도입니다.
시나리오 작가, 성우 제작자, VFX 편집자등 전문적 인력이 하던 일들이 AI로 감소되거나 사라질 수 있다는 두려움은 업계 내부 종사자들의 가장 뜨거운 이슈입니다.
노동 현장의 이런 목소리와는 달리 헐리우드와 미디어기업들의 AI 기술 활용은 점차 증가하고 있습니다. 기회가 있을때마다 AI 기술이 미디어 현장을 어떻게 바꾸어 가고 있는지 살펴보도록 하겠습니다.
지속 성장하는 더빙 시장
첫번째로 선정한 주제는 ‘더빙’ 입니다.
더빙은 한 언어로 만들어진 콘텐츠에 다른 언어로 바꾸는 과정입니다. 더빙을 위해 동원되는 직업 군은 ‘성우’ 입니다.
한국은 해외 콘텐츠에 한국어의 성우 연기로 바꾸는 더빙 콘텐츠가 과거에 비해 인기가 없습니다. 하지만 국제적으로는 자국의 언어로 콘텐츠를 즐기고자 하는 욕구는 여전히 존재합니다. 2021년 기준 넷플릭스가 700만분의 콘텐츠에 다국어 자막을 입혔을 때, 500만분의 콘텐츠를 다국어로 더빙 제작 하였습니다.
아래표를 보면 미국의 백인들은 외국 콘텐츠의 영어 더빙 시청 선호가 60%로 자막 시청 보다 높습니다.
Verified Market Research의 분석에 따르면 영화 더빙 시장은 매해 5% 이상씩 성장하고 있고 2027년 까지 36억달러 (대략 4조) 시장으로 커지고 있습니다.
그런데 기존의 더빙 방식으로는 5분의 더빙을 위해 녹음 스튜디오를 1시간 이용해야 할 정도로 노동집약적 과정 이었습니다. 특히 원래 오디오와 일치하는 리듬과 타이밍을 맞추는 작업에 걸리는 반복 제작 과정이 포함됩니다.
AI 기술은 이 과정을 70% 이상 줄일 수 있습니다. AI 더빙은 원래 콘텐츠 음성의 언어 추출 및 분석, 배우 연기의 패턴 분석을 머신러닝 기법으로 통계화 하고 이를 성우 음성과 변환 하는 기술을 적용합니다. 그리고 고전적 방식에서 가장 난이도가 높은 작업인 언어의 리듬감을 통제하기 위해 딥 페이크 기술들을 접목하여 배우의 입모양을 다은 언어 사용과 비슷하게 변경하는 기술을 접목합니다.
#1 Flawlees AI
AI 더빙의 선도 스타트업은 Flawless AI가 만든 TrueSync 소트프웨어는 배우의 연기 전체를 분석하고 배우의 얼굴과 입의 움직임을 언어에 맞게 조정합니다.
TrueSync는 딥페이크 기술의 동일한 원리를 사용하여 대체할 대화와 일치하도록 배우의 입 움직임을 변경하는 것입니다.
최근의 작업을 보면, F-Word 등 욕설이 지속적으로 등장하는 R등급 영화를 13PG 등급으로 낮추기 위해 욕설 장면들만 완벽하게 바꾸어 실제 등급 심사를 통과하기도 했습니다.
#2 이스라엘 스타트업 DeepDub
이스라엘 스타트업은 DeepDub은 최근 미국 영화 협회의 TPN(Trusted Partner Network) 인증을 획득했는데요, AI 더빙 기술로 영화 협회의 기술 및 보안성 인증을 받았다는데 큰 의미가 있습니다.
이 회사는 미국의 스릴러 영화인 ‘Every time I Die’ 라는 스릴러 영화를 AI 더빙 기술을 활용하여 전체 분량을 스페인어로 변환 하였습니다.
DeepDub은 topic.com 등 OTT플랫폼과 시리즈 전체 분량의 영어 더빙 계약을 추진하기도 하였고 최근에는 2천만 달러의 시리즈A 투자로 사업을 확장하고 있습니다. 이 회사는 영화와 OTT 시리즈 콘텐츠의 고품질 더빙 기술 개발에 주력합니다.
더빙된 오디어와 비디오의 동기화 (입모양, 감정에 따른 언어표현 등) 와 배우의 원래 음성을 유지하면서 더빙을 추가하는 기술에 주력하고 있습니다.
#3 유투브의 자동 더빙 툴
세번째 사례는 유투브 입니다. 유투브는 최근 Vidcon 에서 크리에이터가 AI를 사용하여 자국어를 다은 언어로 자동 더빙하는 도구를 상용화할 것이라고 발표합니다. Aloud 로 명명된 AI 기반 더빙 툴입니다.
이 기술의 핵심은 ‘자동 더빙’ 입니다. 2022년에 첫 선을 보인 Aloud는 크리에이터들의 콘텐츠의 원래 언어를 더빙 버전의 언어로 변환한 후 자동으로 음성을 생성합니다. 현재는 영어, 스페인어, 포트투칼어 등 일부 언어로 한정됩니다.
이 기술은 크리에이터의 목소리 처럼 들릴 수 있고, 감정 전달 및 자연스러운 입모양 재생을 위해 고도화 작업을 이어갈 것이라고 밝히고 있습니다. (앞서 설명한 기술 지향과 거의 같습니다.)
AI 더빙 기술의 사용은 성우의 목소리는 그대로 이용하면서 립싱크 등 장면들의 변환에 활용되는 방안, 학습된 성우 목소리 까지 대체 하는 방안, 일부 장면들의 보이스를 자연스럽게 교체하는 방안, 실시간에 가까운 자동 더빙화 방안 등 다양한 목적에 따라 쓰여지고 있습니다.
품질이 뒷받침 된다면 포스트 프로덕션 과정의 비용과 시간을 획기적으로 줄여줄 수 있기 때문에 헐리우드와 각국의 미디어 업계들은 이 기술의 발전에 큰 기대를 걸고 있습니다.
하나의 언어로 제작된 콘텐츠가 수천개의 목소리를 활용하여 원래 언어의 감정 표현을 그대로 전달할 수 있을까? AI 더빙의 지향은 이 방향으로 진화하고 있습니다.
jeremy797@gmail.com