[용환승 칼럼] AI는 우리가 상상하는 모든 것을 글과 그림 등 원하는 콘텐츠로 생성해주고, 표현하고 싶어도 못했던 것을 가능하게 해주므로 필자는 “제2의 세종대왕”이라고 했다.
그러나 정보를 표현하는 미디어의 최고 수준은 역시 비디오다. 그래서 스파이들이 도청을 하는 경우 음성과 사진 촬영도 좋지만, 비디오로 녹화된 정보는 걸음걸이만으로도 성격과 건강상태의 수준 등 가장 많은 것을 알 수 있다.
“몸이 천냥이면 눈이 구백냥”이라는 속담은 눈이 보배임을 강조한다. 또 “백문(百聞)이 불여일견(不如一見)”이라고 말과 글로 아무리 듣고 읽어도 실제로 한번 보는 것만 못하다.
사진 중매만으로도 결혼을 했었던 시절이 있으며 한장의 사진은 장문의 글로 묘사한 것보다 더 정확하게 알 수 있다.
그러나 사진도 동영상을 이기지는 못한다. 무표정한 사진에 비하면 초당 30장의 사진으로 생성된 영상은 더 많은 정보를 보여주는 것이다.
“안 봐도 비디오”는 비디오를 보는 것처럼 분명해서 더 이상 설명이 필요하지 않을 때 사용한다. 물론 AI에 의한 딥페이크는 비디오도 이제 더 이상 신뢰하기 어려운 미디어가 되고있기는 하다.
비디오의 미디어 우월성은 이미 TV시대에서 검증되었다. SNS 시대의 오늘날에는 TV조차 보지않고 보고 싶을 때 접속해서 원하는 것만 골라 보는 시대가 되었다.
MZ세대의 특징은 영상 토착민(네이티브, Native)
우리는 영상 콘텐츠의 소비를 이미 TV에서 인터넷과 OTT 스트리밍 플랫폼으로 즐긴다. 유투브 같은 인터넷미디어가 초기에 등장했을 때 저작권을 가진 방송국에서 절대 콘텐츠를 올리지 않을 것이라는 전망은 빗나갔다.
현재 방송사나 연예기획사는 자사의 콘텐츠를 OTT와 인터넷 매체에 스스로 올리기도 한다. SNS는 맞춤형 영상을 알려주며 틱톡(Tiktok)은 스마트폰 크기에 맞아서 좋다.
이제 영화관에 가는 이유는 4D 영상이나 특별한 오디오가 필요한 경우이다.
오늘날 MZ 세대는 정보를 검색할 때도 검색엔진을 사용하지 않고 유투브를 먼저 찾는다. 어차피 텍스트로 된 결과보다 영상이 더 가치가 있으며 충분한 영상정보가 있다는 것을 알고 있기 때문이다.
친구들간의 통화도 영상으로, 인사도 문자메시지 대신 영상메시지를 찍어서 주고 받는다. 구세대는 아직 카메라에 부담(?)을 느껴서 음성통화로 그치게 마련이다.
이모티콘도 영상이고, 이제 게시판의 댓글도 영상이거나 최소한 움짤(움직이는 그림)이 차지하고 있다. 영상데이터를 전송하려면 데이터 크기 때문에 데이터양을 절약해야 하는 모바일 사용자에게는 “그림의 떡”인 셈이다.
그래서 영상을 보내도 즉시 다운받지 못하고 와이파이가 있는 곳으로 가야만 하는 문제가 벌어지고 있다. 과거에 “줘도 못 먹나”로 유명한 아이스크림 광고를 연상시킨다.
많은 대학생들은 무제한요금제를 사용하는 반면에 부모세대는 무제한을 사용하지 않아서 세대차이를 알 수 있게 한다.
월드 시뮬레이터 SORA의 탄생: AI가 만드는 동영상
지난 2월 오픈AI사는 월드 시뮬레이터(world simulator)라고 표현하는 ‘SORA’라는 이름의 TTV(Text to Video) 기능을 발표했다.
공개된 영상에는 캥거루가 디스코를 추고, 눈밭에서 뒹구는 강아지들, 보르네오의 코뿔새들, 섬마을의 드론뷰 풍광, 눈 내린 시내거리, 로봇으로 가득한 미래도시 풍광, 맘모스가 돌아다니는 영상, 금광을 캐던 캘리포니아의 과거 모습 등 30개의 영상이었으며 고화질 실사영상과 같은 콘텐츠 품질에 더 놀라게 하고 있다.
이제 지시만 하면 영화가 만들어지고, 애니메이션이 탄생한다는 것은 감독과 PD의 역할을 누구나 할 수 있다는 뜻이다.
화가는 카메라가 그릴 수 없는 그림을 찾아야 하고, 감독은 AI가 만들지 못하는 영상이나 더 고품질의 영상으로 수준을 높여야만 하게 되었다.
AI는 많은 영상 콘텐츠를 생성할 것이고, 인간은 감상만 하면 된다. 개인 맞춤형 콘텐츠의 증대가 예상되고 컴퓨터그래픽, 특수효과와 각종 폭파, 건물과 도시의 파괴, 쓰나미, 우주 침략 등의 영상제작도 간편해진다.
스턴트맨이 하는 영상을 직접 익혀서 촬영한다는 톰 크루즈가 오히려 더 가치를 발휘할 수도 있다. 오늘날 보편화된 가수들의 뮤직비디오도 이제 AI로 만들 수 있고, AI로 만든 캐릭터를 활용할 수도 있다.
최근 가수 아이유의 뮤직비디오에 배우 탕웨이가 출연했다고 하는데, AI와 실사의 가치가 차별화될 수도 있을 것이다.
꿈의 가시화
사람들은 자면서 꿈을 꾼다. 그리고 꿈은 의식적인 작용이 아니고 무의식의 세계다. 꿈에서 나타나는 장면은 결코 사람이 경험한 세계가 아니고 새로운 체험이 많다.
그래서 꿈을 미래의 모습을 예견한 것이라고 해석하기도 하지만, 아무 의미없는 ‘개꿈’이 더 정확하다고 본다.
AI가 배우지도 않은 새로운 콘텐츠를 창작하는 원리는 꿈을 꾸는 것과 동일하다. 학습단계에서 결합하지 않았던 요소들이 꿈에서 랜덤하게 결합되어 새로운 것이 탄생한다.
인도의 수학 천재로 요절한 스리니바사 라마누잔은 3,900개의 수학 공식을 발견했다(아래 공식 참조). 그는 힌두의 여신 나마기리가 꿈에서 알려주었다고 했다.
1869년 러시아의 화학자 멘델레예프는 오늘날 사용하는 원자의 주기율표를 만들었다. 그는 꿈에서 우주의 모든 기본원소들이 반복되는 음악의 소절처럼 질서정연하게 배치되는 것을 보고 만들었다고 했다.
이와 같이 어떤 문제를 골똘히 생각하다 보면 꿈에서 힌트를 얻어서 해결방법을 찾기도 한다. 하루 종일 공부한 내용을 자면서 뇌가 정리한다고 하니 그런 현상이라고 볼 수 있다.
생생하기만 하던 꿈도 깨어나면 대체로 잊어버리며 그래서 잊기 전에 바로 적어서 AI에게 영상으로 만들어 달라고 하면 우리는 꿈을 저장할 수 있게 되며 꿈의 가시화(Dream Visualization)가 실현된다.
다음은 “무릉도원에서 꿈을 꾸는 사람”을 AI가 그린 것이다.
현재 뇌과학자들은 뇌에 센서를 부착해서 자동으로 꿈을 읽어내는 연구를 진행중에 있다. 하지만, 가장 확실한 것은 꿈을 꾼 사람이 기억을 되살려 그려내는 것이며 이때 TTV는 필수적이다.
이렇게 사람들의 꿈이 모이게 되면 우리는 잠재해 있는 사람들의 욕망의 정체를 알아낼 수도 있을 것이다.
그러나 의식에 의해서 표현된 욕망도 모두 충족하지 못해 거리에 나와서 목청껏 외치는 마당에, 무의식의 꿈까지 해결하려는 것은 지나친 욕심이라고 여겨도 무방할 것이다.
#외부 칼럼은 본지의 편집방향과 일치하지 않을 수 있습니다.
<필자 소개>
용환승(hsyong@ewha.ac.kr)
서울대학교 컴퓨터공학과 졸업, 대학원 공학박사
한국전자통신연구원 연구원, 국가교육과학기술자문회의 전문위원
한국정보과학회 부회장, 한국소프트웨어감정평가학회 회장
현 이화여자대학교 컴퓨터공학과 교수