SDF 다이어리

Ep.162

2023.08.16

Ep.162‘AI 화정’의 비밀

안녕하세요? 지난 1일, ‘SBS 파워 FM’, 라디오 107.7 Mhz에서 여름휴가철을 맞아 ‘AI 뮤직 페스티벌’을 기획했는데요. 혹시 들으신 분 계실까요? 파워 FM의 대표 DJ인 최화정 씨의 목소리를 학습한 ‘AI 화정’의 등장으로 큰 관심을 끌었습니다.
▶ SBS사보 제1212호, ‘AI 뮤직 페스티벌’ 예고 기사, 2023년 7월 27일
방송사에서 어떻게 ‘AI 뮤직 페스티벌’을 기획하게 됐는지, ‘AI 화정’의 비밀은 무엇인지 SBS 라디오센터의 파워 FM 팀장 김찬웅 2CP와 SBS 미디어기술연구소의 류경민 차장을 만나봤습니다.
Q. 최근 라디오센터에서 ‘AI 뮤직 페스티벌’이라는 재밌는 기획을 하셨던데 처음 어떻게 시작된 것인지 궁금합니다.
라디오 콘텐츠 전략팀에서 4월경부터 ‘AI 선곡 도우미 시스템’이라고 해서 미디어기술연구소랑 같이 프로젝트를 하고 있었는데요. 저희가 가지고 있는 뮤직뱅크에 있는 음악들을 카테고리화해서 피디들이 선곡을 할 때 AI의 도움을 받을 수 있게 하는 그런 툴을 개발하고 있었습니다. 그런데 여름마다 보통 저희가 음악 특집을 기획하는데, 올해 워낙 화두가 ‘챗GPT’, ‘생성형 AI’이다 보니 AI선곡 시스템을 이용해서 특집을 해보면 어떨까 하는 생각에서 시작됐는데, 미디어기술연구소에서 저희의 기획 의도를 들으시고 좀 더 재밌게 할 수 있는 것은 없을까 하다 발전된 게 ‘AI 보이스’입니다.
사실은 저희가 티타임을 한 게 6월 말이었어요. 특집 안이 나와서 어떤 것을 하면 좋을까 같이 얘기했는데요. AI 선곡도 원래는 저희가 올해 말을 오픈으로 생각하고 있었거든요. 그런데 조금 앞당겨서 베타 버전이라도 특집에 한번 써보자 했고, ‘AI 보이스’는 내년 프로젝트로 생각하고 있었는데, 실제 쓰지 않더라도 좋으니까 ‘실험적으로 방송분에서 비녹음 방식으로 음성 데이터를 추출해서 사람 목소리를 만들어낼 수 있는지 한번 해보자’해서 하게 됐습니다. 방송에 이렇게 많이 사용될 줄은 모르고 시간도 거의 1달 정도밖에 없는 짧은 시간이었거든요. 처음에는 저희도 좀 재밌을 것 같다 생각해서 시작했는데, 하다 보니 너무 힘들었습니다. 하하. 그런데 전국에 나가는 방송이니 잘해야 하잖아요. 그래서 책임감을 가지고 많은 리소스를 투입해서 거의 다른 프로젝트는 안 하고 보이스만 열심히 했죠.
▶ 김영철의 파워 FM에 출연한 AI화정의 DJ와의 티키타카 장면 (클릭해서 듣기)
Q. 기술적으로 정확히 뭘 한 것인지 설명해 주시겠어요?
방송으로만 들으신 분들은 ‘정말로 물어보면 AI가 알아서 답하나?’ 생각하실 수도 있는데요. 그런 것까지는 아직 아니고요. 그것은 굉장히 어려운 단계입니다. 완전한 생성형을 만들려면 학습량도 어마어마해야 하고, 사람의 질문을 먼저 음성 인식으로 알아듣고, 음성인식에 포함된 문맥을 다 정확한 의미로 파악해야 하고, 거기에 맞는 대답을 학습한 것에서 찾아내서 다시 또 오디오로 발성으로 전해야 하는데요. 그것을 만들 수 있는 곳은 전 세계에서도 많지 않고요. 저희가 이번에 실험한 것은 텍스트를 치고 말하기를 누르면 최화정 씨 목소리를 학습한 AI가 (최화정 씨의 목소리와 속도와 톤으로) 말하는 서비스입니다.
▶ 텍스트를 치면 최화정 씨 목소리를 학습한 ‘AI 화정’이 텍스트처럼 말하는 ‘AI보이스’ 실험 (클릭해서 듣기)
‘AI 보이스’를 만드는 정석적인 방법은 대략 3천에서 6천 문장, 많으면 1만 문장까지의 문장을 준비하고요. 그다음에 그 목소리를 말할 사람이 그 문장들을 하나하나 다 읽습니다. 읽는 것을 녹음하고요. 그래서 텍스트와 이 말 한 음성 녹음 파일을 한 쌍으로 6천 세트, 1만 세트 이렇게 준비를 한 다음에, AI모델에 학습을 시킵니다.
그런데 저희가 최화정 씨를 모시고 그렇게 할 수는 없어서 생각한 방법은 과거했던 방송 녹음본에서 깨끗한 부분을 추출해서 (학습)하면 되지 않을까? 생각하게 됐는데요. 실제로 해보니까 굉장히 어렵더라고요. 방송 중에는 음악도 나오고 광고도 나오고 게스트랑 얘기할 때 서로 왔다 갔다 하기 때문에 막 여러 가지가 섞여 있어요. 그래서 기본적으로 깨끗한 발음의 깨끗한 문장, 최화정 씨만 나오는 문장을 뽑으려면 주로 사연을 읽어주는 파트 위주로 저희가 뽑아낼 수밖에 없더라고요. 1시간짜리 방송 분량에서 그런 부분을 일일이 찾는 것이 쉽지 않았습니다.

예를 들어 사람의 숨소리가 녹음이 되면 그런 것들까지 AI가 다 그대로 따라 합니다. 예를 들면 ‘스읍’ 하는 소리가 문장 말하기 전에 녹음되다 보니, AI가 자동으로 그것을 배워서 문장을 처음 시작할 때 그 숨소리까지 따라 해요. 그래서 여러 방식을 고민하다 방송본에서 깨끗한 오디오 부분을 편집기로 하나하나 다 땄어요. 그런 방식으로 하다 보니 1시간 분량의 프로그램에서도 30 문장 밖에 추출하지 못하더라고요. 결과적으로 마지막에 학습시킨 버전은 2300 문장 버전이었는데 순수시간으로만 70시간 이상 작업을 했어야 되는 데이터 작업이었죠. 완벽한 버전은 아니고 ‘중간 단계’ 정도라고 보시면 되는데, 그럼에도 불구하고 라디오에서는 이 정도로도 충분히 재미를 줄 수 있겠다 판단해 주셔서 특집은 이 버전으로 진행하게 됐습니다.
류경민 차장은 ‘AI 보이스’의 학습과정이 마치 어린아이에게 특정 단어나 문장을 보여주면서 이렇게 발음을 하는 거야 하는 것을 계속 가르치다 보면 어느 날 아이가 ‘가나다라’를 어떻게 발음하는지를 스스로 알게 되는 것과 비슷한 원리라고 설명했습니다.
Q. ‘AI 보이스’의 주인공을 최화정 씨로 결정하게 된 계기가 있었나요?
SBS 파워 FM에서 하는 특집이다 보니 ‘파워 FM’를 대표할 수 있는 목소리가 누가 있을까, 처음에는 목소리 좋은 피디라든가, 아나운서라든가로 하면 어떤가 하는 여러 의견도 있었는데, 그래도 딱 들으면 ‘이 사람이구나’라는 것을 알 수 있는 목소리가 최화정 씨였고, 또 필요했던 데이터가 가장 많은, 저희 개국 때부터 지금까지 같이 해온 DJ였기 때문에, 데이터도 가장 많고 해서 최화정 씨로 결정하게 되었습니다.
일명 ‘최파타’로 불리는 낮 12시부터 2시까지 방송되는 <최화정의 파워타임>은 첫 회부터 지금까지 단 한 번도 진행자가 바뀌지 않은 SBS 라디오의 대표 최장수 프로그램입니다.
Q. 선뜻하신다고 하시던 가요?
최화정 씨한테는 저희가 일회성으로 특집 때 사용하는 거라고 말씀드렸고, 거기에는 흔쾌히 오케이 해 주셨습니다. 그런데 이게 만약에 정식으로 개발이 완료돼서 쓰인다고 그러면 조금 다른 문제가 될 것 같긴 합니다.
▶ ‘AI뮤직 페스티벌’을 기획한 라디오센터를 대표해 인터뷰 중인 김찬웅 SBS 라디오센터 2CP
Q. AI 관련 기획에 대한 피디들의 입장은 어땠나요?
이게 시작이 ‘AI 선곡 시스템’이었다 보니 오히려 처음에 조금 반감을 가지는 피디들이 있었어요. 왜냐하면 피디가 하는 고유 영역 중에 선곡이라는 카테고리가 있기 때문에, ‘선곡은 피디가 하는 것 아니야?’라는 인식이 있었는데 단순히 이것을 AI가 대체한다기보다는 선곡을 하는 것을 도와준다는 개념으로 접근을 했고요. 그래서 이번에도 AI가 각 프로그램 시간대에 맞는 노래를 선곡해 주면 마지막에 최종 선택은 피디들이 했습니다. 처음에는 선곡 시스템에 대해 좀 의아함도 있고, 두려움과 있고 위협감도 있었을 수 있는데요. 아직은 피디를 대체하는 것까지는 아니기 때문에 경계심은 누그러진 상태였고요. AI보이스에 대해서는 다들 일단 재밌어했습니다.
▶ 언제 들을 음악인지, 어떤 비트에, 몇 년대 음악을 원하는 지를 고르면 추천해 주는 AI 음악 선곡 시스템
Q. 기술적으로는 아까 중간단계라고 하셨는데요.
네, 데이터 문제이거든요. 저희가 녹음본에서 문장을 뽑다 보니까 저희 마음대로 알맞은 문장을 뽑아내지를 못해요. 이번 프로젝트를 하면서 절실히 느낀 게, 다른 분의 말을 빌리자면 앤드류 응이라고 세계 4대 AI석학으로 꼽히는 분이 있는데요. 지난달 한국에 와서 강연도 하셨는데, 제가 그분의 강의를 들은 적이 있어요. 거기서 나온 내용이 “AI 프로젝트에 80%가 데이터고 20%가 모델이다” 그런 말을 했습니다. 프로젝트의 성패는 데이터가 80%를 결정한다는 것이었는데요. 이번 프로젝트를 시작할 때 저도 처음에는 무작정 많은 문장을 넣으면 거기서 그냥 발음 잘 못 한 부분까지 알아서 걸러주지 않을까 생각하고 데이터를 많이 넣었어요. 막 4 천문장, 5 천문장 정제되지 않은 문장들을 넣었는데요. 그랬더니 전혀 안 나오더라고요. 그래서 안 되겠다 싶어서 한 땀 한 땀 좋은 문장을 편집해서 넣었더니 오히려 400 문장만 넣어도 4 천문장 넣은 것보다 훨씬 잘 나오는 거예요. 그래서 정말로 데이터가 모든 품질을 결정하는구나 느끼게 되었습니다.

그리고 사람들이 원하는 최화정의 목소리는 약간 업된 톤인 것 같아요. 그런데 저희가 쓸 수 있는 데이터가 사연을 읽는 것에서 뽑은 것이 많다 보니 최화정 씨 본인도 그렇게 얘기를 했던 것 같은데 ‘AI 화정은 너무 점잖다’라는 얘기를 하더라고요. 앞으로 이것을 업그레이드시켜 본다면 한두 가지 버전을 더 학습시켜서 하이톤 버전, 차분한 톤 얘기하는 버전으로 그때그때 상황에 맞춰서 이 문장은 1번톤으로, 이 문장은 2번 톤으로 할 수 있다면 조금 더 활용도가 높지 않을까 그런 생각도 했습니다.
그럼에도 활용도가 높았던 것은 최화정이라는 캐릭터의 목소리를 모든 국민들이 알고 있기 때문에 그 캐릭터에 주입해서 문장을 생성할 수 있었고, 그래서 저희가 원하는 ‘재미’가 좀 나올 수 있었던 것 같아요.
▶ ‘AI 뮤직 페스티벌’의 ‘AI 보이스’ 개발을 담당한 SBS 미디어기술연구소의 류경민 차장
Q. 방송 후의 뒷얘기는 없었나요?
일단 다 신기해했고요. 김영철 씨, 황재성 씨 등 코미디언, 개그맨들이 확실히 잘 가지고 놀았던 것 같아요. ‘나도 목소리 만들어줘’ 하는 DJ들도 굉장히 많았고요. 직접 텍스트를 쳐서 그게 음성으로 변환되는 시스템이다 보니 티키타카를 많이 하려면 써야 하는 문장이 많았거든요. 그래서 피디들은 결과는 재밌게 나왔지만 너무 고되고 정교하고, 힘든 작업이었다고 하더라고요.

그리고 13시간 특집이라 획일적인 것보다는 피디들이 어떻게 창의력을 발휘할 수 있을지도 보고 싶어서 피디들한테는 특별한 방향성 없이 이런 기술이 있으니 가지고 자유롭게 구성해 봐라 약간 오픈해 주었는데요. AI에 대한 이해도가 높은 피디가 확실히 재밌게 구성하더라고요.

그리고 라디오면 티키타카가 중요한데 아직은 이게 (완전한) 생성형까지는 아니다 보니 자연스러운 티키타카가 안 되는 것에 좀 실망하시는 분도 있었고요. 목소리가 너무 비슷해서 조금 무섭다는 의견도 있더라고요. 듣는 청취자분들 중에서도 점점 더 비슷해지면 ‘보이스 피싱’이라든가 이런 안 좋은 쪽으로 쓰일 수도 있겠다 걱정하는 분들도 있었습니다. 이번 특집을 통해 ‘AI가 마냥 좋은 것은 아닐 수도 있겠구나’, ‘우리가 이것을 잘 활용해야 되겠구나’라는 책임감도 더 많이 느끼게 되었습니다.
▶ SBS 파워 FM 라디오 ‘아름다운 이 아침 김창완입니다’의 8월 1일 청취자 댓글 中
Q. 언론사내 기술연구소가 있다는 것을 잘 모르는 분들도 많은 것 같은데요. 이번 ‘AI 오디오’ 말고도 AI를 활용해 연구하고 있는 것들도 있나요?
사람의 얼굴을 넣으면 과거 SBS 프로그램 영상분에서 그 사람이 출연한 영상을 찾아주는 기술이라든지, ‘편집비서’라고 해서 요새 예능 같으면 카메라를 굉장히 여러 대 쓰잖아요. 그 여러 대의 카메라를 자동으로 특정시간으로 맞춰준다든지 하는 기능도 AI를 사용해서 하고 있는 부분이 있고 작은 것 가운데서는 중간광고 나가기 전에 ‘잠시 후 계속됩니다’라는 고지가 있는데 이것을 빼먹을 경우 자동으로 찾아줘서 경고해 주는 시스템도 있고 현재 연구소에서는 AI들이 프로젝트를 거의 대부분 다 하고 있습니다.

그래서 저희의 고민은 이번처럼 개발한 것이 잘 활용될 수 있게, 어떤 것이 괜찮은 활용처인지, 여러 번 활용될 수 있을지 이런 것에 대한 고민이 있습니다. 그리고 저희처럼 개발을 하는 입장에서도 이미 개발을 해주는 코딩을 해주는 툴도 나오고 있고, AI가 버그도 잡아주고 기능을 치면 자동으로 만들어주기도 해서 약간은 위협으로 느끼기도 하는데요. 그럼에도 최종 결정은 사람이 당연히 할 수 있는 그런 어떤 헬퍼로서의 역할, 툴로서의 역할을 할 수 있게 그런 생각으로 프로젝트를 좀 생각하고 있습니다.
▶ ‘AI 뮤직 페스티벌’ 관련 인터뷰 중인 미디어기술연구소의 류경민 차장과 김찬웅 라디오센터 2CP, 지난 3일
Q. 이번 특집의 의미를 부여한다면?
나름대로 유의미하게 생각한 부분은 저희가 SBS에서 자체 개발한 기술을 가지고 순수하게 저희 기술을 활용해서 뭔가를 만들었다는 것이 가장 큰 의미였던 것 같고요. AI선곡은 청취자에게는 직관적으로 받아들여지는 것이 아니기 때문에 ‘AI보이스’가 AI를 대표하게 된 것 같아요.

그리고 아직은 사람들한테 AI가 받아들여지는데 호불호가 갈리는구나 그런 대중의 인식을 확인할 수 있었던 것도 좋았습니다. 그리고 선곡시스템은 아무래도 (데이터베이스를 학습한) AI만큼 피디들이 모든 노래를 다 알 수는 없다 보니 도움을 주는구나 잘 활용하면 좋겠구나를 느꼈고요. 그렇지만 ‘반드시 마지막 결정권은 피디가 해야 되는 게 맞는구나’ 하는 것을 재차 확인할 수 있는 특집이었습니다.
준비 기간이 짧아서 데이터가 적다 보니 아직은 완벽하지 못한 부분들이 좀 아쉬웠고요. 그럼에도 불구하고 저희가 이것을 해 가지고 여러 가지 되게 많은 경험을 얻을 수 있었습니다. ‘향후에 어떻게 하면 좀 더 잘 만들 수 있겠다’ 노하우도 얻었고, 그런 면에서는 라디오센터나 저희나 다 서로 도움이 되지 않았을까? 여러 가지 기술적인 부분이나 미래에 대해 고민하는 부분이 많았기 때문에 다들 좋은 자극이 된 것 같아요.
듣는 청취자의 입장에서는 사실 아직 AI가 너무 완벽하지는 않아서 오히려 안심이 드는 부분도 있었는데요. 너무 완벽했으면 정말 무섭지 않았을까 하는 생각도 들었습니다.

마지막으로 추후 이런 것도 해보고 싶다 상상하는 게 있는지 물었는데요. 김찬웅 CP는 다른 DJ들도 자기 목소리를 만들어 달라는 분들이 많아서 여러 DJ들의 목소리가 같이 나오는 프로그램도 재밌지 않을까? 하는 의견을 전했고, 류경민 차장은 모든 것에 대답하는 AI 말고, 특정 분야로 한정해서 예를 들어 ‘라디오 사연에 반응하는 AI보이스’ 하는 식으로 한정해, ‘라디오에서 쓸 수 있는 생성형 대화모델’도 개발해 볼 수 있지 않을까 생각했다고 했습니다. 물론 ‘라디오센터에서 원한다면’이라는 전제를 달면서요. 이런 이야기들까지 무르익었을 때 김찬웅 CP가 전한 마지막 말이 새삼 기억에 남았는데요.
“한 2~3년 전부터 故 신해철 씨 관련된 방송분을 이용해서 목소리를 추출해 방송을 다시 하자라는 나름의 논의가 있었거든요. 그런데 가장 크게 가로막았던 것이 이 사람이 이 목소리로 내는 의견이 과연 누구의 의견인가?라는 되게 ‘윤리적인 문제’가 생기더라고요. 고인이 갖고 있는 캐릭터가 물론 있지만 AI가 이것을 습득해서 (고인과는) 다른 의견을 냈을 때, 그리고 그 목소리가 나갔을 때 누가 책임질 것인가? 하는 얘기들이 나왔고, 고인의 가족도 안 썼으면 좋겠다 해서 기획을 멈춘 부분이 있습니다. 이번 건은 저희가 문장을 쓰면 AI가 읽기만 한 방식이라서 걱정을 덜었지만 정말 생성형 AI와 대화를 하는 방식을 개발한다면 지금에는 없던 캐릭터가 되어야겠구나 누군가의 캐릭터로 할 수는 없겠다는 생각이 들었습니다.
기존의 인물을 생성형 AI로 만들어 사실인지 아닌지 분간할 수 없게 만들어 문제가 되는 ‘딥페이크’랑도 다 연결되는 얘기들이었는데요. 여러분은 이번 SBS의 ‘AI 보이스’ 특집 어떻게 느끼셨나요? AI 보이스에 대한 호불호를 떠나 상대를 알고 나를 알아야 위태롭지 않다는 점에서라도 저는 지금이 AI에 대한 더 많은 고민과 실험이 필요한 때라는 생각이 새삼 들었습니다.
(글: 이정애 기자, calee@ sbs.co.kr)

SDF다이어리를 보시고 소중한 의견이
떠오르셨다면 메일을 보내주세요!

sdf@sbs.co.kr로 메일 보내기
전체 목록

SDF다이어리

빠짐없이 받아보세요!