
AI 음성 기술은 단기간에 콘텐츠 시장의 판도를 바꾸고 있다. 특히 자연어 기반 음성 합성 시스템은 인간처럼 말하는 AI를 만들어내기 위해 방대한 음성 데이터를 학습시킨다. 이때 문제는 학습에 사용되는 음성 데이터가 대부분 인터넷에 공개된 콘텐츠에서 무작위로 수집된다는 점이다. 방송, 유튜브, 팟캐스트, 강의 영상 등 누구나 접근할 수 있는 콘텐츠의 음성이 학습 대상으로 활용되지만, 실제로 데이터 제공자에게 동의를 구한 사례는 드물다. 많은 기업이 ‘공개된 콘텐츠는 자유롭게 활용할 수 있다’는 입장을 보이지만, 이는 법적 판단과 윤리적 책임의 기준을 혼동하는 매우 위험한 접근이다. 학습 대상이 되는 음성 데이터가 특정인의 목소리일 경우, 그것이 ‘개인정보’에 해당하는지를 먼저 따져보아야 한다. 단순한 정..