Bad Bunny·Taylor Swift 등 2,100만 곡, AI 음악 학습에 ‘몰래’ 쓰였다
‘The Atlantic’ 조사로 생성형 AI 음악 플랫폼을 돌리는 정확한 저작권 음원 목록이 처음으로 드러났다.
요약
- The Atlantic의 조사 결과, 생성형 AI 음악 모델 학습에 사용된 2,100만 개가 넘는 트랙이 포함된, 검색 가능한 네 개의 데이터셋이 존재하는 사실이 드러났다.
- 관련 기록에 따르면 개발사들은 Taylor Swift, Bad Bunny 등 주요 아티스트의 작품을 무단으로 수집하고 정당한 허가나 보상 없이 활용해 온 것으로 드러났다.
- 이러한 조사 결과는 대규모 저작권 침해를 이유로 Suno 등 플랫폼을 상대로 소송을 진행 중인 메이저 레이블들에게 핵심적인 증거로 기능하고 있다.
한 건의 조사에서 The Atlantic는 생성형 AI 음악 플랫폼을 뒷받침하는 데이터 스크레이핑이 얼마나 거대한 규모로 이뤄지고 있는지 낱낱이 드러냈다. 기자 Alex Reisner가 이끈 이번 보고서는 약 2,120만 개에 이르는 학습용 트랙이 담긴 네 개의 데이터셋을 어떻게 발견했는지를 상세히 전한다. 이 가운데 가장 큰 단일 아카이브에는 1,200만 곡, 또 다른 아카이브에는 900만 곡이 포함되어 있다. 이 기록을 통해 권리자들은 인간 퍼포먼스를 모사하는 서비스를 구축하기 위해 개발사들이 자신의 작품을 학습 데이터로 흡수했는지 직접 검증할 수 있게 되었다. 검색 가능한 데이터베이스에는 Taylor Swift, Bad Bunny, Billie Eilish, Nirvana와 같은 유명 아티스트들의 트랙이 포함되어 있다는 사실도 확인됐다.
이번 공개는 무단 AI 생성 콘텐츠와 싸우고 있는 음악 업계에 결정적인 시점에 등장했다. 생성형 AI 기업들은 기존 미디어를 활용한 모델 학습이 원 저작물 시장을 훼손하지 않는다는 논리와 함께 ‘공정 이용(fair use)’을 방어 논거로 자주 내세워 왔다. 그러나 새롭게 드러난 데이터셋은 상업적으로 통용 가능한 ‘클론’을 만들어내기 위해 정확히 어떤 저작물이 필요했는지를 보여 줌으로써 이러한 주장을 약화시킨다. Spotify, Deezer와 같은 스트리밍 서비스들 역시 인공적으로 생성된 오디오의 급증을 관리하는 데 이미 어려움을 겪고 있으며, Deezer는 하루 업로드되는 곡의 거의 절반이 AI 생성물이라고 보고한 바 있다.
이처럼 구체적인 발견들은 테크 기업들을 상대로 벌어지는 굵직한 소송에 직접적인 영향을 미치고 있다. Universal Music Group과 Sony Music Entertainment는 현재 AI 플랫폼 Suno를 상대로 대규모 저작권 침해 소송을 진행 중이다. 이들 레이블은 최근 연방법원에 소장을 수정해 자신들의 음원이 학습 데이터에 포함된 사실을 근거로 소송 대상에 6만 1,000건이 넘는 음원을 추가하는 등의 내용을 반영해 달라고 요청했다. Suno 측은 앞서 이 서비스를 구축하기 위해 자사 프로그램에 수천만 건에 이르는 다양한 음원을 학습시켰다는 사실을 인정한 바 있다.
법원은 이제 이러한 대량 데이터 수집이 ‘변형적 이용(transformative use)’으로 인정될 수 있는지, 아니면 노골적인 해적 행위에 해당하는지를 판단해야 하는 과제를 안게 됐다. 기술 업계에서 벌어졌던 과거의 법적 공방, 이를테면 Bartz v. Anthropic 저작권 소송 등은 창작자와 AI 개발자 사이의 긴장이 여전히 현재진행형임을 방증한다. The Atlantic이 수집한 세부적인 증거들은 아티스트들에게 자신들의 시그니처 사운드를 모방하는 트랙을 생성하는 도구가 어떤 방식으로 작동하는지 구체적으로 보여 준다. 이러한 투명성은 AI 기업들이 관행적으로 유지해 온 비밀주의를 걷어내며, 디지털 음악 생태계에서 새로운 책임 기준을 제시하는 선례가 되고 있다.




















