미래 음악

인공지능 음악의 미학적 가치는 기계적 완벽함이 아니라 알고리즘의 결함과 디지털 아티팩트(digital artefact)가 만들어내는 낯설고 새로운 질감에 있음
과거 Web2 시대의 음악이 오토튠(Auto-tune)으로 대변되는 '스냅 투 그리드(snap-to-grid)'의 통제된 미학을 따랐다면, AI 시대의 음악은 '잠재 공간(latent space)'을 활용하여 무한히 유동적인 원형질을 조각하는 방식으로 진화할 것임
저자는 AI-anna Grande의 커버 트랙을 통해 기계적 오류를 의도적으로 수용하는 태도야말로 동시대의 문화적, 기술적 가속을 완벽히 포착하는 '미래의 음악(Future Music)'이라고 분석함

AI 음악의 등장과 문화적 지형도

유니버설 뮤직 그룹(UMG)이 스트리밍 서비스에서 딥드레이크(DeepDrake)와 위켄드(The Weeknd)의 AI 합작 트랙 'Heart on My Sleeve'를 저작권 침해로 삭제함
- 이 사태에 대해 뉴욕타임스(NYT)의 홀리 허든(Holly Herndon)은 이와 같은 바이럴 트랙이 현재는 신기한 현상(novelty)에 불과할지라도, 이것이 촉발한 법적 및 창작적 의문은 영구적으로 남을 것이라고 지적함
현대의 미디어 환경은 자극적인 헤드라인을 통해 사람들을 양극화하고 조잡한 주장을 유도함
- 따라서 미래의 예술가들을 위해 현재 우리가 취해야 할 가장 큰 문화적 공헌은 표면적 논쟁을 넘어선 '미묘하고 복합적인 입장(nuanced position)'을 개발하는 것임
- AI 생성 예술의 정치적, 법적, 인프라적 발전 방향에 대해서는 스포닝(spawning.ai)을 주도하는 홀리와 맷(Mat Dryhurst)의 깊은 지식과 판단을 신뢰함

예술적 취향의 형성 및 식별력(Discernment)의 실천

저자는 AI 생성 예술의 미학적, 문화적 장점을 평가할 때 '식별력(discernment)'의 실천을 가장 중요하게 여김
- 식별력이란 자신의 사회적 배경에 따라 문화를 수동적으로 수용하거나 거부하는 대신, 자신의 취향과 선호를 주도적으로 형성하는 능력임
- 이는 단발적인 행위가 아니라 명상처럼 지속적으로 훈련해야 하는 과정(ongoing process)임
아리아나 그란데(Arianna Grande)의 AI 음성으로 커버된 'Blinding Lights' 트랙을 미학적으로 극찬함
- 이 곡은 현재 우리가 경험하는 문화적, 기술적 발전의 시대정신(zeitgeist)을 완벽하게 포착하고 있음
- 곡에 나타나는 글리치(glitch)와 디지털 아티팩트는 결함이 아니라, 해당 곡에서 미학적으로 가장 흥미롭고 가치 있는 요소로 작용함

원곡 'Blinding Lights'에 내재된 매체 미학(Material Aesthetic)

2020년 1월 발매되어 글로벌 팬데믹의 사운드트랙이 된 위켄드의 'Blinding Lights'는 1980년대의 노스탤지어를 강력하게 차용함
- 영화 '고스트버스터즈', '탑건', '듄'이나 드라마 '기묘한 이야기' 등 80년대 문화 현상을 청각적 오브제(sonic object)로 구현함
그러나 원곡은 실제 80년대 사운드가 아니라 지극히 현대적인 '신스웨이브(synthwave)'의 질감을 가짐
- 1980년대 밴드 울트라복스(Ultravox)의 사운드는 신디사이저와 드럼 소리가 왜곡 없이 선명하고 깔끔하게 믹싱되어 있음
- 반면 'Blinding Lights'는 90년대 음량 전쟁(loudness war)과 손실 압축 MP3 인코딩의 영향을 크게 받은 탁한 질감을 의도함
이 트랙의 노스탤지어는 음악 자체보다 '부패해가는 기술적 매체(decaying technical medium)'의 소리에서 기인함
- 1980년대 팝송을 2023년의 마모된 C90 카세트테이프로 듣는 느낌, 혹은 고속도로의 자동차 소음을 뚫고 라디오로 흘러나오는 듯한 질감을 재현함
- 즉, 영감을 준 원본 매체가 기계적으로 복제되며 열화되는 과정 자체를 물질적 매체 미학으로 승화시킴

AI 보컬의 불완전성 수용과 새로운 팝스타의 탄생

AI 아리아나 그란데 버전의 'Blinding Lights'는 낡은 마그네틱 테이프의 노스탤지어적 배경음 위에 '진짜 미래'를 연상시키는 AI 보컬을 얹어 완벽한 대조를 이룸
- 이는 1990년대 사이버펑크 작품들('마크로스 플러스'의 샤론 애플, 윌리엄 깁슨 '아이도루'의 레이 토에이)이 예견해온 가상 AI 팝스타의 실질적 구현임
- 홀리 허든의 실시간 보컬 변환 도구(Holly+)와 함께, 이 커버 곡은 가상 팝스타의 역사에 있어 명확한 '이전과 이후'의 경계선을 그음
이 트랙은 현재의 음색 변환 도구(timbre transfer tools)가 만들어내는 불완전성을 적극적으로 포용한 가장 훌륭한 사례임
- 특히 2분 10초 이후의 구간에서 두드러지는 글리치와 불완전한 렌더링은 제작자가 AI의 결함을 수정하지 않고 의도적으로 남겨둔 결과임
- 이렇게 생성된 보컬 트랙은 현재 순간의 기술적, 물질적 미학을 가장 온전하게 표현하고 있음

오토튠과 '스냅 투 그리드(Snap-to-Grid)': Web2의 문화적 메타포

지난 10년이 넘는 기간 동안 콜 퓰리스(Cole Pulice)의 2022년 앨범 'Scry EP'처럼 아티스트들은 오토튠을 단순 보정이 아닌 스타일적 선택으로 사용해 옴
저자는 과거 오토튠의 미학을 '스냅 투 그리드(snap-to-grid)'라고 정의한 바 있음
- 인간의 목소리와 멜로디에 픽셀화된(pixelated) 질감을 부여하여 억지로 컴퓨터 격자에 맞춘 듯한 인공성을 만들어냄
이러한 '스냅 투 그리드' 미학은 지난 10년간 우리가 겪은 Web2 온라인 세계의 감각과 정확히 일치함
- 알고리즘 플랫폼 자본주의는 인간을 데이터베이스 스키마(database schema)에 종속된 손실된 데이터 그림자(lossy data-shadows)로 축소함
- 팔로워, 좋아요, 리트윗과 같은 실시간 점수판에 의해 사람들의 사고방식과 행동마저 네트워크 논리(network logic)를 따르게 됨
따라서 음악가들이 인간의 가장 순수한 표현 도구인 '목소리'를 저해상도의 픽셀화된 형태로 렌더링하는 것은 문화의 흐름을 소리로 투영한 필연적인 결과임

기술적 매체가 빚어낸 청각적 진화와 잠재 공간(Latent Space)의 가능성

음악과 문화는 자신이 창조되고 영감을 받은 기술적 물질의 특성을 반영(intentionally or not)함
- edIT의 2004년 앨범 'Crying Over Pros for No Reason'은 CD가 튀는 소리, 컴퓨터 크래시, 하드디스크의 회전음 등 90년대 후반 사이버스페이스의 가속화 감각을 사운드 디자인으로 완벽히 구현함
- 2000년대 후반 브레이크코어(breakcore) 및 노이즈 씬은 라임와이어(Limewire)에서 잘못된 비트레이트로 리핑된 퀄리티 낮은 MP3의 질감에 깊은 영향을 받음
- 현재 줌(Zoom) 회의의 끊김 현상이나 라이브 스트리밍의 드롭아웃 현상 등은 사이버스페이스가 일상에 개입하는 주변적 소음(ambient intrusions)이 됨
동시대의 다른 소닉 트렌드 역시 플랫폼 환경과 직결되어 있음
- 메타버스의 로블록스(Roblox)나 Z세대 음악 씬에서는 자동화된 저작권 단속(automated copyright enforcement) 알고리즘을 피하기 위해 여러 겹의 디스토션을 적용했으나, 최근 로블록스는 이를 규제하여 미학적 선택마저 통제하려 함
- 유튜브에서는 '클럽 밖 화장실에서 듣는 소리(In a bathroom at the club)' 등 주파수 조작을 통해 특정 공간감을 묘사하는 ASMR 인접 장르가 새로운 세계관을 구축함
AI-anna Grande의 보컬 라인에서 발견되는 인공물(artefacts)은 저자가 2021년 VQGAN으로 생성한 '사이버네틱 초원(Cybernetic Meadow)' 이미지의 시각적 결함과 동일한 청각적 속성을 띰
- 기괴한 개구리 울음소리, 보컬의 화이트 노이즈, AI 모델이 순수한 파형(waveform) 물질로 풀려나가는 경계선의 소리 등 흠결 있는 알고리즘 공간(flawed algorithmic space)이 고스란히 노출됨
AI 모델은 기존의 '스냅 투 그리드'가 적용되는 데이터베이스나 스프레드시트와는 근본적으로 다른 이질적 존재(Aliens)임
- 이들은 베이즈 추론(Bayesian inference)을 위한 고정된 시스템이 아니라, 무한한 가능성을 지닌 순수하고 가소적인 디지털 물질인 '잠재 공간(latent space)'으로 구성됨
- AI의 결과물은 격자에 맞춘 강제적 보정이 아니라, 합성곱 신경망(CNN)이 도출해 낸 유동적인 최선의 추측(fluid best guesses)과 거친 근사치(rough approximations)의 결과임
저자는 Web2 기반의 소셜 미디어 시대가 저물어감에 따라, 15년간 지속된 '스냅 투 그리드'의 지배가 끝나기를 희망함
- 미래의 아티스트들은 오토튠에 의존하는 대신, AI 음성 모델 자체를 하나의 원천 물질(source material)로 삼아 조각하고 다듬는 방식을 채택하게 될 것임
- 'Blinding Lights (AI Cover)' 트랙은 기술 발전의 맹렬한 속도감과 흠결마저 아름다움으로 승화시킨, '미래의 음악(Future Music)'을 향한 강한 확신을 안겨줌

AI 음악의 등장과 문화적 지형도

예술적 취향의 형성 및 식별력(Discernment)의 실천

원곡 'Blinding Lights'에 내재된 매체 미학(Material Aesthetic)

AI 보컬의 불완전성 수용과 새로운 팝스타의 탄생

오토튠과 '스냅 투 그리드(Snap-to-Grid)': Web2의 문화적 메타포

기술적 매체가 빚어낸 청각적 진화와 잠재 공간(Latent Space)의 가능성

댓글