잠재 지형 합성: AI 오디오 생성기와 상호작용하며 작곡하는 새로운 악기 구축

신경망 오디오 오토인코더(Neural audio autoencoders)를 NIME(새로운 음악 표현을 위한 인터페이스) 영역에서 단순한 기능적 도구가 아닌, 능동적이고 탐구 가능한 '디자인 재료(Design materials)'로 활용하기 위한 통합적 접근을 제시함.
고차원 오디오 잠재 공간(Audio latent space)을 저차원의 연속적 사운드 공간으로 효과적으로 변환하기 위해, 푸리에 특징(Fourier features) 맵핑을 적용한 궤적 회귀(Trajectory regression) 모델인 Max/MSP 패키지 'Latent Terrain'을 제안함.
4명의 아티스트와의 실천 기반(Practice-based) 포트폴리오를 통해, AI의 '불확실성'을 미학적으로 포용하고 복잡한 물질적 아상블라주(Material assemblage) 속에서 인간과 비인간 행위자의 얽힌 주체성(Entangled agencies)을 밝혀냄.

서론 및 배경: NIME에서의 오디오 잠재 공간과 물질 지향적 설계

신경망 오디오 오토인코더의 설계 도메인 진입.
- 오디오 사운드 분석 및 합성을 위한 강력한 도구로 자리 잡았으나, 훈련 데이터, 기술 지원, 블랙박스(Black box) 특성에 기인한 높은 진입 장벽이 존재함.
- 이에 따라 창작자와 디자이너가 오토인코더를 '플레이(at play)'하며 상호작용 디자인을 실험할 수 있는 실무 주도형 자원(Practice-led resources)의 필요성이 제기됨.
'디코더 전용(Decoder-only)' 기법 및 잠재 공간 탐색(Latent Space Navigation).
- 인코더를 배제하고 사용자 입력으로 잠재 표현을 재정의하여 디코더 자체를 생성 모델로 활용하는 접근 방식임.
- 음악가들이 잠재 공간 내부를 물리적으로 거니는 듯한(Walk) 경험을 통해 뉘앙스 있는 제어를 달성할 수 있음.
코퍼스 기반 사운드 공간과 한계 극복 방향.
- 기존의 설명 가능한 AI(XAI) 및 차원 축소(DR) 기법은 고차원을 저차원으로 시각화하는 데 유용하나, 주로 코드를 군집화(Clustering)하는 데 그침.
- 'Latent Terrain'은 잠재 궤적 특유의 고동적(High-dynamic) 변화를 그대로 모방하는 '지도(Map)'를 구축하여 스펙트럼의 복잡성과 풍부한 음악적 구문을 보존함.
물질 지향적 DMI(Digital Musical Instrument) 설계 관점 도입.
- AI를 투명한 통제의 대상이 아닌, 고유한 저항(Resistance)과 제약(Constraints)을 지닌 능동적 매개물로 취급함.
- 카렌 바라드(Karen Barad)의 '내부작용(Intra-action)' 개념을 차용하여, 설계자의 의도와 기술적 특성이 얽히며 발생하는 행위 주체성을 조명함.

기술적 도전과 해법: 궤적 회귀 모델과 푸리에 특징 매핑

사운드 공간 구축을 위한 좌표-잠재 맵핑(Coordinate-to-latent mapping).
- Vigliensoni와 Fiebrink의 단일 프레임 다층 퍼셉트론(MLP) 매핑을 확장하여, 오디오의 연속적 흐름인 '잠재 궤적(Latent trajectories)' 자체를 모델링함.
- 사용자가 정의한 2차원 공간 궤적과 오디오 샘플에서 인코딩된 고차원 잠재 궤적을 짝지어 훈련 데이터 쌍을 구성함.
- 문제 정의: 좌표 시퀀스 $V={v_{1},v_{2},...,v_{t}}\in\mathbb{R}^{2\times t}$ 와 잠재 시퀀스 $Z={z_{1},z_{2},...,z_{t}}\in\mathbb{R}^{k\times t}$ 가 주어질 때, 연속 좌표 $v$ 를 잠재 벡터로 변환하는 함수 $f_{\theta}:\mathbb{R}^{2}\rightarrow\mathbb{R}^{k}$ 를 훈련하는 것임.
스펙트럼 편향(Spectral bias)과 고주파 신호 근사의 한계.
- 잠재 공간의 궤적은 짧은 시간 동안 값이 급변하는 고주파(High-frequency) 성분을 다수 포함함.
- 밀집된 유클리드 좌표계에서 표준 MLP를 사용할 경우 이러한 급격한 변화를 근사하지 못하여 음악적 다이내믹이 거세된 지나치게 평활화된(Overly smooth) 사운드 공간이 생성됨.
푸리에 특징 매핑(Fourier feature mapping) 도입.
- 좌표값 $v$ 를 MLP에 입력하기 전, 고주파 함수를 학습할 수 있도록 $\gamma(v)=[\sin(2\pi Bv),\cos(2\pi Bv)]$ 형태의 변환을 거침.
- 가우시안 척도(Gaussian scale) $\sigma$ 를 조절 파라미터로 노출시켜, 과소적합(밋밋한 표면)과 과적합(노이즈 및 일반화 실패) 사이의 실무적 튜닝을 디자이너에게 위임함.
- 적용 결과, RAVE, M2L, SAO, FlowDec 등 다양한 오토인코더 모델에서 PSNR(최대 신호 대 잡음비)이 향상되고 인코더-디코더 재구성 시의 음질 저하(FAD)를 최소화함을 입증함.
실시간 처리 및 대화형 훈련 성능 달성.
- 배치 사이즈 16 기준, 사용자의 디바이스에서 1000회 훈련 스텝을 수행하는 데 2초 미만이 소요되어 실시간 튜닝 워크플로우를 완벽히 지원함.

DMI 설계를 위한 실무적 적용: Latent Terrain 인터페이스 진화

패키지 철학 및 아키텍처.
- 사전 훈련된 오토인코더를 '웨이브 터레인 합성(Wave terrain synthesis)'의 지형학적 유추를 빌려 접근성 높은 API로 캡슐화함.
마일스톤에 따른 GUI(Graphical User Interface) 진화 과정.
- Interface A (체화된 내비게이션): 태블릿과 스타일러스를 활용하여 사용자의 물리적 움직임과 사운드 발생 간의 실시간 커플링을 탐구하고 그래픽 악보의 가능성을 실험함.
- Interface B (대화형 공간 구축): Max/MSP 내부로 훈련 사이클을 끌어들여, 샘플 수집-훈련-모니터링 과정을 독립적 모듈로 통합하고 궤적 이동을 오실레이터로 프로그래밍할 수 있게 지원함.
- Interface C (궤적 재생 시퀀싱): 2차원 캔버스를 기존의 선형적 오디오 샘플러처럼 활용할 수 있도록 개편하여, 보간법을 통해 비어있는 잠재 영역까지 유려하게 재생하는 새로운 샘플링 작법을 제시함.

실천 기반 예술 포트폴리오 (Annotated Portfolio)

4건의 개별 프로젝트를 통해 오토인코더의 융합 가능성 입증.
- Project 1 (Keigo Yoshida - Repressive Terrain): 사용자의 실시간 뇌파(EEG) 데이터를 기반으로 모델이 지속적으로 훈련되며 사운드스케이프를 변경함. 명상적 집중과 이를 방해하려는 알고리즘의 자극 간의 대립적 긴장감(Adversarial tension)을 주제로 함.
- Project 2 (Jiatong Liu - nn/mémoire): 소멸해가는 베이징의 전통 주거 형태(후통)의 사운드 아카이브를 학습시켜, 가상의 갤러리 공간 안에서 체화된 듣기를 유도하는 가상 환경을 구축함.
- Project 3 (Nico & Nikhil - Trek): 조작의 제어 범위를 특정 음향적 특징을 띤 영역(Zones)으로 제한하고, 군집 알고리즘(Boids algorithm)의 미세 변형을 결합하여 자연스럽게 표류하는(Naturalistic sonic drift) 퍼포먼스를 연출함.
- Project 4 (Dan Hearn - ambient_terrain_1): AI의 전면에 나서지 않는(Seamless) 사용법을 모색하여, 기존 샘플 기반 음악 작법의 워크플로우 내에서 잠재 공간을 리샘플링 도구로 병합함.

주요 비평적 논의 및 통찰

불확실성(Uncertainty)과 모호성(Ambiguity)의 포용.
- AI 기술 특유의 예측 불가능성을 극복해야 할 오류가 아니라, 창작을 추동하는 본질적 특성(Constitutive qualities)으로 파악함.
- 설계자는 능동적 듣기(Active listening)를 통해 불확실성과 조우하며, 우연성(Serendipitous)을 창작의 전략으로 수용함.
얽힌 행위 주체성(Entangled agencies)과 물질적 아상블라주(Material Assemblage).
- 창작자의 의도가 기술 위로 일방적으로 투사되는 것이 아니라, 매체의 변형 능력과 한계 속에서 의도가 사후적으로 도출되고 구체화됨.
- 오토인코더는 고립된 악기가 아니라 외부 센서, 다른 합성 엔진, 작법 루틴 등 수많은 비인간 행위자(Non-human actors)와 얽힌 생태계적 집합체(Assemblage)로 기능함.
지식의 사회적 공유와 포크 이론(Folk Theories)의 필요성.
- 턴테이블이 자체적인 스크래칭 기법과 비르투오소(Virtuosi) 문화를 통해 진정한 악기로 거듭난 역사를 참조함.
- 오토인코더 역시 파편화된 개인의 기술적 실험을 넘어, '보이지 않는 기술적 노하우'와 도메인 고유의 '포크 이론(Folk theories)'을 공유할 수 있는 지속 가능한 커뮤니티(Crafting space)가 필수적임을 역설함.

잠재 지형 합성: AI 오디오 생성기와 상호작용하며 작곡하는 새로운 악기 구축

서론 및 배경: NIME에서의 오디오 잠재 공간과 물질 지향적 설계

기술적 도전과 해법: 궤적 회귀 모델과 푸리에 특징 매핑

DMI 설계를 위한 실무적 적용: Latent Terrain 인터페이스 진화

실천 기반 예술 포트폴리오 (Annotated Portfolio)

주요 비평적 논의 및 통찰

댓글