잠재 지형 합성: AI 오디오 생성기와 상호작용하며 작곡하는 새로운 악기 구축

(jasper-zheng.github.io)
0작성자: admin#00001시간 전0개의 댓글

생성형 AI가 사용된 요약입니다

  • 신경망 오디오 오토인코더(Neural audio autoencoders)를 NIME(새로운 음악 표현을 위한 인터페이스) 영역에서 단순한 기능적 도구가 아닌, 능동적이고 탐구 가능한 '디자인 재료(Design materials)'로 활용하기 위한 통합적 접근을 제시함.
  • 고차원 오디오 잠재 공간(Audio latent space)을 저차원의 연속적 사운드 공간으로 효과적으로 변환하기 위해, 푸리에 특징(Fourier features) 맵핑을 적용한 궤적 회귀(Trajectory regression) 모델인 Max/MSP 패키지 'Latent Terrain'을 제안함.
  • 4명의 아티스트와의 실천 기반(Practice-based) 포트폴리오를 통해, AI의 '불확실성'을 미학적으로 포용하고 복잡한 물질적 아상블라주(Material assemblage) 속에서 인간과 비인간 행위자의 얽힌 주체성(Entangled agencies)을 밝혀냄.

서론 및 배경: NIME에서의 오디오 잠재 공간과 물질 지향적 설계

  • 신경망 오디오 오토인코더의 설계 도메인 진입.
    • 오디오 사운드 분석 및 합성을 위한 강력한 도구로 자리 잡았으나, 훈련 데이터, 기술 지원, 블랙박스(Black box) 특성에 기인한 높은 진입 장벽이 존재함.
    • 이에 따라 창작자와 디자이너가 오토인코더를 '플레이(at play)'하며 상호작용 디자인을 실험할 수 있는 실무 주도형 자원(Practice-led resources)의 필요성이 제기됨.
  • '디코더 전용(Decoder-only)' 기법 및 잠재 공간 탐색(Latent Space Navigation).
    • 인코더를 배제하고 사용자 입력으로 잠재 표현을 재정의하여 디코더 자체를 생성 모델로 활용하는 접근 방식임.
    • 음악가들이 잠재 공간 내부를 물리적으로 거니는 듯한(Walk) 경험을 통해 뉘앙스 있는 제어를 달성할 수 있음.
  • 코퍼스 기반 사운드 공간과 한계 극복 방향.
    • 기존의 설명 가능한 AI(XAI) 및 차원 축소(DR) 기법은 고차원을 저차원으로 시각화하는 데 유용하나, 주로 코드를 군집화(Clustering)하는 데 그침.
    • 'Latent Terrain'은 잠재 궤적 특유의 고동적(High-dynamic) 변화를 그대로 모방하는 '지도(Map)'를 구축하여 스펙트럼의 복잡성과 풍부한 음악적 구문을 보존함.
  • 물질 지향적 DMI(Digital Musical Instrument) 설계 관점 도입.
    • AI를 투명한 통제의 대상이 아닌, 고유한 저항(Resistance)과 제약(Constraints)을 지닌 능동적 매개물로 취급함.
    • 카렌 바라드(Karen Barad)의 '내부작용(Intra-action)' 개념을 차용하여, 설계자의 의도와 기술적 특성이 얽히며 발생하는 행위 주체성을 조명함.

기술적 도전과 해법: 궤적 회귀 모델과 푸리에 특징 매핑

  • 사운드 공간 구축을 위한 좌표-잠재 맵핑(Coordinate-to-latent mapping).
    • Vigliensoni와 Fiebrink의 단일 프레임 다층 퍼셉트론(MLP) 매핑을 확장하여, 오디오의 연속적 흐름인 '잠재 궤적(Latent trajectories)' 자체를 모델링함.
    • 사용자가 정의한 2차원 공간 궤적과 오디오 샘플에서 인코딩된 고차원 잠재 궤적을 짝지어 훈련 데이터 쌍을 구성함.
    • 문제 정의: 좌표 시퀀스 V=v1,v2,...,vtR2×tV={v_{1},v_{2},...,v_{t}}\in\mathbb{R}^{2\times t}와 잠재 시퀀스 Z=z1,z2,...,ztRk×tZ={z_{1},z_{2},...,z_{t}}\in\mathbb{R}^{k\times t}가 주어질 때, 연속 좌표 vv를 잠재 벡터로 변환하는 함수 fθ:R2Rkf_{\theta}:\mathbb{R}^{2}\rightarrow\mathbb{R}^{k}를 훈련하는 것임.
  • 스펙트럼 편향(Spectral bias)과 고주파 신호 근사의 한계.
    • 잠재 공간의 궤적은 짧은 시간 동안 값이 급변하는 고주파(High-frequency) 성분을 다수 포함함.
    • 밀집된 유클리드 좌표계에서 표준 MLP를 사용할 경우 이러한 급격한 변화를 근사하지 못하여 음악적 다이내믹이 거세된 지나치게 평활화된(Overly smooth) 사운드 공간이 생성됨.
  • 푸리에 특징 매핑(Fourier feature mapping) 도입.
    • 좌표값 vv를 MLP에 입력하기 전, 고주파 함수를 학습할 수 있도록 γ(v)=[sin(2πBv),cos(2πBv)]\gamma(v)=[\sin(2\pi Bv),\cos(2\pi Bv)] 형태의 변환을 거침.
    • 가우시안 척도(Gaussian scale) σ\sigma를 조절 파라미터로 노출시켜, 과소적합(밋밋한 표면)과 과적합(노이즈 및 일반화 실패) 사이의 실무적 튜닝을 디자이너에게 위임함.
    • 적용 결과, RAVE, M2L, SAO, FlowDec 등 다양한 오토인코더 모델에서 PSNR(최대 신호 대 잡음비)이 향상되고 인코더-디코더 재구성 시의 음질 저하(FAD)를 최소화함을 입증함.
  • 실시간 처리 및 대화형 훈련 성능 달성.
    • 배치 사이즈 16 기준, 사용자의 디바이스에서 1000회 훈련 스텝을 수행하는 데 2초 미만이 소요되어 실시간 튜닝 워크플로우를 완벽히 지원함.

DMI 설계를 위한 실무적 적용: Latent Terrain 인터페이스 진화

  • 패키지 철학 및 아키텍처.
    • 사전 훈련된 오토인코더를 '웨이브 터레인 합성(Wave terrain synthesis)'의 지형학적 유추를 빌려 접근성 높은 API로 캡슐화함.
  • 마일스톤에 따른 GUI(Graphical User Interface) 진화 과정.
    • Interface A (체화된 내비게이션): 태블릿과 스타일러스를 활용하여 사용자의 물리적 움직임과 사운드 발생 간의 실시간 커플링을 탐구하고 그래픽 악보의 가능성을 실험함.
    • Interface B (대화형 공간 구축): Max/MSP 내부로 훈련 사이클을 끌어들여, 샘플 수집-훈련-모니터링 과정을 독립적 모듈로 통합하고 궤적 이동을 오실레이터로 프로그래밍할 수 있게 지원함.
    • Interface C (궤적 재생 시퀀싱): 2차원 캔버스를 기존의 선형적 오디오 샘플러처럼 활용할 수 있도록 개편하여, 보간법을 통해 비어있는 잠재 영역까지 유려하게 재생하는 새로운 샘플링 작법을 제시함.

실천 기반 예술 포트폴리오 (Annotated Portfolio)

  • 4건의 개별 프로젝트를 통해 오토인코더의 융합 가능성 입증.
    • Project 1 (Keigo Yoshida - Repressive Terrain): 사용자의 실시간 뇌파(EEG) 데이터를 기반으로 모델이 지속적으로 훈련되며 사운드스케이프를 변경함. 명상적 집중과 이를 방해하려는 알고리즘의 자극 간의 대립적 긴장감(Adversarial tension)을 주제로 함.
    • Project 2 (Jiatong Liu - nn/mémoire): 소멸해가는 베이징의 전통 주거 형태(후통)의 사운드 아카이브를 학습시켜, 가상의 갤러리 공간 안에서 체화된 듣기를 유도하는 가상 환경을 구축함.
    • Project 3 (Nico & Nikhil - Trek): 조작의 제어 범위를 특정 음향적 특징을 띤 영역(Zones)으로 제한하고, 군집 알고리즘(Boids algorithm)의 미세 변형을 결합하여 자연스럽게 표류하는(Naturalistic sonic drift) 퍼포먼스를 연출함.
    • Project 4 (Dan Hearn - ambient_terrain_1): AI의 전면에 나서지 않는(Seamless) 사용법을 모색하여, 기존 샘플 기반 음악 작법의 워크플로우 내에서 잠재 공간을 리샘플링 도구로 병합함.

주요 비평적 논의 및 통찰

  • 불확실성(Uncertainty)과 모호성(Ambiguity)의 포용.
    • AI 기술 특유의 예측 불가능성을 극복해야 할 오류가 아니라, 창작을 추동하는 본질적 특성(Constitutive qualities)으로 파악함.
    • 설계자는 능동적 듣기(Active listening)를 통해 불확실성과 조우하며, 우연성(Serendipitous)을 창작의 전략으로 수용함.
  • 얽힌 행위 주체성(Entangled agencies)과 물질적 아상블라주(Material Assemblage).
    • 창작자의 의도가 기술 위로 일방적으로 투사되는 것이 아니라, 매체의 변형 능력과 한계 속에서 의도가 사후적으로 도출되고 구체화됨.
    • 오토인코더는 고립된 악기가 아니라 외부 센서, 다른 합성 엔진, 작법 루틴 등 수많은 비인간 행위자(Non-human actors)와 얽힌 생태계적 집합체(Assemblage)로 기능함.
  • 지식의 사회적 공유와 포크 이론(Folk Theories)의 필요성.
    • 턴테이블이 자체적인 스크래칭 기법과 비르투오소(Virtuosi) 문화를 통해 진정한 악기로 거듭난 역사를 참조함.
    • 오토인코더 역시 파편화된 개인의 기술적 실험을 넘어, '보이지 않는 기술적 노하우'와 도메인 고유의 '포크 이론(Folk theories)'을 공유할 수 있는 지속 가능한 커뮤니티(Crafting space)가 필수적임을 역설함.

댓글

댓글을 남기려면 로그인하세요.