Magenta RealTime 2: 오픈 및 로컬 라이브 음악 AI 모델
(magenta.withgoogle.com)생성형 AI가 사용된 요약입니다
- Magenta 팀이 개발한 MacBook 기반의 실시간 오픈소스 AI 음악 모델 및 추론 엔진 Magenta RealTime 2(MRT2)의 출시를 발표함.
- 텍스트 프롬프트뿐만 아니라 MIDI 및 오디오를 통한 실시간 저지연(Low-latency) 온디바이스 추론을 지원하여 DAW 및 독립형 앱으로 활용 가능함.
- 이전 버전에 비해 지연 시간을 약 15배 단축하고 causal sliding window attention 등의 기술을 도입하여 연속적인 오디오 스트리밍 생성을 구현함.
- Apple Silicon GPU에 최적화된 C++ 추론 엔진과 MLX 프레임워크를 결합하여 음악가들이 실제 사용하는 일반적인 하드웨어 환경에서 작동할 수 있도록 함.
Magenta RealTime 2(MRT2) 개요 및 특징
- 노트북 환경에서 AI 악기를 구축하고 연주할 수 있는 실시간 음악 생성 모델 및 효율적인 추론 엔진을 제공함.
- MacBook(Apple Silicon 탑재 모델 필요) 환경을 지원하는 플러그인 번들, GitHub 소스 코드 및 모델 가중치를 공개함.
- 기존의 대규모 생성형 음악 모델과의 차별점 제시함.
- 기존 모델: 오프라인에서 텍스트 프롬프트를 트랙(오디오 파일)으로 변환하는 방식임.
- MRT2: 텍스트뿐만 아니라 MIDI 및 오디오 입력을 통해 실시간으로 제어할 수 있는 상호작용형(Interactive) 라이브 모델임.
- 저지연 온디바이스(On-device) 추론을 수행하여 사용자 입력에 즉각적으로 반응함.
- 독립형(Standalone) 애플리케이션으로 실행하거나, 디지털 오디오 워크스테이션(DAW, Digital Audio Workstation)에 로드하여 사용하거나, 기타 음악 소프트웨어에 통합할 수 있음.
- 사운드 클로닝(Cloning), 스타일 블렌딩(Blending), 라이브 반주 생성 등의 기능을 실험할 수 있는 플레이어블 악기 및 경험 모음집을 함께 배포함.
실시간 음악 모델의 구성 요소 및 역사적 맥락
- 라이브 음악 모델의 잠재력을 탐구하기 위해 당일 출시한 구체적인 구성 요소를 명시함.
- Magenta RealTime 2 오픈 가중치 모델: 2.4B(24억) 파라미터 규모로 고품질 실시간 음악 합성 및 MIDI, 텍스트, 오디오를 통한 저지연 제어를 지원함.
- 오픈소스 Python 라이브러리(
pip install magenta-rt): SequenceLayers를 기반으로 하며, JAX 및 MLX를 통한 추론을 제공함. - C++ 기반 추론 엔진: MLX를 경유하여 MacBook GPU 상에서 효율적인 스트리밍 오디오 생성을 가능하게 함.
- 예제 애플리케이션 스위트: MRT2의 창의적 잠재력을 보여주며 개발자가 새로운 악기 및 소프트웨어 통합을 시작할 수 있는 참조 역할을 함.
- Magenta 팀의 장기적인 비전과 기술적 진화 과정을 설명함.
- 지난 10년간 AI를 음악가의 대체재가 아닌 '도구'로 바라보는 비전을 옹호해 옴.
- 2017년 머신러닝을 연주 가능한 하드웨어에 적용한 최초의 뉴럴 신디사이저 NSynth 출시함.
- 이후 DDSP, Piano Genie, 그리고 다양한 음악 스타일을 생성하고 혼합하는 최초의 라이브 음악 모델인 Magenta RealTime 버전을 개발함.
- 이번 MRT2는 버전 1에 비해 약 15배 낮은 지연 시간(Latency)을 달성하고 표준 하드웨어에서 작동하며 DAW에 직접 통합되어 진정한 '음악 악기'로서의 면모를 갖춤.
저지연 및 확장된 제어 성능 비교 (MRT vs MRT2)
- 두 버전 간의 구체적인 성능 지표를 표 형태의 데이터에 기반하여 상세히 비교 분석함.
- 라이브 음악 생성 기능은 두 버전 모두 지원함.
- 하드웨어 요구사항이 기존 TPU/GPU에서 MacBook 환경으로 최적화됨.
- 프레임 크기(Frame size)가 2초(2s)에서 40밀리초(40ms)로 대폭 축소됨.
- 제어 지연 시간(Control latency)이 기존 약 3초(~3s)에서 약 200밀리초(~200ms)로 감소함.
- 제어 모달리티(Control modalities)가 텍스트, 오디오에서 MIDI까지 확장됨.
- 모델 크기는 기존 760M / 220M에서 2.4B / 230M으로 확장 및 다양화됨.
- 지연 시간을 대폭 축소한 기술적 방법론을 상술함.
- 두 모델 모두 SpectroStream 코덱의 오디오 토큰 시퀀스를 기반으로 작동하는 코덱 언어 모델(Codec language model)임.
- MRT2는 프레임 정렬 컨디셔닝(Frame-aligned conditioning)을 사용하는 프레임 레벨 인과적 자기회귀(Frame-level autoregression)를 수행하여 지연 시간을 줄임.
- 익스프레시브(Expressive)한 음악 제어를 위해 MIDI 입력에 지속적으로 반응하는 오디오를 모델링하며, MusicCoCa를 통해 오디오 및 텍스트 스타일 프롬프트를 임베딩함.
- 상호작용 지연을 최소화하기 위해 매 생성 단계마다 두 신호를 프레임 정렬 컨디셔닝으로 주입하여, 신호 변화에 단일 프레임(40ms + 알파의 경험적 지연) 내에 반응함.
- 연속적인 스트리밍 생성을 가능하게 하고 메모리 요구량을 제한하기 위해 인과적 슬라이딩 윈도우 어텐션(Causal sliding window attention) 메커니즘을 사용함.
- 학습 가능한 어텐션 임베딩(Learnable attention embeddings)을 통합하여 임의의 재생 시간 및 긴 콘텍스트 생성 시 발생하는 콘텍스트 제거 아티팩트(Context eviction artifacts, 예: 링잉 현상 및 피드백)에 대한 일반화 성능을 개선함.
MLX 기반의 고속 C++ 추론 엔진
- 하드웨어 접근성을 혁신하여 고성능 GPU/TPU 장비 없이 음악가들이 실제 사용하는 하드웨어로 가져옴.
- Python과 C++의 연결 고리로서 Apple의 MLX 프레임워크를 채택함.
- SequenceLayers 라이브러리로 구현된 MRT2 모델을 MLX를 사용하여 가중치와 연산 그래프가 번들링된 모델 컨테이너 포맷인
.mlxfn파일로 컴파일함. - C++ 추론 엔진이 해당 파일을 로드하고 MLX 런타임을 이용해 Apple Silicon GPU에서 효율적으로 실행함.
- 추론 엔진 내부에서 모델 상태(Model state), 오디오 버퍼링 및 리샘플링, MIDI 입력 등 필수 인프라를 처리하며 C++를 지원하는 다양한 음악 애플리케이션 프레임워크에 임베딩 가능함.
- SequenceLayers 라이브러리로 구현된 MRT2 모델을 MLX를 사용하여 가중치와 연산 그래프가 번들링된 모델 컨테이너 포맷인
- Apple Silicon (M-시리즈) 칩셋별 실시간 스트리밍 지원 하드웨어 사양을 명시함.
- 오프라인(비실시간) 추론의 경우 두 가지 모델 크기 모두 모든 Apple Silicon Mac에서 작동함.
- 재생 속도보다 빠르게 오디오를 생성하는 실시간 스트리밍(Real-time streaming) 지원 사양은 다음과 같음.
- Base 모델 (2.4B): MacBook M3 Pro 이상, MacBook M2 Max 이상 하드웨어 요구됨.
- Small 모델 (230M): MacBook Air를 포함한 모든 Apple Silicon MacBook에서 지원됨.
향후 계획 및 비전
- 머신러닝을 활용한 음악 통계적 지식 기반의 고유한 사운드 생성을 넘어, 실제 음악 제작 도구에 요구되는 즉각성과 제어력을 확보하기 시작함.
- 향후 상호작용성 확장, 제어 지연 시간 추가 단축, 잼 세션 및 실시간 오디오 제어를 가능하게 하는 오디오 스트리밍 입력 기능 확장을 목표로 함.
- 조만간 추가될 예정인 기능 및 애플리케이션 목록을 공유함.
- 파인튜닝(Finetuning): 사용자가 본인의 데이터로 모델을 직접 학습시켜 커스텀할 수 있는 기능임.
- 아티스트 Manaswi Mishra와의 협업으로 제작된 새로운 퍼포먼스 도구 예제 제공 예정임.
- 보스턴에서 개최되는 Music Technology Hackathon에 참여하여 Magenta RealTime 2를 중심으로 한 챌린지를 제시하고 개발자들과 교류할 예정임을 밝힘.
댓글
댓글을 남기려면 로그인하세요.