다중 양상 정렬을 위한 인드라 표상 가설 [pdf]

단일 양상(unimodal) 파운데이션 모델들이 아키텍처나 학습 목표와 무관하게 현실의 공유된 관계적 구조를 암묵적으로 반영하는 수렴적 표상(convergent representation)을 학습한다는 '인드라 표상 가설(Indra Representation Hypothesis)'을 제안함.
화엄경의 '인드라망(Indra's Net)' 철학적 메타포와 범주론(category theory)의 V-풍부 요네다 매장(V-enriched Yoneda embedding)을 결합하여, 표상을 타 샘플들과의 '관계적 프로필(relational profile)'로 수학적으로 정립함.
이를 각도 거리(angular distance)를 통해 구현하고 시각, 언어, 음성 양상에 걸쳐 실험한 결과, 추가적인 훈련 없이도 모델의 강건성(robustness)과 교차 양상(cross-modal) 정렬 능력이 일관되게 향상됨을 입증함.

1. 서론 (Introduction)

파운데이션 모델의 발전과 한계
- 대규모 사전 학습을 통해 자연어, 컴퓨터 비전, 음성 처리 등 다양한 영역에서 단일 양상 파운데이션 모델(예: BERT, ViT, Wav2Vec)이 강력한 성능을 입증함.
- 그러나 현실 세계의 정보는 본질적으로 다중 양상(multimodal)이므로 단일 양상만으로는 이해에 한계가 존재함.
- 기존에는 단일 양상 모델을 교차 양상 작업으로 확장하기 위해, 정렬 손실(alignment losses)이나 융합 모듈 등을 도입하여 대규모 데이터셋 기반의 광범위한 재학습을 요구함.
단일 양상 모델의 잠재적 교차 양상 능력과 표상 수렴
- 최근 연구들은 단일 양상 모델들이 물리적 실체가 동일할 경우 서로 다른 감각적 관점에서도 동일한 기저 의미(semantics)를 묘사하는 잠재적 교차 양상 능력을 보임을 시사함.
- 재학습 없이 단순 선형 변환만으로도 서로 다른 양상의 모델(예: 음성 모델과 LLM, 비전 모델과 LLM)을 연결할 수 있음이 밝혀짐.
- 데이터 양상이나 훈련 방식이 다르더라도, 궁극적으로 '현실(reality)'의 표상에 도달하려 하기 때문에 모델들의 표상이 수렴(converge)하는 현상이 관찰됨.
인드라 표상 가설(Indra Representation Hypothesis) 제안
- 수렴하는 표상의 구체적 형태가 명확하지 않은 기존의 한계를 극복하기 위해, '인드라망(Indra's Net)'이라는 철학적 메타포에서 영감을 받은 개념적 추상화인 '인드라 표상(Indra Representation)'을 제안함.
- 우주의 모든 보석이 서로를 반사하며 상호 연결되어 있다는 인드라망의 관계론적 존재론(relational ontology)에 착안하여, 각 엔티티의 표상이 고립되어 정의되는 것이 아니라 모든 타 엔티티를 반사하는 관계적 맥락(relational context)에서 발현된다고 주장함.
범주론적 공식화와 연구 기여
- 범주론(category theory)을 기반으로 인드라 표상을 비용 범주(Cost-category)에 풍부해진 샘플 범주 내의 V-풍부 요네다 매장(V-enriched Yoneda embedding)으로 정의함.
- 이 표상이 유일(unique)하고 완결(complete)되며 구조 보존적(structure-preserving)임을 이론적으로 증명함.
- 실용적 인스턴스화를 위해 각도 거리(angular distance)를 비용 함수로 채택하였으며, 시각, 언어, 음성 간 매칭 실험을 통해 그 유효성을 검증함.

2. 사전 지식 (Preliminaries)

인드라망 (Indra's Net) 메타포
- 고대 인도 및 대승 불교(특히 화엄경)에서 유래한 철학적 비유로, 모든 현상의 상호 의존성, 비이원성(non-duality), 상호 침투성을 우주적 그물망에 달린 보석들로 상징함.
- 하나의 보석이 그물망의 다른 모든 보석을 반사하고, 그 반사된 상 안에 다시 다른 보석들이 무한히 반사되는 구조를 가짐.
- 이러한 상호 연결성 개념은 심리학(상호의존적 자아 구성), 물리학(장 이론 및 입자 물리학에서의 상호작용), 언어학(단어의 의미를 동시 출현 관계로 파악), 생물학(전체 유기체의 설계도를 포함하는 DNA) 등 현대 학문의 기초 원리와 깊은 공명(resonance)을 일으킴.
표상 수렴 (Representation Convergence) 및 기존 표상의 한계
- 여러 연구에서 단일 양상 모델들이 구조나 학습 목표와 무관하게 수렴적 표상을 학습한다는 사실이 입증됨(예: 다양한 LLM에서 진리의 2차원적 표상이 보편적으로 나타남).
- 생물학적 뇌와 인공 신경망 역시 자연주의적 훈련 조건하에서 유사한 내부 표상을 발전시킴.
- 그러나 모델 출력값(임베딩) 자체를 표상으로 간주하는 기존 방식은 다음과 같은 한계를 지님.
  - 구조적 근시안(structural myopia): 개별 데이터의 관계적 상호작용을 무시하고 정보의 고립된 전달자로 취급함.
  - 제한된 표현력(limited expressiveness): 다중 양상 파운데이션 모델에 비해 매칭 및 정렬 품질이 떨어짐.
  - 차원 비호환성(dimensional incompatibility): 모델이나 양상 간에 차원이 달라 교차 양상 매칭을 위해 추가 후처리가 필수적임.

3. 방법론 (Methodology)

인드라 표상 가설 (The Indra Representation Hypothesis)
- 샘플을 고립된 상태가 아니라 다른 샘플들과의 '관계 패턴'을 통해 표상해야 한다는 관점의 전환을 주창함.
- 서로 다른 목표와 데이터로 학습된 신경망들이 궁극적으로 인드라망의 관계적 존재론과 평행하게 현실의 공유된 관계적 구조를 암묵적으로 반영하는 수렴적 표상을 학습한다는 가설임.
- 기존 모델 출력을 그대로 사용하는 것은 이러한 상호 의존적이고 맥락적인 관계 구조를 무시하는 것임.
메타포에서 이론으로 (From Metaphor to Theory)
- 요네다 보조정리(Yoneda Lemma): 범주 내의 객체는 그 내부 속성이 아니라 다른 모든 객체와의 관계(사상, morphisms)에 의해 특성화됨을 수학적으로 증명함.
- 샘플 범주(Sample Category): 비용 범주(Cost-category) V = ([0,무한대], >=, 0, +) 위에서 풍부해진(enriched) 범주 C를 정의하며, 대상 간의 사상은 비용 함수 d(X_i, X_j)로 정의됨. 이 범주는 삼각 부등식을 만족하는 로비어 거리 공간(Lawvere metric space)을 형성함.
- 인드라 표상의 정의 (Definition 3): 특정 샘플 X_i의 인드라 표상을 V-함자 C(X_i, -)로 정의하며, 이는 샘플 카테고리의 모든 객체에 대해 해당 샘플과의 거리(비용)를 매핑한 컬렉션임.
- 이론적 보장성:
  - 유일성(Uniqueness, Proposition 1): 거리가 분리 공리(T0)를 만족하면, 서로 다른 샘플은 동일한 인드라 표상을 가질 수 없음.
  - 완결성(Completeness, Theorem 2): 샘플 간의 거리가 허용 가능한 범위 내에서 어떻게 행동하는지 결정하는 데 필요한 모든 정보를 캡슐화함.
  - 구조 보존(Structure-preserving, Corollary 2): 샘플들 간의 관계적 구조가 인드라 표상 간의 관계에 그대로 일대일 대응으로 반영됨.
인드라 표상의 인스턴스화 (Instantiation of Indra Representation)
- 실제 데이터셋 적용을 위해 비용 함수 d(X_i, X_j)를 모델 출력 임베딩 간의 각도 거리(angular distance)로 정의함.
- 이를 통해 각 샘플은 데이터셋 내의 모든 타 샘플에 대한 관계적 프로필(거리의 벡터)로 직관적이고 원칙적으로 표현됨.
양상 간 관계형 매칭 (Relational Matching across Modalities)
- 두 개별 양상(예: 이미지와 텍스트)에서 독립적인 파운데이션 모델을 통해 임베딩을 추출하고, 각 양상 내에서 앞서 정의한 비용 함수를 사용해 인드라 표상(거리 매트릭스)을 구축함.
- 희소화(sparsification) 및 정규화(normalization) 등 후처리 과정을 거쳐 강력한 교차 양상 매칭을 가능케 하는 외부 표상(external representations)을 생성함.

4. 실험 (Experiments)

단일 양상 평가 (Evaluation on Single Modality)
- 데이터셋 및 모델: CIFAR-10, CIFAR-100, Office-Home (도메인 이동 및 일반화 평가 목적). ViT, Convnext, Dinov2 모델 적용.
- 실험 설정: 특징(feature)에 다양한 수준의 가우시안 노이즈(sigma)를 주입하고 선형 탐색(linear probing)을 통해 정확도를 측정함.
- 결과: 인드라 표상은 모든 노이즈 수준에서 원본 임베딩보다 더 높은 정확도를 유지하였으며, 강력한 백본(예: Dinov2)을 사용할수록 강건성이 증폭됨.
시각 및 언어 양상 평가 (Evaluation on Vision & Language Modalities)
- 데이터셋 및 모델: MS-COCO, NOCAPS 사용. 시각(ViT, Convnext, Dinov2)과 언어(BERT, Roberta) 모델의 사전 정렬 없는(unaligned) 조합 평가. 베이스라인으로 CLIP 사용.
- 결과: 텍스트-이미지(TI), 이미지-텍스트(IT) 검색(Top-k 매칭) 모두에서 인드라 표상이 원본 표상 대비 성능을 일관되게 크게 향상시킴. 비록 완벽히 정렬된 CLIP과는 차이가 있으나, 추가 훈련 없는 정렬 기법으로서의 일반화 가능성을 입증함.
음성 및 언어 양상 평가 (Evaluation on Speech & Language Modalities)
- 데이터셋 및 모델: TIMIT 데이터셋. 음성(wav2vec, wavlm, hubert 등)과 언어(Roberta) 모델 조합 평가. 베이스라인으로 CLAP 사용.
- 결과: 음성-텍스트 양방향 매칭에서 인드라 표상이 일관된 개선을 보임. 다만 음성 모델의 용량 한계로 시각-언어 대비 상승폭은 다소 제한적이나, 모델 크기가 클수록 정렬 정확도가 향상되는 양상을 확인함.

5. 관련 연구 (Related Work)

인스턴스 수준 표상 학습 (Instance-Level Representation Learning)
- 지도 학습이나 재구성(autoencoder), 자기 예측(BERT) 등은 개별 데이터를 고정 차원의 벡터로 암호화하며 샘플 간 관계를 명시적으로 모델링하지 않음.
대조 표상 학습 (Contrastive Representation Learning)
- SimCLR, CLIP 등은 유사도를 기반으로 관계형 귀납 편향(inductive bias)을 주입하지만 추론 단계에서는 여전히 개별 인스턴스 중심이며 대규모 병렬 데이터셋을 요구함.
그래프 및 어텐션 기반 표상 학습 (Graph & Attention-based)
- 그래프 신경망(GNN)은 관계를 인코딩하나 사전 정의된 인접 구조에 의존하며 과도한 평활화(oversmoothing) 문제를 겪음.
- 트랜스포머 기반 어텐션은 전역 상호작용을 허용하나 명시적 기하학적 해석이 불투명한 동적 혼합(dynamic mixing)임.
인드라 표상의 차별성
- 모든 타 샘플에 대한 거리 기반 반영이라는 명시적 관계 프로필을 구축하며, 철학적 존재론(인드라망)과 범주론적 수학 기반(요네다 보조정리)에 깊이 뿌리내려 해석 가능하고 원칙적인 프레임워크를 제공함.

6. 결론 및 한계점 (Conclusion)

단일 양상 모델의 수렴 현상을 설명하고, 인드라망 철학에 착안해 모든 대상 간의 관계를 인코딩하는 유일하고 완벽한 인드라 표상을 수학적으로 제안 및 증명함.
실험을 통해 모델 강건성 및 양상 간 정렬 능력을 크게 개선하는 훈련 없는(training-free) 다중 양상 정렬의 실용적 틀을 제공함.
한계점 (Limitations)
- 모든 표상 간 관계를 계산해야 하므로 샘플 수 n에 대해 O(n^2 d)의 계산 복잡도 및 O(n^2)의 메모리 복잡도를 가짐.
- 해결 방안: 근사 최근접 이웃 탐색(ANN), 랜드마크 기반 근사, 해싱 방법 등 기존 기술을 활용하여 확장이 가능하며, 칸 확장(Kan extensions)을 통한 부분 거리의 전체 표상 외삽(extrapolation) 등 이론적 대안도 존재함.

다중 양상 정렬을 위한 인드라 표상 가설 [pdf]

1. 서론 (Introduction)

2. 사전 지식 (Preliminaries)

3. 방법론 (Methodology)

4. 실험 (Experiments)

5. 관련 연구 (Related Work)

6. 결론 및 한계점 (Conclusion)

댓글