플라톤적 표현 가설 [pdf]

텍스트, 이미지 등 다양한 모달리티와 각기 다른 구조 및 목표를 가진 인공지능 모델들이 크기와 성능이 스케일링(scaling)됨에 따라 점차 공유된 '현실의 통계적 모델'로 수렴하고 있다는 가설을 제시함.
이러한 표현적 수렴(representational convergence)은 시각 모델 간, 언어 모델 간의 단일 모달리티 내뿐만 아니라, 비전 모델과 대형 언어 모델(LLM) 사이, 나아가 생물학적 뇌의 지각 구조와도 점점 더 정렬(alignment)되는 경향을 보임.
다중 작업 학습 최적화(Multitask Scaling), 모델 용량(Model Capacity)의 거대화, 그리고 신경망 본연의 단순성 편향(Simplicity Bias)이 이와 같은 전역적 수렴 현상을 촉진하는 핵심 압력으로 작용함.
궁극적으로 인공지능 모델들은 관측 가능한 현상 너머에 존재하는 기저 세계의 사건 결합 분포(joint distribution)를 반영하는 이상적인 '플라톤적 표현(Platonic Representation)'을 복원해 나가고 있음을 수학적, 경험적으로 논증함.

서론 (Introduction)

인공지능 시스템이 아키텍처와 기능 측면에서 점점 더 균질화되는 진화 양상을 보이고 있음을 지적함.
- 과거에는 감정 분석, 번역 등 개별 작업마다 특수 목적의 솔루션을 구축했으나, 현대의 대형 언어 모델(LLM)은 단일 가중치 세트로 모든 작업을 처리함.
- GPT4-V, Gemini 등 최근 모델들은 텍스트와 이미지 등 이질적인 데이터 모달리티(modality)를 결합된 단일 아키텍처로 처리하는 형태로 통합되고 있음.
이 논문은 이러한 거시적 추세의 핵심 요소로서 '표현적 수렴(representational convergence)'을 제안함.
- 아키텍처나 훈련 목표, 데이터의 형태가 다름에도 불구하고, 데이터 포인트를 내부 표현 공간에서 나타내는 방식의 유사성이 점차 증가하고 있음.
- 현실 세계( $Z$ )에 대한 다양한 센서(이미지, 텍스트 등)의 측정값들이 결국 기저 세계의 통계적 투영이라는 점에서, 다양한 알고리즘이 하나의 통일된 '플라톤적 표현(platonic representation)'을 향해 정렬해 나간다고 가설을 설정함.
- 이는 훈련 데이터가 플라톤의 동굴 벽에 비친 그림자라면, 스케일링된 AI 모델들은 동굴 밖의 실제 현실을 복원하고 있다는 철학적 메타포에 해당함.

표현은 수렴하고 있다 (Representations are converging)

인공지능의 내부 표현(vector embeddings)을 두 데이터 포인트 간의 유사성을 유도하는 커널(kernel) 구조를 통해 특성화하고 평가함.
- 표현 간 정렬도를 측정하기 위해 CKA나 SVCCA 등 여러 방법 중 '상호 최단 이웃(mutual nearest-neighbor)' 메트릭을 채택하여 커널 간의 유사성을 정량화함.
각기 다른 아키텍처와 훈련 목표를 지닌 다양한 모델들이 동일하게 정렬된 표현을 형성함을 확인함.
- 모델 스티칭(model stitching) 연구 결과, ImageNet으로 훈련된 모델의 계층을 Places-365로 훈련된 모델의 계층과 성공적으로 호환할 수 있음이 밝혀짐.
- 지도 학습 모델과 자기 지도 학습(self-supervised) 모델 역시 긴밀하게 정렬됨.
모델의 규모(scale)가 커지고 성능이 향상될수록 이 수렴 현상은 더욱 강력해짐.
- 78개의 각기 다른 비전 모델을 VTAB 데이터셋 기반의 전이 성능으로 묶어 분석한 결과, 전이 학습 능력이 뛰어난 강한 모델들일수록 표현이 촘촘하게 군집되어 유사성이 커짐.
- "모든 강한 모델은 엇비슷하고, 약한 모델은 각자의 방식으로 약하다"는 이른바 '안나 카레니나 시나리오'를 뒷받침함.
모달리티를 가로지르는 크로스 모달(cross-modal) 수렴 현상이 증명됨.
- WIT(Wikipedia captions) 데이터셋을 활용해 시각 커널 $K_{img}$ 와 텍스트 커널 $K_{text}$ 의 정렬도를 계산함.
- 언어 모델의 예측 성능이 높을수록 비전 모델과의 정렬도가 선형적으로 상승하며, 반대로 비전 모델이 강력할수록 LLM과의 정렬도가 상승함을 확인시켜줌.
기계 학습 모델은 성능이 향상될수록 생물학적 뇌(인간의 지각 체계)와도 높은 정렬 수준을 나타냄.
- 모델이 인간의 지각 능력과 무관한 과제로 훈련되었더라도, 시각적 유사성을 판단하는 구조가 인간의 지각 메커니즘과 놀랍도록 일치함.
정렬도가 높아질수록 상식 추론(Hellaswag) 및 수학 문제 해결(GSM8K)과 같은 하위 작업(downstream task)에서의 성능 역시 뚜렷하게 예측 및 향상됨.

왜 표현은 수렴하는가? (Why are representations converging?)

훈련 데이터 수와 처리해야 할 작업(task)의 다양성이 증가할수록 제약 조건이 겹쳐지며, 이를 모두 만족하는 솔루션 공간이 필연적으로 축소됨(다중 작업 스케일링 가설).
- 극도로 방대한 인터넷 규모의 데이터와 대조 학습(Contrastive learning), 마스크된 자동 인코더(Masked Autoencoders) 같은 복잡한 최적화 목표는 모델이 실제 데이터 생성 프로세스 자체의 통계적 구조를 포착하도록 압박함.
모델 용량 증가가 글로벌 최적해 도달 확률을 높임(용량 가설).
- 동일한 훈련 목표에 대해 소규모 모델들은 국소적 최적점에 빠져 서로 다른 해결책을 찾을 수 있으나, 파라미터와 가설 공간이 거대한 대형 모델들은 공유된 최적점에 도달할 가능성이 기하급수적으로 커짐.
심층 신경망 본연의 단순성 편향(Simplicity Bias)이 복잡하고 특이한 표현 생성을 억제함.
- 오캄의 면도날(Occam's razor) 원칙에 따라, 모델 용량이 무한히 커지더라도 네트워크는 훈련 데이터를 설명하는 가장 '단순한' 함수로 수렴하도록 암시적인 정규화를 거침.

우리는 어떤 표현으로 수렴하고 있는가? (What representation are we converging to?)

세계 모델을 구성하는 이상적인 확률 분포 $\mathbb{P}(Z)$ $P (Z)$ 를 상정함.
- 시공간 상의 사건 $Z\triangleq[z_{1},...,z_{T}]$ 가 픽셀, 단어, 소리 등 다양한 결정론적, 전단사적(bijective) 측정 공간으로 변환된 것이 우리가 관측하는 모달리티라고 전제함.
노이즈 대조 추정(NCE)과 같은 대조 학습 알고리즘의 최적해는 관찰값들의 점별 상호 정보량(PMI, Pointwise Mutual Information)과 일치함.
- 데이터의 쌍을 학습하는 대조 학습의 손실 함수(Loss)가 최소화되는 내적 커널은 수식상 완벽히 $K_{PMI}(x_{a},x_{b})$ 로 유도됨.
- 따라서 모든 관찰 모달리티는 충분한 데이터와 최적화가 이루어진다면, 기저 $\mathbb{P}(Z)$ 의 통계적 관계를 포착한 단일 커널로 수렴해야 함.
실제 색상 인식에 대한 통계 실험을 통해 해당 가설을 뒷받침함.
- 인간의 인지적 색상 공간(CIELAB), CIFAR-10 이미지 데이터셋 내 픽셀 색상들의 공기(co-occurrence) 통계 공간, 그리고 텍스트 내에서 색상 단어들의 언어학적 공기 공간을 비교함.
- 비전과 텍스트 양쪽 모달리티에서 독립적으로 도출된 색상 표현 구조가 모두 인간의 지각적 구조와 매우 흡사하게 수렴하였음을 시각적 플롯으로 입증함.

수렴의 함의 (What are the implications of convergence?)

단순히 스케일링이 모든 것을 해결해 주지는 않으며 방법론에 따른 훈련 효율성은 다를 수 있으나, 일관적인 통계 모델 추정기로 기능해야 한다는 본질은 동일함.
교차 모달리티 훈련 데이터 공유가 가능해짐.
- 플라톤적 표현이 공통 분모라면 언어 훈련 데이터가 비전 모델의 성능 향상에 기여할 수 있고, 그 역방향의 지식 전이(transfer)도 이루어지게 됨.
이질적인 도메인 간의 적응 및 번역이 매우 쉬워짐.
- 표현 간 정렬이 확립되면 단순한 함수 변환이나 선형 프로젝션만으로도 복잡한 조건부 생성을 달성하거나, 명시적 쌍 데이터(paired data) 없이 비지도 번역을 원활히 달성할 수 있음.
스케일링의 심화가 모델의 환각(Hallucination) 및 악성 편향(Bias)을 줄이는 효과를 유도할 것으로 전망함.
- 모델의 내부 구조가 '데이터의 편향성' 자체를 있는 그대로 명확히 반영하게 될지언정, 환상적인 세계를 허위로 조작해 내는 에러는 축소될 것임.

반례 및 한계점 (Counterexamples and limitations)

모달리티 간 정보량 불일치로 인한 불완전한 정렬 한계를 지적함.
- 시각적 풍부함과 텍스트 서술의 한계(예: '개기 일식'의 무수한 디테일 vs 단어) 혹은 언어적 추상성과 시각화의 어려움(예: '자유 발언권'이라는 개념의 사진화) 사이에는 근본적인 정보량 격차가 존재함.
- 수학적 증명은 전단사 함수 매핑을 전제로 하였으나 현실 데이터는 손실 및 확률적 관측이 개입되며, 정보량이 일치하지 않으면 상호 정보량의 캡(cap)에 막혀 완벽한 정렬에 실패할 수 있음.
특수 목적 인공지능(Special-purpose intelligences)의 비수렴 가능성이 존재함.
- 자율 주행 차량의 차선 유지, 단백질 구조 예측과 같이 제한적이고 좁은 영역에 고도로 최적화된 모델들은 플라톤적 세계 구조를 학습하기보다, 연산과 효율을 위해 철저하게 분리된 '단축 경로(shortcuts)'만을 학습할 수 있음.
현재 모든 도메인의 인공지능 분야에서 수렴이 목격되는 것은 아님.
- 하드웨어 비용과 데이터 수집 속도의 병목이 존재하는 로봇 공학 등의 영역에서는 이미지나 텍스트처럼 보편적인 세계 상태 표현 체계가 여전히 요원한 상태임.
AI 시스템 개발 문화에 내포된 사회학적 편향(Sociological bias)이 수렴 착시를 일으켰을 수 있음.
- 연구자 집단이 의식적, 무의식적으로 '인간의 추론 방식'을 모방하려는 명시적 목표를 강제하거나 기존 아키텍처 관성(하드웨어 복권; hardware lottery)에 매몰되어 인위적인 수렴 방향성이 만들어졌을 한계 역시 배제할 수 없음.

서론 (Introduction)

표현은 수렴하고 있다 (Representations are converging)

왜 표현은 수렴하는가? (Why are representations converging?)

우리는 어떤 표현으로 수렴하고 있는가? (What representation are we converging to?)

수렴의 함의 (What are the implications of convergence?)

반례 및 한계점 (Counterexamples and limitations)

댓글