KPI뉴스 - UNIST 윤성환 교수팀, '멀티모달 AI' 수학적 원리 규명

  • 맑음영천17.3℃
  • 구름많음정선군15.2℃
  • 맑음울릉도19.1℃
  • 구름많음속초18.8℃
  • 구름많음울산19.0℃
  • 맑음완도18.5℃
  • 구름많음청주23.1℃
  • 맑음구미20.9℃
  • 구름많음태백13.8℃
  • 맑음합천20.4℃
  • 맑음창원18.9℃
  • 구름많음군산21.6℃
  • 맑음충주20.1℃
  • 맑음수원20.1℃
  • 맑음김해시19.2℃
  • 구름많음북춘천19.3℃
  • 맑음고흥18.7℃
  • 맑음파주18.6℃
  • 맑음순창군20.2℃
  • 맑음서울22.0℃
  • 맑음성산19.5℃
  • 맑음거창19.5℃
  • 구름많음대전22.2℃
  • 맑음청송군14.5℃
  • 맑음거제17.8℃
  • 구름많음세종20.9℃
  • 맑음고산19.7℃
  • 맑음동두천18.2℃
  • 맑음서귀포19.9℃
  • 맑음장수18.9℃
  • 맑음봉화14.3℃
  • 맑음남원20.5℃
  • 구름많음서청주20.5℃
  • 구름많음제천18.0℃
  • 구름많음인제16.3℃
  • 맑음고창군20.4℃
  • 맑음보성군20.1℃
  • 구름많음영월18.2℃
  • 맑음순천19.8℃
  • 맑음해남18.4℃
  • 구름많음추풍령17.7℃
  • 구름많음경주시17.3℃
  • 맑음남해18.5℃
  • 구름많음동해17.3℃
  • 맑음보령20.5℃
  • 안개백령도19.0℃
  • 맑음광주22.5℃
  • 맑음목포20.3℃
  • 안개흑산도18.6℃
  • 맑음이천20.5℃
  • 맑음광양시20.6℃
  • 맑음북창원20.0℃
  • 구름많음북강릉16.8℃
  • 구름많음양산시18.7℃
  • 맑음금산20.7℃
  • 맑음홍성20.7℃
  • 맑음강진군19.3℃
  • 맑음상주19.3℃
  • 구름많음부안21.2℃
  • 박무인천21.7℃
  • 맑음부산19.9℃
  • 맑음서산20.1℃
  • 맑음강화21.1℃
  • 구름많음전주22.3℃
  • 맑음철원18.7℃
  • 맑음영주16.5℃
  • 구름많음영덕16.4℃
  • 구름많음포항19.2℃
  • 맑음대관령11.0℃
  • 구름많음임실19.8℃
  • 맑음고창19.8℃
  • 구름많음진주19.1℃
  • 맑음통영18.9℃
  • 맑음안동19.2℃
  • 구름많음보은18.4℃
  • 맑음함양군19.4℃
  • 맑음장흥19.3℃
  • 맑음영광군19.7℃
  • 맑음홍천19.5℃
  • 맑음원주21.9℃
  • 맑음제주21.4℃
  • 맑음진도군17.8℃
  • 맑음대구19.6℃
  • 맑음강릉18.4℃
  • 맑음부여19.9℃
  • 맑음산청19.3℃
  • 맑음북부산18.2℃
  • 구름많음울진17.6℃
  • 박무여수21.5℃
  • 맑음의령군19.0℃
  • 구름많음정읍21.4℃
  • 맑음춘천19.2℃
  • 구름많음천안18.7℃
  • 맑음양평20.9℃
  • 맑음의성16.4℃
  • 맑음문경18.2℃
  • 맑음밀양19.2℃

UNIST 윤성환 교수팀, '멀티모달 AI' 수학적 원리 규명

최재호 기자
기사승인 : 2026-06-28 22:58:09
세계 3대 인공지능학회 ICML 논문 채택…"강건한 AI 설계 기초"

이미지나 소리, 텍스트 등 다양한 형태의 데이터를 함께 학습하는 멀티모달 AI가 왜 한 종류의 데이터만 학습한 AI보다 더 정확하고 안정적인지, 수학적으로 설명됐다.

 

▲ 연구진 사진. 윤성환 교수(좌측)와 이재준 연구원.

 

28일 울산과학기술원(UNIST)에 따르면 인공지능대학원 윤성환 교수팀은 멀티모달 인공지능이 단일모달 인공지능보다 더 좋은 성능을 내는 원리를 '손실 지형'의 평탄화 관점에서 규명했다.

 

멀티모달 학습은 이미지·음성·텍스트처럼 서로 다른 '모달리티'의 데이터를 함께 활용해 AI가 같은 대상이나 상황을 더 잘 이해하도록 하는 학습 방식이다. 일반적으로 단일모달 학습보다 성능이 뛰어나다고 알려졌지만, 그 이유를 실제 딥러닝 학습 과정과 연결해 설명하는 이론적 근거는 부족했다.


음성이나 이미지와 같은 여러 모달리티의 데이터를 함께 학습하는 경우 손실 지형이 더 평탄해져 학습 과정에서 배우지 못한 상황에 대응하는 능력인 '강건성'이 향상된다.


손실 지형은 AI가 학습 과정에서 겪는 오차와 모델 내부 설정값들의 관계를 산과 골짜기 같은 공간으로 나타낸 개념인데, 넓고 완만하면 경험하지 못한 새로운 데이터가 들어와도 성능을 안정적으로 유지하기 쉽다.


연구팀은 손실 지형이 평탄화되는 이유를 서로 다른 데이터가 오차의 거친 변화를 평균 내듯 완화하는 수학적 '합성곱 스무딩 효과'로 설명했다. 이미지 하나만 보고 학습할 때 생기는 뾰족한 오차 변화가 음성이나 문장 정보와 함께 학습되면서 눌리고 퍼지는 것이다.

 

▲ 연구 그림. 다양한 형태의 데이터를 함께 학습할 때 나타나는 '합성곱 스무딩' 효과 개념도. [유니스트 제공]

 

이 같은 증명을 기반으로 멀티모달 학습 성능을 더 높일 수 있는 새로운 학습법인 '분포 기반 멀티모달 학습'(DML, Distributional Multimodal Learning)도 제안했다. 

 

기존 멀티모달 학습은 이미지 하나와 그에 정확히 대응하는 음성이나 문장 하나를 고정된 쌍으로 묶어 학습하는 반면, DML은 같은 정답 범주 안에서 서로 다른 모달리티의 데이터를 무작위로 다시 짝짓는 방식이다. 이 방식이 학습 데이터 조합을 훨씬 다양하게 만들면서, 평탄화 효과가 극대화된다.


여러 종류의 멀티모달 실험용 데이터셋에서 DML의 성능을 검증한 결과, DML은 기존처럼 정해진 데이터 쌍만 학습하는 방식보다 분류 정확도가 높았다. 또 사진을 보고 맞는 설명문을 찾거나, 설명문을 읽고 맞는 사진을 찾는 실험에서도 더 많이 정답을 맞혔다.


이번 연구에는 UNIST 인공지능대학원 이재준 연구원이 제1저자로 참여했다. 연구팀은 "이번 연구는 멀티모달 AI가 왜 더 강건하게 일반화될 수 있는지에 대한 이론적 근거와 그 근거를 좀 더 활용한 단순하지만 효율적인 새로운 멀티모달 샘플링 학습 방법을 제시했다"고 설명했다.


연구팀은 "향후 데이터를 보다 효율적으로 활용하면서도, 외부 노이즈나 교란에도 흔들림 없이 안정적으로 작동하는 강건한 AI를 설계하는 중요한 기반 기술이 될 것"이라고 강조했다.


이번 연구는 인공지능 분야 세계 최고 권위의 국제 학술대회인 국제 머신러닝 학회 (ICML 2026)에서 발표될 예정이다. 올해 ICML은 다음 달 6일부터 서울에서 열린다. 

 

연구 수행은 과기정통부·한국연구재단(NRF)의 지원을 받는 '중견연구사업'과 과기정통부·정보통신기획평가원의 지원을 받는 '초거대산업AI연구지원(R&D)사업' '인공지능대학원지원사업' 'AI 스타펠로우십사업' '지역지능화혁신인재양성사업' 등의 지원을 받아 이뤄졌다. 

 

KPI뉴스 / 최재호 기자 choijh1992@kpinews.kr 

[저작권자ⓒ KPI뉴스. 무단전재-재배포 금지]