KPI뉴스 - UNIST, 특정 단어에 돌변하는 AI '숨은 악성 명령' 잡아냈다

  • 구름많음광주28.5℃
  • 맑음영덕23.1℃
  • 구름많음태백24.0℃
  • 구름많음강릉24.2℃
  • 맑음의성31.8℃
  • 구름많음산청26.9℃
  • 구름많음목포26.9℃
  • 구름많음파주28.8℃
  • 구름많음강화26.6℃
  • 구름많음정선군29.1℃
  • 구름많음고흥24.9℃
  • 구름많음양평30.2℃
  • 맑음부여31.1℃
  • 구름많음북창원26.9℃
  • 맑음포항25.9℃
  • 구름많음보성군25.9℃
  • 구름많음고창27.5℃
  • 구름많음부안28.2℃
  • 맑음보은30.1℃
  • 구름많음백령도24.4℃
  • 구름많음울산24.8℃
  • 구름많음남해24.1℃
  • 흐림성산22.9℃
  • 구름많음통영25.2℃
  • 흐림제주24.7℃
  • 구름많음진주25.6℃
  • 구름많음속초23.2℃
  • 구름많음밀양27.7℃
  • 구름많음순창군27.5℃
  • 구름많음김해시25.5℃
  • 구름많음전주30.6℃
  • 구름많음여수24.4℃
  • 맑음구미32.1℃
  • 구름많음거창29.6℃
  • 구름많음이천30.1℃
  • 구름많음고창군27.0℃
  • 구름많음강진군25.9℃
  • 맑음천안29.9℃
  • 구름많음양산시27.0℃
  • 구름많음창원24.1℃
  • 구름많음제천29.0℃
  • 구름많음해남25.3℃
  • 맑음안동31.3℃
  • 구름많음수원28.2℃
  • 구름많음대구30.2℃
  • 구름많음장흥24.6℃
  • 구름많음원주30.2℃
  • 맑음울릉도23.8℃
  • 구름많음봉화27.9℃
  • 구름많음춘천31.1℃
  • 구름많음부산25.1℃
  • 구름많음동두천29.7℃
  • 흐림고산22.5℃
  • 구름많음서울30.2℃
  • 맑음보령28.3℃
  • 구름많음철원26.0℃
  • 구름많음홍성29.7℃
  • 맑음문경29.9℃
  • 구름많음영주28.5℃
  • 구름많음거제24.1℃
  • 구름많음장수27.6℃
  • 맑음서청주31.3℃
  • 구름많음북부산26.4℃
  • 맑음상주30.9℃
  • 구름많음영월31.3℃
  • 구름많음북춘천30.6℃
  • 구름많음충주30.7℃
  • 흐림완도26.5℃
  • 구름많음서산28.1℃
  • 구름많음영광군26.8℃
  • 구름많음순천24.3℃
  • 구름많음남원28.9℃
  • 맑음군산28.7℃
  • 구름많음동해23.4℃
  • 구름많음광양시25.8℃
  • 구름많음합천29.4℃
  • 흐림서귀포22.9℃
  • 맑음청송군28.5℃
  • 맑음청주32.3℃
  • 흐림인제25.7℃
  • 맑음추풍령29.1℃
  • 구름많음경주시26.8℃
  • 맑음세종32.0℃
  • 구름많음금산30.5℃
  • 구름많음홍천30.6℃
  • 구름많음함양군29.7℃
  • 구름많음진도군24.0℃
  • 흐림대관령19.7℃
  • 구름많음인천28.3℃
  • 구름많음의령군27.1℃
  • 구름많음영천27.6℃
  • 흐림북강릉23.4℃
  • 구름많음흑산도23.3℃
  • 구름많음임실28.5℃
  • 구름많음정읍27.8℃
  • 맑음대전31.5℃
  • 구름많음울진24.0℃

UNIST, 특정 단어에 돌변하는 AI '숨은 악성 명령' 잡아냈다

최재호 기자
기사승인 : 2026-03-30 10:42:18
국제 학회 Anti-BAD 챌린지 2위…LLM 백도어 공격 범용 방어법 제시
양자화·모델 병합 등 결합…생성·분류·다국어 전 과제서 효과 입증

AI(인공지능)는 보이지 않게 심어진 신호 하나로 위험한 답을 내놓기도 하는데, 울산과학기술원(UNIST) 연구진이 이런 숨은 조작을 걷어내는 해법으로 국제 무대에서 큰 성과를 거뒀다.

 

▲ 윗줄 왼쪽부터 UNIST 박새롬·윤성환 교수, 아랫줄은 하승범·윤지은·권기완 연구원 [울산과학기술원 제공]

 

UNIST는 산업공학과·인공지능대학원 박새롬 교수와 인공지능대학원·전기전자공학과 윤성환 교수 공동 연구팀이 23~25일 독일 뮌헨에서 열린 국제전기전자공학회(IEEE) 보안·신뢰 기계학습 학회(SaTML)의 '사후학습 대규모 언어모델 백도어 방어 챌린지'(Anti-BAD·Anti-Backdoor Challenge for Post Trained Large Language Models)'에서 2위를 차지했다고 30일 밝혔다.

 

연구팀은 생성, 분류, 다국어 등 서로 다른 과제에 두루 적용할 수 있는 범용 공격 완화 기법을 제시해 호평을 받았다.

 

보안·신뢰 기계학습 학회(SaTML)는 인공지능 보안 연구를 중심으로 열리는 IEEE 주관 국제 학술대회다. 올해로 4회째를 맞은 이 학회는 인공지능 모델을 위협하는 각종 공격과 이를 막는 방어 기술을 발표하고 논의하는 장으로 자리잡았다.

 

이번 연구에는 박새롬·윤성환 교수를 비롯해 윤지은(산업공학과 석박사통합과정), 권기완(산업공학과 석사과정), 하승범(인공지능대학원 석박사통합과정) 연구원이 참여했다.


백도어 공격은 인공지능 모델이 특정 결과를 내놓도록 몰래 심는 조작 기법이다. 평소에는 정상적으로 작동하지만, 특정 단어나 문장 같은 '트리거'가 입력되면 의도된 반응을 보이도록 만드는 방식이다. 대규모 언어모델(LLM)처럼 복잡한 모델도 소수의 공격 데이터와 짧은 미세조정만으로 오염될 수 있어, 인공지능 안전성을 흔드는 대표적 위협으로 여겨진다.


이번 Anti-BAD 챌린지는 이처럼 서로 다른 목적에 맞춰 미세조정된 LLM에 숨어 있는 트리거의 영향을 최소화해, 공격받지 않은 것과 같은 안전한 모델을 확보하는 방어법을 겨루는 대회였다. 생성 과제 2개, 분류 과제 2개, 다국어 과제 2개가 제시됐고, 각 과제마다 3개씩의 LLM 모델이 주어졌다. 참가팀은 모델 구조와 과제 유형 전반을 아우를 수 있는 범용 방어 기법을 내놔야 했다.


UNIST 공동 연구팀의 핵심 기술은 '모델 양자화'(model quantization), '모델 병합'(model merging), '이상치 매개변수 탐지'(outlier parameter detection), '과신뢰 방지'(overconfidence mitigation)를 결합한 전략이다.


생성 과제에서는 같은 작업을 수행하는 모델이라도 백도어가 심어진 양상이 서로 달랐다. 연구팀은 먼저 모델 양자화 과정에서 생기는 미세한 흔들림으로 숨어 있던 백도어 신호를 흐트러뜨렸다. 이어 여러 모델이 공통적으로 유지하는 정보만 남기는 합의 기반 모델 병합 기법을 적용해 악의적 반응을 약화시켰다.


분류와 다국어 과제에서는 접근법을 달리했다. 정상적으로 학습된 모델과 백도어가 삽입된 모델을 비교해 비정상적으로 바뀐 부분을 찾아 영향력을 줄였다. 여기에 입력 데이터에서 수상한 단어를 걸러내고, 모델이 틀린 답에도 지나치게 확신하지 않도록 조정하는 절차를 더해 빠르면서도 효과적으로 백도어를 완화했다.


대회에 참여한 윤지은 연구원은 "공격 데이터셋이나 방법에 대한 아무런 사전 정보 없이 최소한의 접근만으로도 대규모 언어모델의 악의적 사용을 효과적으로 막을 수 있는 방어법을 개발할 수 있다는 가능성을 확인한 기회였다"고 전했다.

 

이어 "이번 성과를 발판으로 인공지능 모델이 국민들에게 배포되기 전 악의적인 행동을 사전에 차단하고, 안전하고 믿을 수 있는 인공지능 사용 환경을 만드는 데 힘을 보태겠다"고 덧붙였다. 

 

KPI뉴스 / 최재호 기자 choijh1992@kpinews.kr  

[저작권자ⓒ KPI뉴스. 무단전재-재배포 금지]