KPI뉴스 - 엔씨소프트-고려대, AI 대화 데이터셋 공개한다

  • 흐림장흥22.8℃
  • 맑음북강릉19.7℃
  • 흐림서귀포22.6℃
  • 흐림북창원23.7℃
  • 흐림의령군21.8℃
  • 맑음청송군18.6℃
  • 구름많음합천21.6℃
  • 구름많음전주22.0℃
  • 흐림김해시22.9℃
  • 맑음파주19.6℃
  • 구름많음거창20.4℃
  • 흐림영광군21.7℃
  • 맑음태백15.9℃
  • 구름많음흑산도20.1℃
  • 흐림양산시23.0℃
  • 흐림거제21.9℃
  • 맑음정선군17.8℃
  • 맑음보은19.9℃
  • 흐림광주23.1℃
  • 맑음포항22.7℃
  • 흐림강진군22.9℃
  • 맑음충주20.7℃
  • 맑음인제18.3℃
  • 흐림북부산22.6℃
  • 맑음북춘천20.0℃
  • 맑음부여21.3℃
  • 흐림성산21.6℃
  • 맑음속초20.6℃
  • 구름많음대구23.3℃
  • 맑음의성20.1℃
  • 맑음봉화18.1℃
  • 구름많음부안21.2℃
  • 맑음대관령13.9℃
  • 구름많음구미22.2℃
  • 맑음세종20.7℃
  • 흐림고산21.2℃
  • 구름많음산청21.5℃
  • 흐림광양시22.6℃
  • 구름많음임실20.6℃
  • 구름많음경주시21.5℃
  • 구름많음보령20.5℃
  • 맑음안동21.5℃
  • 맑음청주23.4℃
  • 흐림고흥21.6℃
  • 맑음서청주20.6℃
  • 흐림해남22.5℃
  • 흐림통영21.6℃
  • 맑음이천20.2℃
  • 맑음영주19.2℃
  • 흐림부산23.2℃
  • 흐림보성군23.0℃
  • 맑음강릉21.1℃
  • 맑음대전21.8℃
  • 맑음원주21.7℃
  • 구름많음추풍령19.8℃
  • 흐림창원22.2℃
  • 맑음상주21.5℃
  • 흐림여수22.8℃
  • 흐림진도군21.5℃
  • 맑음울진20.2℃
  • 맑음천안19.5℃
  • 흐림백령도20.4℃
  • 구름많음남원22.6℃
  • 흐림진주21.3℃
  • 맑음영덕18.7℃
  • 박무울릉도21.5℃
  • 구름많음밀양22.5℃
  • 맑음철원19.6℃
  • 구름많음장수20.9℃
  • 맑음강화20.3℃
  • 흐림순천21.2℃
  • 맑음문경19.8℃
  • 흐림제주22.1℃
  • 구름많음정읍21.3℃
  • 맑음동두천20.0℃
  • 구름많음함양군21.1℃
  • 구름많음울산21.7℃
  • 흐림완도22.4℃
  • 맑음양평21.0℃
  • 구름많음영천21.0℃
  • 맑음춘천20.0℃
  • 맑음영월18.8℃
  • 맑음수원20.2℃
  • 흐림고창21.7℃
  • 맑음인천22.2℃
  • 구름많음군산21.0℃
  • 맑음제천19.0℃
  • 맑음동해20.1℃
  • 흐림목포21.5℃
  • 맑음홍천19.8℃
  • 흐림남해22.2℃
  • 흐림고창군21.5℃
  • 맑음홍성20.8℃
  • 흐림순창군22.1℃
  • 맑음서울22.7℃
  • 구름많음금산22.3℃
  • 구름많음서산20.2℃

엔씨소프트-고려대, AI 대화 데이터셋 공개한다

김해욱
기사승인 : 2022-04-14 15:12:25
임희석 교수 연구팀과 공동연구 진행 엔씨소프트가 임희선 고려대학교 교수 연구팀과 공동으로 구축한 AI(인공지능) 대화 데이터 '포커스 데이터셋(FoCus Dataset, For Customized conversation dataset)을 공개했다고 14일 밝혔다.

포커스 데이터셋은 이용자 개인의 페르소나(지혜와 자유의사를 갖는 독립된 인격적 실체)와 외부 지식 모두를 활용하는 세계 최초의 AI 대화 데이터셋이다. 약 8000여 개의 주제를 다룬 1만5000개 이상의 대화로 구성됐다.

▲ 엔씨소프트와 임희석 고려대학교 교수 연구팀이 공동개발한 'FoCus Dataset'(For Customized conversation dataset)의 대화 방식 참고 이미지. [엔씨소프트 제공]

이 데이터셋이 적용된 AI는 대화하는 이용자의 경험, 선호, 소유, 흥미 등을 파악해 위키피디아와 같은 곳에서 이야기 중인 주제에 대해 최신 지식을 실시간으로 습득, 관련 대화가 자연스럽게 이어지도록 한다.

엔씨소프트는 "기존의 일반적인 대용량 언어모델은 학습, 추론에 상당한 비용이 소요됨에도 실시간 지식을 반영하는 것에 한계가 있다"며 "포커스데이터셋은 이러한 거대 언어 모델 없이도 같은 성능의 대화 기술 구현이 가능한 것이 특징"이라고 설명했다.

엔씨소프트와 고려대 공동연구팀은 지난 2월 인공지능 학회 'AAAI 2022'에 참가해 관련 연구 논물을 게재하고 발표한 바 있다. 올해  10월에는 세계 전사언어학회 'COLING 2022'에서 데이터 활용 경진 대회 등의 연구 성과를 공유하는 워크샵을 개최할 예정이다.

이연수 엔씨소프트 랭귀지 에이랩(Language AI Lab) 실장은 "최근 NLP(Language AI Lab) 학계에서는 비용 및 환경 문제로 초거대 언어모델 기반의 대화 기술에 필적할 대화 기술들이 제안되고 있다"며 "연구 방향에 공감하는 차원에서 이번 데이터 공개를 결정했고 글로벌 연구 커뮤니티에서 활발한 논의와 기술 개발이 이뤄지길 기대한다"고 말했다.

KPI뉴스 / 김해욱 기자 hwk1990@kpinews.kr

[저작권자ⓒ KPI뉴스. 무단전재-재배포 금지]

김해욱
김해욱

기자의 인기기사