KPI뉴스 - 아마존, 세계 최대 음성 데이터 세트 공개

  • 구름많음영주22.9℃
  • 흐림산청19.8℃
  • 구름많음안동22.0℃
  • 구름많음보은23.1℃
  • 흐림고흥19.6℃
  • 구름많음인제22.2℃
  • 구름많음속초18.9℃
  • 맑음강화24.7℃
  • 흐림동해18.5℃
  • 흐림남해19.6℃
  • 흐림장흥19.9℃
  • 맑음춘천27.8℃
  • 구름많음천안26.0℃
  • 흐림광주21.8℃
  • 흐림양산시21.8℃
  • 흐림순창군22.0℃
  • 흐림강릉19.0℃
  • 구름많음보령22.4℃
  • 흐림울진18.0℃
  • 흐림울산19.4℃
  • 흐림추풍령21.5℃
  • 흐림진주20.2℃
  • 흐림강진군20.2℃
  • 구름많음영월24.5℃
  • 흐림완도19.8℃
  • 맑음서산24.1℃
  • 흐림의령군21.6℃
  • 흐림성산20.3℃
  • 흐림북창원22.3℃
  • 구름많음상주23.5℃
  • 구름많음의성22.9℃
  • 맑음동두천26.9℃
  • 맑음인천25.5℃
  • 흐림영광군21.2℃
  • 흐림보성군20.1℃
  • 흐림청송군20.6℃
  • 흐림통영19.5℃
  • 구름많음서청주24.8℃
  • 구름많음이천27.3℃
  • 맑음백령도21.1℃
  • 구름많음세종25.0℃
  • 맑음파주26.9℃
  • 구름많음구미22.9℃
  • 흐림고창군22.0℃
  • 흐림흑산도18.3℃
  • 흐림부안21.4℃
  • 흐림태백15.7℃
  • 구름많음수원26.1℃
  • 흐림청주25.9℃
  • 흐림금산22.5℃
  • 흐림목포20.9℃
  • 구름많음충주25.3℃
  • 흐림해남20.5℃
  • 흐림경주시20.4℃
  • 흐림거창21.0℃
  • 흐림장수21.3℃
  • 흐림제천23.6℃
  • 구름많음서울26.0℃
  • 흐림포항20.0℃
  • 흐림임실21.0℃
  • 비제주21.3℃
  • 흐림북강릉18.5℃
  • 구름많음대전24.2℃
  • 구름많음양평26.5℃
  • 흐림북부산21.5℃
  • 흐림남원21.8℃
  • 구름많음봉화20.7℃
  • 흐림전주22.8℃
  • 흐림광양시19.8℃
  • 흐림대구21.2℃
  • 흐림고산20.2℃
  • 흐림부산19.5℃
  • 흐림정읍22.1℃
  • 흐림합천22.2℃
  • 구름많음홍성25.3℃
  • 흐림창원20.3℃
  • 흐림순천18.7℃
  • 흐림여수19.6℃
  • 흐림거제19.0℃
  • 구름많음홍천25.4℃
  • 비서귀포20.6℃
  • 흐림밀양23.0℃
  • 흐림김해시21.1℃
  • 흐림영덕18.5℃
  • 흐림군산22.8℃
  • 맑음북춘천28.0℃
  • 흐림함양군21.1℃
  • 흐림정선군20.1℃
  • 흐림진도군20.4℃
  • 비울릉도17.7℃
  • 흐림원주25.9℃
  • 흐림대관령14.6℃
  • 구름많음문경23.3℃
  • 흐림고창21.5℃
  • 흐림영천20.3℃
  • 구름많음철원25.3℃
  • 구름많음부여24.0℃

아마존, 세계 최대 음성 데이터 세트 공개

김들풀
기사승인 : 2019-04-03 09:24:49
9월 17일 '토피칼 챗(Topical Chat)' 공개
"410만개 단어, 21만건 주제별 채팅 데이터"

아마존이 400만 개 이상의 단어로 구성된 음성대화 데이터 세트 '토피칼 챗(Topical Chat)'을 일반에 공개할 예정이다.

아마존 수석 연구원인 딜렉 하카니-터(Dilek Hakkani-Tur)는 아마존 공식 블로그를 통해 "오는 9월 17일(현지시간) 일반에 공개할 '토피칼 챗'은 410만 단어 이상, 21만  건의 주제별 채팅 데이터로 구성되어 있다"고 밝혔다. 

 

▲ 인공지능 음성인식 알렉사가 내장된 제품들 [아마존]

'토피칼 챗'은 오는 9월 9일 아마존이 주최하는 대학생 대회 '알렉사 프리즈 소셜봇 그랜드 챌린지 3(Alexa Prize Socialbot Grand Challenge 3)'을 위해 개발된 것이다.

이 대회 출전팀은 '토피칼 챗'과 확장 데이터 세트(Extended Topical Chat Data Set)에 액세스할 수 있다.

'토피칼 챗'은 대회 직후 곧바로 공개될 예정이다.

딜렉 하카니-터는 "'토피칼 챗'은 아마존 알렉사 사용자와 상호작용이 아니라 크라우드(crowd) 작업자에서 제공된 지식"이라며, "토피칼 챗에 수록된 대화 주제와 지식은 비정형 구조의 데이터 세트다"고 설명했다.

이어 "'토피칼 챗'은 공개된 데이터 세트 중에서도 가장 큰 지식을 포함하고 있다. 지금까지 데이터 세트에서 해결할 수 없는 자연스러운 대화를 만들어 낼 수 있다"고 말했다.

KPI뉴스 / 김들풀 전문기자 itnews@kpinews.kr

 

[저작권자ⓒ KPI뉴스. 무단전재-재배포 금지]