KPI뉴스 - 아마존, 세계 최대 음성 데이터 세트 공개

  • 구름많음의성21.1℃
  • 흐림산청19.7℃
  • 맑음속초18.6℃
  • 흐림임실20.5℃
  • 흐림성산20.7℃
  • 맑음대관령13.9℃
  • 흐림군산21.3℃
  • 맑음태백14.7℃
  • 구름많음인천23.1℃
  • 흐림서산21.9℃
  • 흐림서청주23.2℃
  • 흐림광주21.3℃
  • 흐림고창21.0℃
  • 구름많음청송군18.3℃
  • 흐림부여21.9℃
  • 구름많음봉화18.6℃
  • 흐림통영18.9℃
  • 흐림흑산도17.6℃
  • 구름많음춘천23.9℃
  • 흐림함양군20.4℃
  • 흐림동해17.8℃
  • 흐림목포20.4℃
  • 구름많음청주24.7℃
  • 구름많음홍천20.3℃
  • 흐림부안20.7℃
  • 흐림세종21.4℃
  • 구름많음이천23.5℃
  • 흐림강진군19.8℃
  • 흐림보령21.3℃
  • 구름많음수원23.8℃
  • 흐림북창원21.9℃
  • 흐림여수19.8℃
  • 흐림울진17.7℃
  • 흐림문경21.0℃
  • 구름많음영월21.5℃
  • 흐림진주19.2℃
  • 흐림밀양21.9℃
  • 흐림의령군20.7℃
  • 흐림거창20.3℃
  • 흐림정읍21.0℃
  • 흐림순창군20.7℃
  • 비울릉도16.9℃
  • 흐림전주22.0℃
  • 맑음양평24.6℃
  • 흐림광양시19.2℃
  • 흐림합천21.4℃
  • 흐림영광군20.5℃
  • 흐림부산19.3℃
  • 비서귀포20.0℃
  • 구름많음서울25.0℃
  • 구름많음제천22.4℃
  • 구름많음구미22.0℃
  • 흐림강릉18.6℃
  • 구름많음강화21.4℃
  • 구름많음상주21.6℃
  • 구름많음홍성22.8℃
  • 흐림철원22.5℃
  • 흐림북부산20.7℃
  • 흐림남해19.3℃
  • 비제주20.5℃
  • 흐림장수19.8℃
  • 맑음파주23.8℃
  • 흐림거제19.0℃
  • 흐림완도19.2℃
  • 흐림김해시20.6℃
  • 흐림포항19.5℃
  • 구름많음충주22.6℃
  • 흐림고창군21.4℃
  • 구름많음대구20.1℃
  • 흐림정선군18.3℃
  • 구름많음보은21.3℃
  • 흐림순천18.4℃
  • 구름많음영주20.8℃
  • 구름많음영덕18.0℃
  • 흐림창원19.9℃
  • 흐림고흥19.1℃
  • 구름많음영천19.2℃
  • 흐림동두천19.3℃
  • 흐림장흥20.1℃
  • 흐림경주시18.8℃
  • 흐림보성군20.0℃
  • 구름많음원주24.6℃
  • 흐림해남20.1℃
  • 맑음인제19.6℃
  • 구름많음추풍령19.3℃
  • 흐림양산시21.3℃
  • 흐림울산18.5℃
  • 맑음백령도19.9℃
  • 흐림북강릉17.8℃
  • 흐림금산22.0℃
  • 흐림진도군20.0℃
  • 흐림안동20.2℃
  • 흐림천안23.9℃
  • 구름많음대전22.8℃
  • 구름많음북춘천24.0℃
  • 흐림고산18.9℃
  • 흐림남원21.0℃

아마존, 세계 최대 음성 데이터 세트 공개

김들풀
기사승인 : 2019-04-03 09:24:49
9월 17일 '토피칼 챗(Topical Chat)' 공개
"410만개 단어, 21만건 주제별 채팅 데이터"

아마존이 400만 개 이상의 단어로 구성된 음성대화 데이터 세트 '토피칼 챗(Topical Chat)'을 일반에 공개할 예정이다.

아마존 수석 연구원인 딜렉 하카니-터(Dilek Hakkani-Tur)는 아마존 공식 블로그를 통해 "오는 9월 17일(현지시간) 일반에 공개할 '토피칼 챗'은 410만 단어 이상, 21만  건의 주제별 채팅 데이터로 구성되어 있다"고 밝혔다. 

 

▲ 인공지능 음성인식 알렉사가 내장된 제품들 [아마존]

'토피칼 챗'은 오는 9월 9일 아마존이 주최하는 대학생 대회 '알렉사 프리즈 소셜봇 그랜드 챌린지 3(Alexa Prize Socialbot Grand Challenge 3)'을 위해 개발된 것이다.

이 대회 출전팀은 '토피칼 챗'과 확장 데이터 세트(Extended Topical Chat Data Set)에 액세스할 수 있다.

'토피칼 챗'은 대회 직후 곧바로 공개될 예정이다.

딜렉 하카니-터는 "'토피칼 챗'은 아마존 알렉사 사용자와 상호작용이 아니라 크라우드(crowd) 작업자에서 제공된 지식"이라며, "토피칼 챗에 수록된 대화 주제와 지식은 비정형 구조의 데이터 세트다"고 설명했다.

이어 "'토피칼 챗'은 공개된 데이터 세트 중에서도 가장 큰 지식을 포함하고 있다. 지금까지 데이터 세트에서 해결할 수 없는 자연스러운 대화를 만들어 낼 수 있다"고 말했다.

KPI뉴스 / 김들풀 전문기자 itnews@kpinews.kr

 

[저작권자ⓒ KPI뉴스. 무단전재-재배포 금지]