KPI뉴스 - 아마존, 세계 최대 음성 데이터 세트 공개

  • 구름많음원주13.9℃
  • 흐림북강릉18.8℃
  • 흐림인천14.8℃
  • 구름많음영덕12.9℃
  • 구름많음양평12.9℃
  • 흐림영월11.0℃
  • 맑음거제12.2℃
  • 구름많음대전12.5℃
  • 맑음안동12.7℃
  • 맑음서귀포15.8℃
  • 흐림서산13.3℃
  • 흐림합천12.1℃
  • 흐림태백12.3℃
  • 흐림영천12.0℃
  • 흐림고창11.1℃
  • 구름많음백령도14.2℃
  • 흐림강화11.8℃
  • 구름많음여수13.7℃
  • 흐림동해17.1℃
  • 구름많음부안12.4℃
  • 흐림철원10.9℃
  • 구름많음보성군9.2℃
  • 구름많음순천8.0℃
  • 흐림흑산도11.6℃
  • 맑음고산13.9℃
  • 맑음김해시13.6℃
  • 구름많음금산10.0℃
  • 구름많음완도12.4℃
  • 구름많음장흥8.8℃
  • 맑음이천12.7℃
  • 맑음세종12.0℃
  • 흐림정읍12.5℃
  • 흐림영광군11.8℃
  • 맑음문경13.9℃
  • 맑음부산16.5℃
  • 맑음의성10.3℃
  • 흐림홍천12.4℃
  • 흐림목포14.4℃
  • 맑음청송군9.6℃
  • 맑음성산15.1℃
  • 흐림함양군10.1℃
  • 맑음제주14.2℃
  • 맑음통영13.8℃
  • 맑음추풍령11.2℃
  • 구름많음군산11.4℃
  • 구름많음광양시13.2℃
  • 흐림보령14.9℃
  • 흐림봉화8.6℃
  • 흐림동두천11.8℃
  • 구름많음진주10.1℃
  • 구름많음천안10.6℃
  • 맑음서청주11.3℃
  • 맑음해남8.5℃
  • 흐림임실9.6℃
  • 구름많음경주시12.4℃
  • 맑음청주15.6℃
  • 흐림산청10.9℃
  • 구름많음보은10.2℃
  • 구름많음부여9.5℃
  • 흐림제천10.2℃
  • 구름많음영주16.6℃
  • 구름많음홍성13.6℃
  • 구름많음구미13.1℃
  • 구름많음진도군10.2℃
  • 흐림대구15.7℃
  • 흐림남원11.7℃
  • 맑음울산13.6℃
  • 흐림속초19.0℃
  • 구름많음강진군10.0℃
  • 구름많음의령군10.3℃
  • 구름많음충주12.1℃
  • 흐림거창10.5℃
  • 맑음울릉도16.1℃
  • 맑음양산시11.9℃
  • 맑음창원13.4℃
  • 구름많음남해12.6℃
  • 맑음상주14.3℃
  • 구름많음장수9.6℃
  • 흐림춘천12.5℃
  • 맑음울진16.3℃
  • 흐림고창군11.5℃
  • 흐림대관령12.8℃
  • 맑음북창원14.2℃
  • 흐림파주10.3℃
  • 맑음밀양11.9℃
  • 흐림인제13.5℃
  • 흐림강릉20.5℃
  • 구름많음고흥8.8℃
  • 흐림광주14.6℃
  • 맑음수원13.6℃
  • 맑음북부산11.8℃
  • 흐림순창군11.5℃
  • 흐림정선군11.0℃
  • 구름많음서울15.1℃
  • 흐림전주12.8℃
  • 구름많음포항17.7℃
  • 흐림북춘천12.3℃

아마존, 세계 최대 음성 데이터 세트 공개

김들풀
기사승인 : 2019-04-03 09:24:49
9월 17일 '토피칼 챗(Topical Chat)' 공개
"410만개 단어, 21만건 주제별 채팅 데이터"

아마존이 400만 개 이상의 단어로 구성된 음성대화 데이터 세트 '토피칼 챗(Topical Chat)'을 일반에 공개할 예정이다.

아마존 수석 연구원인 딜렉 하카니-터(Dilek Hakkani-Tur)는 아마존 공식 블로그를 통해 "오는 9월 17일(현지시간) 일반에 공개할 '토피칼 챗'은 410만 단어 이상, 21만  건의 주제별 채팅 데이터로 구성되어 있다"고 밝혔다. 

 

▲ 인공지능 음성인식 알렉사가 내장된 제품들 [아마존]

'토피칼 챗'은 오는 9월 9일 아마존이 주최하는 대학생 대회 '알렉사 프리즈 소셜봇 그랜드 챌린지 3(Alexa Prize Socialbot Grand Challenge 3)'을 위해 개발된 것이다.

이 대회 출전팀은 '토피칼 챗'과 확장 데이터 세트(Extended Topical Chat Data Set)에 액세스할 수 있다.

'토피칼 챗'은 대회 직후 곧바로 공개될 예정이다.

딜렉 하카니-터는 "'토피칼 챗'은 아마존 알렉사 사용자와 상호작용이 아니라 크라우드(crowd) 작업자에서 제공된 지식"이라며, "토피칼 챗에 수록된 대화 주제와 지식은 비정형 구조의 데이터 세트다"고 설명했다.

이어 "'토피칼 챗'은 공개된 데이터 세트 중에서도 가장 큰 지식을 포함하고 있다. 지금까지 데이터 세트에서 해결할 수 없는 자연스러운 대화를 만들어 낼 수 있다"고 말했다.

KPI뉴스 / 김들풀 전문기자 itnews@kpinews.kr

 

[저작권자ⓒ KPI뉴스. 무단전재-재배포 금지]