Loading...

소개

필요성

  • 최근 대화형 AI 서비스의 글로벌 경쟁이 치열함에 따라 국내 산업체 지원을 위한 AI학습용 대화형 자유발화 음성DB 구축 시급
  • 구글, 바이두 등 해외 경쟁업체는 수천~수만시간의 대용량 음성데이터를 AI 기술 개발에 활용하고 있으나 국내에서는 수십~백시간 수준의 소규모 데이터 구축으로 한정되어 AI 기술개발에 제약이 되고 있음
  • 본 DB 활용을 통해 국가 간 사활을 걸고 있는 AI 분야 대화형 음성인식 기술경쟁 우위 확보 및 新서비스 창출로 글로벌 시장 점유 확대 및 AI비서, 외국어교육, 동시통역 등 AI 기반 음성인식 사용성의 획기적 개선으로 장애인, 다문화가족을 비롯한 일반 국민의 편익 향상이 기대됨

구축내용

  • 대화형 음성인식 성능 개선을 위한 음향모델(Acoustic Modeling)용 한국어 자유발화 음성데이터 구축
  • 조용한 환경에서 2,000여명이 발성한 한국어 대화음성 1,000시간 구축
  • 두 사람이 다양한 주제(예: 일상, 쇼핑, 정치, 경제, 날씨, 취미 등)로 자유롭게 대화하는 음성을 녹음하고 발성내용을 ERTI전사규칙(예: 간투사, 머뭇거림 등)에 따라 철자전사
데이터 종류구축수량포함 내용제공 방식
안부 일상 대화자기소개날씨계절
거주지 정보황사/미세먼지
이성친구혹서기/혹한기
학교생활장마/폭설
회사생활온도
기념일눈/비/안개 등
쇼핑의류취미사진
전자기기여행
생활용품음식(맛집)
악기 등
TV예능운동
드라마전시회
영화공연
연예인블로그
시사음악
정치 경제정치스포츠
부동산게임
주식자동차
전공전공(이과/문과)

<한국어 음성 분야 대화 주제 표 예시>

데이터 구조

  • 발화 단위로 세그멘테이션된 음성파일(포맷: 16kHz/16bits, headerless (little endian) linear PCM)과 전사파일(포맷: EUC-KR)로 구성
    • - [그림 1] 데이터처리, [그림 2] 자유 발화 녹음 장면
  • 발화단위는 long pause 단위로, 1개 발화에는 복수 개의 문장으로 구성됨
    • - [그림 3] 음성 검사 프로그램
  • 구축DB의 크기는 총 123GB이며, 41개의 폴더에 3GB씩 음성/전사 파일을 할당함

<한국어 음성 음성데이터 분석 이미지 예시>

데이터 활용 예

  • 인공지능 기반 대국민 민원서비스(예: 음성 챗봇 기반 민원상담 콜센터, 다국어 자동 자막 방송, 검찰/대법원 속기록 작성) 개선
  • AI 비서, 대화로봇, 동시통역, AI 튜터 등 대화형 음성인식 기술 개발
  • 금융 및 보험 등 서비스 자동화, 스마트폰 응용서비스, 지능형 홈, IoT 서비스 등 음성기반 인공지능서비스 구현
  • 청각장애인을 위한 방송 자동자막화, 신체장애자를 위한 음성명령 등 장애인을 위한 음성인터페이스 개발
  • 고령화에 따른 독거노인 대화 서비스, 경찰, 소방관 등 정신노동자 상담 등 감성형 대화 음성지능 서비스

데이터셋 다운로드

한국어 음성분야 다운로드

샘플데이터 다운로드 페이지