AI-Hub

#자연어 #음성

숫자가 포함된 패턴 발화 데이터

분야한국어
유형 오디오 , 텍스트

구축년도 : 2021 갱신년월 : 2023-06 조회수 : 6,005 다운로드 : 648 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

데이터 토론 문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2023-06-28	라벨링데이터 수정
1.0	2022-07-12	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2022-07-12	콘텐츠 최초 등록

소개

본 데이터는 한자어, 고유어, 외래어 등의 숫자 읽기 다양성을 반영하여 84개의 카테고리로 구성된 10,000시간 이상의 음성데이터로 구성하였음. (스크립트 데이터 포함)

구축목적

다양한 환경의 발화 특성을 반영한 음성 데이터를 구축하여 음성인식 기반 AI서비스의 확대, 발전의 토대를 마련

메타데이터 구조표
데이터 영역	한국어	데이터 유형	오디오 , 텍스트
데이터 형식	PCM	데이터 출처	자체구축
라벨링 유형	내용요약(자연어)	라벨링 형식	JSON
데이터 활용 서비스	AICC, AI스피커, 음성인식 서비스	데이터 구축년도/ 데이터 구축량	2021년/음성데이터: 13,342시간 (묵음제외 11,842시간), 스크립트데이터 : 149,998건

1. 데이터 구축 규모

1. 데이터 구축 규모
데이터 구분		세부내역	구축규모
데이터셋	스크립트	세부항목 약 84개의 카테고리로 구성된 스크립트 데이터 구축	149,998건
데이터셋	음성	발화자, 발화 환경에 따른 864가지의 구축 환경을 통한 데이터 가공	13,342시간 (묵음제외 11,842시간)

2. 데이터 분포 : 고유어, 한자어, 외래어 읽기 특성에 따른 84가지 카테고리의 숫자 데이터 구축

읽기 특성	패턴	가짓수	스크립트수	발화시간(초)
한자어	통계/수치	8	17,100	5,233,261
	날짜/시간	5	11,300	3,447,005
	통화/금액	3	15,400	4,125,304
	교통정보	3	6,000	1,415,068
	나이/생년월일	2	5,500	1,674,635
	신분증번호	4	7,700	2,751,724
	주소/구역	5	9,000	2,852,654
	사이즈	2	3,600	1,091,626
	단위	7	7,500	2,709,001
	금융/은행	6	15,800	5,554,667
	주문정보	3	5,100	1,520,145
	헬스케어	3	3,300	1,218,988
	스포츠	5	1,500	512,193
	자동생성번호	3	5,400	1,901,728
	통신번호	5	8,998	3,205,763
	개인고유번호	3	2,700	917,338
	사업자번호	1	1,800	741,246
고유어/ 외래어	기수	12	19,900	6,470,781
	서수	2	1,200	336,003
	사투리	1	200	61,554
	외래어	1	1,000	292,196

3. 구축 환경 : 발화자, 녹음환경을 고려한 864가지의 환경을 통해 데이터 구축

구축기준	분류기준	구축비율
성별	남성 음성 발화 데이터	40%
성별	여성 음성 발화 데이터	60%
지역	수도권	76%
	경상도	6%
	전라도	6%
	충청도	6%
	강원도	5%
	제주도	1%
연령대	20대 미만	2%
	20대	15%
	30대	26%
	40대	27%
	50대	27%
	60대 이상	3%
녹음환경	클린환경 (~ 40dB)	15%
	일반환경 (41dB ~ 60dB)	75%
	소음환경 (61dB ~)	10%
녹음기기	휴대폰 마이크	72%
	유선 이어폰	13%
	무선 이어폰	13%
	AI스피커	2%

숫자가 포함된 패턴 발화 데이터-구축 환경_1_구축 기준별 참조 이미지
<구축 기준별 참조 이미지>

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

1. 개요

본 컨소시엄에서 보유하고 있는 BASE 음성인식엔진에 본 과제로 구축된 숫자가 포함된 패턴 발화 데이터를 학습하여 데이터 유효성 검증
(BASE 엔진 : 기보유하고 있는 10,000시간 음성데이터, 10GB의 스크립트 데이터를 통해 학습)

2. 모델 학습 및 검증 환경

1. 개요
유효성 검증 모델 학습 및 검증 조건
개발 언어	Python 2.7
프레임워크	Kaldi
학습 알고리즘	Hybrid HMM / DNN
	- Tri-phone을 사용한 음소 모델과 대응되는 HMM의 각 상태에 대한 확률 값을 DNN을 통해 계산
	- DNN 학습 시, 음성 특징 벡터를 입력 데이터로 사용하며, GMM-HMM 음성 인식기를 사용하여 forced-alignment 된 상태 열을 DNN의 출력 레이블 데이터로 사용
	- 본 개발에 사용되는 TDNN은, 여러 입력 노드를 묶어 다음 Layer로 전이하는 DNN 모델임
학습 조건	DNN (TDNN + LSTM) 학습 시
	- 10 epoch (예정)
	- batch size : 128
	- optimizer : Gradient descent optimizer
	- loss function : softmax
파일 형식	• 학습 데이터셋: pcm
파일 형식	• 평가 데이터셋: pcm
전체 구축 데이터 대비	수집된 숫자음 음성 DB 가운데 Validation DB (10,000 시간의 10%)
모델에 적용되는 비율	※ 유효성 검증은 구축된 데이터 전체를 적용하며, 변경이 필요한 경우 TTA 담당자와 협의한다.
모델 학습 과정별	- Training Set 80%를 이용하여 숫자음 서비스에 최적화된 음향, 언어모델 적응 학습
데이터 분류 및 비율 정보	수행
	- Validation Set 10%를 이용하여 적응학습 모델의 성능 검증

3. 숫자 대화 언어모델 학습
숫자가 포함된 패턴 발화 데이터-숫자 대화 언어모델 학습_1

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	음성인식	Speech Recognition	Hybrid HMM / DNN	CER	10 %	3.4 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

1. 데이터 포맷

유형별 데이터 포맷

1. 데이터 포맷
데이터 구분	데이터 유형	데이터 포맷	비고
라벨데이터	스크립트	JSON	스크립트 데이터를 전사하여 음성 데이터 구축
원천데이터	스크립트	txt
가공데이터	음성	pcm

2. 데이터 구성

라벨링 데이터

분류	순서	속성표기	속성명	속성 설명	데이터 타입	필수 여부
분류	순서	속성표기	속성명	속성 설명	데이터 타입	필수 여부
녹음발화정보	1	recordedID	녹음ID	녹음관리번호	String	O
	2	recordedDate	녹음일시	녹음한 날짜	String	O
	3	recordedStart	녹음시작시간	녹음 스타트 시간	String	O
	4	fileName	녹음파일명	녹음 음성파일명	String	O
	5	filePath	녹음파일위치	녹음 음성파일 위치	String	O
	6	recordedTime	녹음파일재생시간	녹음음성파일 재생시간(초단위)	Numeric	O
	7	recordQuality	음질	음성파일의 음질 구분	String	O
	8	recordedDevice	녹음 수집 디바이스	음성파일 녹음된 디바이스	String	O
	9	redcordedDeviceName	녹음 수집	음성파일 녹음 된	String	X
			디바이스	디바이스 회사명
			회사명
	10	recordedEnv	녹음 환경	구축된 데이터의 활용 용처별 구분을 위한 녹음 환경 구분	String	O
녹음자정보	11	collectedID	수집방법ID	크라우드소싱등 구분ID	String	O
	12	recorderID	녹음자ID	녹음자ID	String	O
	13	sex	성별	발화자의 성별	String	O
	14	generation	세대	발화자의 세대	String	O
	15	residence	거주지역	발화자의 거주지역(광역시, 도별)	String	O
	16	dialect	화자방언여부	발화자 음성의 사투리 여부	String	O
	17	dialectRegion	화자방언지역	발화자의 음성이 방언인 경우, 방언 지역	String	O
	18	areaInfomation	발화자의	이전 거주지역 과 부모님의 고향 정보	String	O
	18	areaInfomation	지역정보	이전 거주지역 과 부모님의 고향 정보	String	O

원천 데이터

분류	순서	속성표기	속성명	속성 설명	데이터 타입	필수 여부

녹음대화정보	1	scriptID	스크립트ID	스크립트ID	String	O

	2	scriptITN	음성파일 전사 TEXT(ITN표기)	영문/숫자를 영어와 아라비아 숫자 글자 그대로 표시	String	O
	3	scriptTN	음성파일 전사 TEXT(TN표기)	영문/숫자를 영어와 아라비아 숫자를 발음방법대로 표시	String	O
	4	scriptNumberWord	숫자가 포함된 단어	단어별 인식을 위한 추출	String	O
	5	patternTheme	패턴 주제	숫자포함 패턴 문장, 숫자의 패턴 주제별 다양성 구분	String	O

3. 실제 예시

라벨링 데이터
원천 데이터

데이터셋 구축 담당자

수행기관(주관) : 주식회사 케이티알파

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
지민호	02-3289-2602	mino.ji@kt.com	· 데이터 품질관리 및 이슈 대응

수행기관(참여)

수행기관(참여)
기관명	담당업무
주식회사 피플앤드테크놀러지	· 패턴발화 스크립트 구축 및 검수 · 스크립트 저작도구 개발
주식회사 딥네츄럴	· 음성데이터 구축 및 검수 · 크라우드워커 플랫폼 운영
주식회사 셀바스에이아이	· AI응용모델 개발 · 품질 유효성 검증

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의