AI-Hub

#자연어 #음성

한국어 아동 음성 데이터

분야한국어
유형 오디오

구축년도 : 2021 갱신년월 : 2023-05 조회수 : 6,867 다운로드 : 379 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

데이터 토론 문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2023-05-19	원천데이터 추가 개방
1.0	2022-07-29	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2022-10-13	신규 샘플데이터 개방
2022-07-29	콘텐츠 최초 등록

소개

고품질 한국어 아동 음성 데이터 구축 및 개방으로 아동 교육 분야 지능화 혁신을 추구

구축목적

아동의 낭독 발화 음성을 수집하여 상대적으로 낮은 아동 음성 인식률 향상 시키고, 아동의 교육 및 학습에 활용 할 수 있는 인공지능 학습용 아동 음성 데이터 구축

메타데이터 구조표
데이터 영역	한국어	데이터 유형	오디오
데이터 형식	wav	데이터 출처	미디어젠㈜
라벨링 유형	전사(음성)	라벨링 형식	JSON
데이터 활용 서비스	챗봇, 교육 APP	데이터 구축년도/ 데이터 구축량	2021년/5,000시간

1. 데이터 구축 규모

한국어 아동 음성 5000시간
정형 : 비정형 = 75% : 25%
저소음 : 소음 = 80% : 20%
비정형 : 독후감, 일기류, 자유주제 (약 50개의 주제 중 선택 하거나 스스로 주제를 만들어서 작성), 기타
대본: TXT 형식
음성데이터: Wave(PCM) 파일, 48kHz 또는 16kHz, 16bit, mono
전사 데이터 포맷: Json 형식

2. 데이터 분포

1. 데이터 구축 규모
구분		구축실적
한국어어 아동 음성 데이터	정형 데이터 (무소음)	2,750시간
	정형 데이터 (소 음)	1,000시간
	비정형 데이터 (무소음)	1,250시간

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드
1. 모델 적용 방안
- 인공지능 학습모델 선정 기준 및 고려사항
  - 본 AI 데이터는 STT 엔진 모델링에 활용되기 위한 것으로, 기존의 과제에서 구축된 데이터와 동일한 구조의 음성 데이터를 수집하여 활용함.
  - KALDI 기반의 STT 엔진에 활용 가능한 데이터 스펙으로 데이터 구축을 실시함.
- 모델 선정 절차
  - AI 모델에 대한 리서치 수행
  - 선행 연구 및 알고리즘 자료 검토
  - AI 모델에 대한 모델링 실시
  - AI 모델 성능 및 특성 분석
  - AI 모델 간 상호 비교 후 선정
- 모델 적합성 검토
  - AI 모델 선정 후보 및 적합성 검토
    
    [1] Karita, S., Chen, N., Hayashi, T., Hori, T., Inaguma, H., Jiang, Z., ... & Zhang, W. (2019, December). A comparative study on transformer vs rnn in speech applications. In 2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) (pp. 449-456). IEEE.
    [2] Xu, H., Li, K., Wang, Y., Wang, J., Kang, S., Chen, X., ... & Khudanpur, S. (2018, April). Neural network language modeling with letter-based features and importance sampling. In 2018 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 6109-6113). IEEE.
    [3] Xu, Q., Baevski, A., Likhomanenko, T., Tomasello, P., Conneau, A., Collobert, R., ... & Auli, M. (2020). Self-training and Pre-training are Complementary for Speech Recognition. arXiv preprint arXiv:2010.11430.
    [4] https://github.com/espnet/espnet
    [5] https://github.com/pytorch/fairseq/blob/f3b6f5817fbee59057ae2506f01502ea3c301b4b
    /examples/wav2vec/README.md
    [6] https://github.com/kaldi-asr/kaldi
    [7] https://paperswithcode.com/sota/speech-recognition-on-librispeech-test-clean
- 모델 선정
  - 선정 모델: TDNN-LSTM
  - 모델 선정 사유
    - 비교적 적은 훈련 데이터로도 유사 성능을 낼 수 있으며, KALDI 툴킷을 활용한 개발 숙련도가 높다는 점을 고려하여 TDNN-LSTM 선택
2. 향후 활용 분야 및 활용 시나리오
- 다양한 유소아 응용서비스에 AI 기술 적용 가능
  
  (1) AI 스피커 아동 음성 인식 개선
  – 아이의 부정확한 발음에도 잘 인식 되도록 아동 음성 인식 개선
  ◦주요 특징
  – 영유아 음성 인식의 정확도 향상
  – 유아층이 많이 발화 하는 언어구조 적용
  ◦ 주요 기능
  – 음성 명령어로 특정 대상에게 전화 걸기 (ex, 아빠한테 전화 걸어줘)
  – 명령어로 인물, 사물, 시간 별 사진 보기 (ex, 엄마 사진 보여줘)
  – 음성 명령어로 노래, 동영상 재생 (ex, 핑크퐁 악어 상어 틀어줘)
  (2) 엘리베이터 음성 제어
  – 버튼에 손이 닿지 않는 아이들이 음성으로 엘리베이터 제어 및 방연 안전 기대
  ◦ 주요 기능
  – 음성 명령어로 엘리베이터 제어 (ex, 7층으로 가줘)

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	한국어 아동 음성인식	Speech Recognition	TDNN-LSTM(Time-Delay Neural Network LSTM) 모델	CER	10 %	5.78 %
2	한국어 아동 음성인식	Speech Recognition	TDNN-LSTM(Time-Delay Neural Network LSTM) 모델	WER	20 %	14.15 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

1. 메타데이터

1. 메타데이터
구분		메타데이터 항목명	타입	설명	비고
1		Basic	Object	기본정보
	1.1	Language	String	언어	KOR
	1.2	Version	String	버전
	1.3	ApplicationCategory	String	응용 분야
	1.4	NumberOfSpeaker	String	발성화자 수
	1.5	NumberOfUtterance	String	발화 수
	1.6	DataCategory	String	DB종류	정형/비정형
	1.7	RecordingDate	String	녹음날짜
	1.8	FillingDate	String	수정날짜
	1.9	RevisionHistory	String	수정기록
	1.1	Distributer	String	수행기관
2		Wav	Object	음성정보
	2.1	SamplingRate	String	주파수	16000
	2.2	NumberOfBit	String	비트 수
	2.3	ByteOrder	String	바이트정보
	2.4	EncodingLaw	String	인코딩방식
	2.5	NumberOfChannel	String	채널 수
	2.6	SignalToNoiseRatio	String	SNR
3		Transcription	Object	전사정보
	3.1	LableText	String	텍스트전사
	3.2	ErrorTagged	String	오류 태깅
	3.2	GrammaticalError	String	문법오류
4		Speaker	Object	화자 정보
	4.1	SpeakerName	String	화자 이름
	4.2	Gender	String	성별
	4.3	Age	String	나이
	4.4	AgeGroup	String	연령층
	4.5	SchoolYear	String	학년
	4.6	Region	String	지역
	4.7	Dialect	String	방언
5		Environment	object	환경 정보
	5.1	RecordingEnviron	String	녹음 환경
	5.2	NoiseEnviron	String	노이즈 환경
	5.3	RecordingDevices	String	녹음 장치
6		File	object	파일 정보
	6.1	FileCategory	String	파일 종류
	6.2	FileName	String	파일 이름
	6.3	DirectoryPath	String	파일 위치
	6.4	HeaderSize	String	헤더 크기
	6.5	FileLength	String	파일 길이	녹음파일 길이
	6.5	FileLength	String	파일 길이	단위 : 초
	6.6	FileFormat	String	파일 포맷
	6.7	NumberOfRepeat	String	반복 차수
	6.8	TimeInterval	String	녹음 주기
	6.9	Distance	String	녹음 거리
7		Other	object	기타 정보
	7.1	QualityStatus	String	품질상태
	7.2	IncName	String	인명
8		Miscellaneous_Info	object	추가 정보
	8.1	SpeechStart	String	음성 시작 시간
	8.2	SpeechEnd	String	음성 끝 시간

2. 라벨링데이터 실제예시

[json 형식 샘플 – 어노테이션 정보]

데이터셋 구축 담당자

수행기관(주관) : 미디어젠㈜

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
양형원 팀장	02-6429-7144	hyung8758@mediazen.co.kr	· 데이터 구축 · AI 모델링

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜비디	· 공정관리

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
양형원 팀장	02-6429-7144	hyung8758@mediazen.co.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의