AI-Hub

#음성 #환경

명령어 인식을 위한 소음 환경 데이터

분야한국어
유형 오디오

구축년도 : 2022 갱신년월 : 2024-01 조회수 : 8,135 다운로드 : 843 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용
1.2	2024-01-31	최종데이터 수정 개방
1.1	2023-11-03	데이터 최종 개방
1.0	2023-06-02	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2025-06-18	구축업체 정보수정
2024-01-12	산출물 전체 공개

소개

여러 화자가 발화하는 소음환경 또는 차량 내 소음환경에서 중심이 되는 화자의 명령어 음성 인식 및 성능 개선을 위한 인공지능 학습용 명령어 발화 데이터

구축목적

지하철, 카페, 차량, 공원, 공항 등 다양한 소음 환경에서 서비스되는 AI 인공지능 및 인공지능 비서, 녹취록 작성, 통역 등 음성인식이 활용될 수 있는 분야에 다양하게 활용될 수 있음.

메타데이터 구조표
데이터 영역	한국어	데이터 유형	오디오
데이터 형식	WAV	데이터 출처	크라우드 소싱을 통한 음성 수집
라벨링 유형	전사(음성)	라벨링 형식	json
데이터 활용 서비스	소음 환경에서 서비스되는 AI 음성인식	데이터 구축년도/ 데이터 구축량	2022년/4,021시간

1. 데이터 구축 규모

1. 데이터 구축 규모
구분	목표 시간	최종 구축량(시간)	비율
다화자 소음	2,500	2,905	72%
차량 소음	1,000	1,116	28%
합계	3,500	4,021	100%

2. 데이터 분포
◦ 출생지 분포

2. 데이터 분포◦ 출생지 분포
구분	최종 구축량(시간)	비율
서울/인천/경기	2,899	72%
대전/세종/충청/강원	376	9%
광주/전라/제주	359	9%
부산/대구/울산/경상	388	10%
합계	4,021	100%

◦ 성별 분포

2. 데이터 분포◦ 성별 분포
구분	최종 구축량(시간)	비율
남성	1,502	37%
여성	2,520	63%
합계	4,021	100%

◦ 연령대 분포

2. 데이터 분포◦ 연령대 분포
구분	최종 구축량(시간)	비율
청소년	864	21%
성인	2,413	60%
노년	744	18%
합계	4,021	100%

◦ 소음별 수집현황

2. 데이터 분포◦ 소음별 수집현황 다화자 소음 환경(시간)
다화자 소음 환경(시간)
구분	원거리	근거리
식당	166	62
카페	158	85
가정환경	207	34
편의점	240	152
대형몰	244	72
기차역	234	108
공원	228	93
헬스장	243	85
공항	130	85
병원	153	126
합계	2,003	902

2. 데이터 분포◦ 소음별 수집현황 차량 소음 환경(시간)
차량 소음 환경(시간)
속도	차량	차종				창문개폐		멀티미디어			동승자	기타소음
		경차	소형	중대형	승합차	열림	닫힘	방송/	음악	내비	1명	반려	경적음	공조
		경차	소형	중대형	승합차	열림	닫힘	영상	음악	내비	1명	동물	경적음	공조
저속	경차	1.71				0.47		0.21				0.52
	소형		282.2			19.55	2.37	98.96	34.41	15.68	19.9	56.27		85.09
	중대형			11.53			6.76			4.77
	승합차				218.29		209.39	1.28	0.74	1	1.01			1
중속	소형		0.16										0.15
중속	중대형			3.39			1.28	0.48		1.63
고속	경차	0.32					0.32
	소형		1.55					0.58		0.97
	중대형			452.01		1.05	133.03			315.27
	승합차				145.04		136.9	0.42	0.41	2.56
합계		2.03	283.91	466.93	363.33	21.07	490.05	101.93	35.56	341.88	20.91	56.79	0.15	86.09

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

◦ AI 모델 환경 설치 가이드
● GPU: 모델 활용 시 불필요 cpu 로 가능
● 컨테이너명 : nia14_espnet_model
● 포트 : 별도로 사용하는 포트 없음
● 데이터셋 디렉토리 도커 이미지에 포함

◦ 학습모델 선정

◦ 학습모델 선정
구분	1. Transformer	2. WAV2VEC	3. TDNN-LSTM
구조
주관 기관	NTT R&D	Facebook AI 리서치	Johns Hopkins University
모델 분류	end-to-end	end-to-end	전통적 조립형 모델과 end-to-end 모델의 혼합
툴킷 및 소스코드	espnet	wav2vec	Kaldi
성능지표	CER (Character Error Rate) 10% 이하
선정여부	O	X	X
선정사유	데이터가 충분한 경우 다양한 소음 환경에서 효과적, 더 우수한 성능 발휘

◦ 모델 결과값 의미
● SPKR: 화자
● # Snt : 해당 화자가 발화한 문장 수
● # Wrd 해당 화자가 발화한 글자 수
● Corr : 해당 발화자가 발화한 글자 중 음성 인식기 모델이 올바르게 인식한 비율(백분율)
● Sub: 해당 발화자가 발화한 글자 중 음성 인식기 모델이 다른 글자로 인식한 비율(백분율)
● Del: 해당 발화자가 발화한 글자 중 음성 인식기 모델이 삭제하여 인식한 비율(백분율)
● Ins: 해당 발화자가 발화하지 않았으나, 음성 인식기 모델이 인식한 글자의 비율(백분율)
● Err: 음성 인식기가 글자를 잘못 인식한 위 3 가지 유형 (Sub, Del, 의 비율의 합(백분율)
● S.Err 음성 인식기가 문장을 오인식한 비율(백분율, 한 글자라도 틀릴 경우 오인식으로 계산)

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	명령어 음성인식 정확도	Speech Recognition	ESPnet	CER	10 %	9.2 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

◦ 원시 데이터 및 원천 데이터 포맷
- 원시데이터 및 원천데이터는 음성(wave) 파일, wave(PCM) 데이터 포맷
- 표본추출률(sapmling rate): 16kHz
- 양자화(quantisation): 16bit
- 채널: Mono

◦ 원시 데이터 및 원천 데이터 포맷
대분류	중분류	소분류	설명
file	name		파일명
	length		파일 길이
	beginOfSpeech		발화 시작점
	endOfSpeech		발화 끝점
	speechLength		발화 길이
	samplingRate		샘플링 레이트
	bitRate		비트 레이트
	channel		채널 정보
speaker	id		발화자 번호
	age		발화자 나이
	gender		발화자 성별
	residence		발화자 출생지
	status		목상태
	mask		마스크 착용 유무
	recordingDevice		녹음 장치
noise	multipleSpeakersNoise	type	녹음 환경
		direction	소음 방향
		distance	소음원과의 거리
	carNoise	speed	주행 속도
		carType	차종
		windowOpen	창문 개폐여부
		multiMedia	멀티미디어
		otherNoise	기타 소음
		multipleSpeakers	동승자 소음
	level		노이즈 크기
command	scriptId		스크립트 번호
	commandId		텍스트 번호
	category		명령어 카테고리
	domain		명령어 도메인
	subDomain		명령어 세부 도메인
	text		명령어 텍스트
	emotion		감정
	qna		질문/답변
	qnaPair		질문/답변 쌍
	level		말소리 크기(dB)
	snr		신호대잡음비(dB)
	time		시간대

◦ Json 어노테이션 포맷 설명
{
"file" : {
"name" : "B-M0012F-M-t05dC-NUNUNU-M010083",
"length" : "5.63",

"beginOfSpeech" : "1.48",
"endOfSpeech" : "4.82",
"speechLength" : "3.34",
"samplingRate" : "16kHz",
"bitRate" : "16 bit",
"channel " : "Mono"
},
"speaker" : {
"id" : "M0012",
"age" : "성인",
"gender" : "여",
"residence" : "서울/인천/경기",
"status" : "정상",
"mask" : "착용",
"recordingDevice" : "스마트폰"
},
"noise" : {
"multipleSpeakersNoise" : {
"type" : "대형몰",
"direction" : "후",
"distance" : "근거리"
},
"carNoise" : {
"speed" : "Null",
"carType" : "Null",
"windowOpen" : "Null",
"multiMedia" : "Null",
"otherNoise" : "Null",
"multipleSpeakers" : "Null"
},
"level" : "56db"
},
"command" : {
"scriptId" : "M01",
"commandId" : "0083",
"category" : "일반",
"domain" : "IoT",
"subDomain" : "ON/OFF",
"text" : "내가 티비를 켜고 싶은데 켜 놨어?",
"emotion" : "Null",
"qna" : "질문",
"qnaPair" : "Null",
"level" : "68db",
"snr" : "2db",
"time" : "15:59:01"
}
}

데이터셋 구축 담당자

수행기관(주관) : 비디

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
김용목	02-2025-4999	ymkim@bluedigm.com	데이터 수집, 가공, 라벨링

수행기관(참여)

수행기관(참여)
기관명	담당업무
미디어젠	데이터 설계, 모델링
메트릭스	데이터 수집, 정제, 검수
코리아퍼스텍	데이터 정제, 검수

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
김용목	02-2025-4999	ymkim@bluedigm.com

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의