AI-Hub

#자연어 #음성

화자 인식용 음성 데이터

분야한국어
유형 오디오

구축년도 : 2021 갱신년월 : 2022-07 조회수 : 7,621 다운로드 : 495 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

데이터 토론 문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2022-07-12	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2022-10-13	신규 샘플데이터 개방
2022-07-12	콘텐츠 최초 등록

소개

화자의 여러 발화 패턴으로부터 발화자를 구분할 수 있는 화자인식 인공지능을 훈련하기 위한 데이터셋

구축목적

발화자 개인화 서비스, 화자의 성별/나이대 기준 맞춤 응대 등 맞춤형 음성대화 서비스를 제공할 수 있는 AI 화자인식 기술 개발

메타데이터 구조표
데이터 영역	한국어	데이터 유형	오디오
데이터 형식	wav	데이터 출처	호칭어, 별명, 공통 명령형 문장, 문학과 비문학의 랜덤 문장
라벨링 유형	전사(음성)	라벨링 형식	JSON
데이터 활용 서비스	화자 구분 서비스	데이터 구축년도/ 데이터 구축량	2021년/7,345,994개

1. 데이터 구축 규모

3000명의 화자가 호출어 100개, 화자 공통 문장 70개, 랜덤 텍스트 음원 350개, 1개 공통 호출어와 화자 공통 문장이 연속된 발화 70개를 녹음하여 총 7,000시간의 음성 데이터 구축
호출어는 5가지 발화 스타일별 3회 반복 녹음
수집은 스튜디오 환경, 무소음 환경, 잡음 환경에서 균형있게 진행됨

2. 데이터 분포

1. 데이터 구축 규모
환경	지역	남			여
환경	지역	청년	일반	노년	청년	일반	노년
무소음	서울 / 인천 / 경기	63	284	74	43	215	63
	부산 / 대구 / 울산 / 경상	70	124	112	29	164	58
	광주 / 전라 / 제주	7	40	10	10	125	7
	대전 / 세종 / 충청 / 강원	2	69	0	6	135	6
소음	서울 / 인천 / 경기	30	251	60	36	233	86
	부산 / 대구 / 울산 / 경상	35	116	38	8	142	36
	광주 / 전라 / 제주	9	53	11	6	97	8
	대전 / 세종 / 충청 / 강원	18	70	11	9	111	37
스튜디오	서울 / 인천 / 경기	23	82	24	34	86	47

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드
1. 모델 적합성 검토
- AI 모델 선정 후보 (화자 인식 엔진)
  
  [1] Ding, S., Chen, T., Gong, X., Zha, W., & Wang, Z. (2020). Autospeech: Neural architecture search for speaker recognition. arXiv preprint arXiv:2005.03215.
  [2] Ravanelli, M., & Bengio, Y. (2018). Speech and speaker recognition from raw waveform with sincnet. arXiv preprint arXiv:1812.05920.
  [3] Snyder, D., Garcia-Romero, D., Sell, G., McCree, A., Povey, D., & Khudanpur, S. (2019, May). Speaker recognition for multi-speaker conversations using x-vectors. In ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 5796-5800). IEEE.
  [4] Tripathi, M., Singh, D., & Susan, S. (2020, October). Speaker Recognition using SincNet and X-Vector Fusion. In International Conference on Artificial Intelligence and Soft Computing (pp. 252-260). Springer, Cham.
  [5] Shi, Y., Zhou, J., Long, Y., Li, Y., & Mao, H. (2019). Addressing Text-Dependent Speaker Verification Using Singing Speech. Applied Sciences, 9(13), 2636.
  [6] https://github.com/VITA-Group/AutoSpeech
  [7] https://github.com/mravanelli/SincNet
  [8] https://kaldi-asr.org/models/m3
  [9] https://paperswithcode.com/task/speaker-recognition
2. 모델 선정 및 적용방안
- 모델 선정
  - 선정 모델: X-vectors
  - 모델 선정 사유
    - 경쟁 알고리즘에 비해 인식 성능이 좋으며, KALDI 툴킷을 활용한 개발 숙련도가 높다는 점을 고려하여, X-Vectors 선택
- X-vectors를 적용한 참여기관의 엔진 보유 기술
  - 호출어 인식 엔진 보유
    - 참여 기관의 AI 기술 보유 역량(미디어젠)
    - 손쉽게 데이터를 증강하여 훈련 데이터를 늘리고 모델의 강인함 개선

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	화자 인식률	Speech Recognition	X-vector	EER	8 %	2.88 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

1. 데이터 구성
대본
부릉아
유형	호출어
발화 스타일	느리게
성별	남
연령대	일반
거주지	서울/경기
언어사용	표준어
녹음환경	차량
녹음 파일

1. 데이터 구성

데이터 기본 포맷은 Wave(PCM) 파일과 json 파일이 쌍을 이룸
- Wave(PCM) 데이터 포맷 : 48kHz 또는 16kHz, 16bit, mono
- 실생활 노이즈가 그대로 반영된 학습용 AI 데이터 음성 파일
- json 데이터 포맷 : 일반 json 형식

2. 어노테이션 포맷

대분류	속성 표기	의미	타입	필수여부
Basic	Language	언어	String	Y
	Version	버전	String	Y
	ApplicationCategory	응용 분야	String
	NumberOfSpeaker	발성화자 수	String	Y
	NumberOfUtterance	발화 수	String	Y
	DataCategory	DB종류	String	Y
	RecordingDate	녹음날짜	String	Y
	FillingDate	수정날짜	String
	RevisionHistory	수정기록	String
	Distributor	수행기관	String	Y
Wav	SamplingRate	주파수	String	Y
	NumberOfBit	비트 수	String	Y
	ByteOrder	바이트정보	String
	EncodingLaw	인코딩방식	String	Y
	NumberOfChannel	채널 수	String	Y
	SignalToNoiseRatio	SNR	String	Y
Transcription	LabelText	텍스트 전사	String	Y
Transcription	LabelTextCode		String
Speaker	SpeakerName	화자 이름	String	Y
	Gender	성별	String	Y
	Age	나이	String	Y
	Region	거주지역	String	Y
	Dialect	방언	String	Y
	DomainPreference	도메인선호도	String	Y
	Experience	AI 사용 경험	String
	OwnedProduct	AI 장비 보유	String
	PreferredType	AI 유형 선호	String
Environment	RecordingEnviron	녹음 환경	String	Y
	NoiseEnviron	노이즈 환경	String
	SignalToNoiseRatio	신호대잡음비	String	Y
	RecordingDevice	녹음 장치	String	Y
	SpeakerStatus	발화자 상태	String	Y
	Mask	마스크 착용 여부	String	Y
	Style	발화스타일	String
File	FileCategory	파일 종류	String	Y
	FileName	파일 이름	String
	DirectoryPath	파일 위치	String
	HeaderSize	헤더 크기	String
	FileLength	파일 길이	String
	FileFormat	파일 포맷	String	Y
	NumberOfRepeat	반복 차수	String
	TimeInterval	호출어 위치	String
	Distance	녹음 거리	String
Other	QualityStatus	품질 상태	String	Y

3. 라벨링데이터 실제예시

[json 형식 샘플 – 어노테이션 정보]

데이터셋 구축 담당자

수행기관(주관) : 미디어젠㈜

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
윤종성 수석	02-6429-7100	jsyoon@mediazen.co.kr	· 데이터 구축 · AI 모델링

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜비디	· 공정관리
㈜메트릭스	· 데이터 구축, 검수
인천대학교	· 데이터 설계

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
윤종성 수석	02-6429-7100	jsyoon@mediazen.co.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의