콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어 #음성

화자 인식용 음성 데이터

화자 인식용 음성
  • 분야한국어
  • 유형 오디오
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 7,621 다운로드 : 495 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-12 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-10-13 신규 샘플데이터 개방
    2022-07-12 콘텐츠 최초 등록

    소개

    화자의 여러 발화 패턴으로부터 발화자를 구분할 수 있는 화자인식 인공지능을 훈련하기 위한 데이터셋

    구축목적

    발화자 개인화 서비스, 화자의 성별/나이대 기준 맞춤 응대 등 맞춤형 음성대화 서비스를 제공할 수 있는 AI 화자인식 기술 개발
  • 1. 데이터 구축 규모

    • 3000명의 화자가 호출어 100개, 화자 공통 문장 70개, 랜덤 텍스트 음원 350개, 1개 공통 호출어와 화자 공통 문장이 연속된 발화 70개를 녹음하여 총 7,000시간의 음성 데이터 구축
    • 호출어는 5가지 발화 스타일별 3회 반복 녹음
    • 수집은 스튜디오 환경, 무소음 환경, 잡음 환경에서 균형있게 진행됨

    2. 데이터 분포

    1. 데이터 구축 규모
    환경 지역
    청년 일반 노년 청년 일반 노년
    무소음 서울 / 인천 / 경기 63 284 74 43 215 63
    부산 / 대구 / 울산 / 경상 70 124 112 29 164 58
    광주 / 전라 / 제주 7 40 10 10 125 7
    대전 / 세종 / 충청 / 강원 2 69 0 6 135 6
    소음 서울 / 인천 / 경기 30 251 60 36 233 86
    부산 / 대구 / 울산 / 경상 35 116 38 8 142 36
    광주 / 전라 / 제주 9 53 11 6 97 8
    대전 / 세종 / 충청 / 강원 18 70 11 9 111 37
    스튜디오 서울 / 인천 / 경기 23 82 24 34 86 47

     

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. 모델 적합성 검토

    • AI 모델 선정 후보 (화자 인식 엔진)
      화자 인식용 음성-모델 적합성 검토_1_AI 모델 선정 후보 (화자 인식 엔진)
      [1] Ding, S., Chen, T., Gong, X., Zha, W., & Wang, Z. (2020). Autospeech: Neural architecture search for speaker recognition. arXiv preprint arXiv:2005.03215.
      [2] Ravanelli, M., & Bengio, Y. (2018). Speech and speaker recognition from raw waveform with sincnet. arXiv preprint arXiv:1812.05920.
      [3] Snyder, D., Garcia-Romero, D., Sell, G., McCree, A., Povey, D., & Khudanpur, S. (2019, May). Speaker recognition for multi-speaker conversations using x-vectors. In ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 5796-5800). IEEE.
      [4] Tripathi, M., Singh, D., & Susan, S. (2020, October). Speaker Recognition using SincNet and X-Vector Fusion. In International Conference on Artificial Intelligence and Soft Computing (pp. 252-260). Springer, Cham.
      [5] Shi, Y., Zhou, J., Long, Y., Li, Y., & Mao, H. (2019). Addressing Text-Dependent Speaker Verification Using Singing Speech. Applied Sciences, 9(13), 2636.
      [6] https://github.com/VITA-Group/AutoSpeech
      [7] https://github.com/mravanelli/SincNet
      [8] https://kaldi-asr.org/models/m3
      [9] https://paperswithcode.com/task/speaker-recognition

    2. 모델 선정 및 적용방안

    • 모델 선정
      • 선정 모델: X-vectors
      • 모델 선정 사유
        • 경쟁 알고리즘에 비해 인식 성능이 좋으며, KALDI 툴킷을 활용한 개발 숙련도가 높다는 점을 고려하여, X-Vectors 선택
          화자 인식용 음성-모델 선정 및 적용방안_1_모델 선정 사유
    • X-vectors를 적용한 참여기관의 엔진 보유 기술
      • 호출어 인식 엔진 보유 
        • 참여 기관의 AI 기술 보유 역량(미디어젠)
          화자 인식용 음성-모델 선정 및 적용방안_2_참여 기관의 AI 기술 보유 역량(미디어젠)
        • 손쉽게 데이터를 증강하여 훈련 데이터를 늘리고 모델의 강인함 개선
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 화자 인식률 Speech Recognition X-vector EER 8 % 2.88 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

     

    1. 데이터 구성
    대본
    부릉아
    유형 호출어
    발화 스타일 느리게
    성별
    연령대 일반
    거주지 서울/경기
    언어사용 표준어
    녹음환경 차량
    녹음 파일
    화자 인식용 음성-녹음파일_1

     

    1. 데이터 구성

    • 데이터 기본 포맷은 Wave(PCM) 파일과 json 파일이 쌍을 이룸  
      • Wave(PCM) 데이터 포맷 : 48kHz 또는 16kHz, 16bit, mono
      • 실생활 노이즈가 그대로 반영된 학습용 AI 데이터 음성 파일
      • json 데이터 포맷 : 일반 json 형식

    2. 어노테이션 포맷

    대분류 속성 표기 의미 타입 필수여부 
    Basic Language 언어 String Y
    Version 버전 String Y
    ApplicationCategory 응용 분야 String  
    NumberOfSpeaker 발성화자 수 String Y
    NumberOfUtterance 발화 수 String Y
    DataCategory DB종류 String Y
    RecordingDate 녹음날짜 String Y
    FillingDate 수정날짜 String  
    RevisionHistory 수정기록 String  
    Distributor 수행기관 String Y
    Wav SamplingRate 주파수 String Y
    NumberOfBit 비트 수 String Y
    ByteOrder 바이트정보 String  
    EncodingLaw 인코딩방식 String Y
    NumberOfChannel 채널 수 String Y
    SignalToNoiseRatio SNR String Y
    Transcription LabelText 텍스트 전사 String Y
    LabelTextCode   String  
    Speaker SpeakerName 화자 이름 String Y
    Gender 성별 String Y
    Age 나이 String Y
    Region 거주지역 String Y
    Dialect 방언 String Y
    DomainPreference 도메인선호도 String Y
    Experience AI 사용 경험 String  
    OwnedProduct AI 장비 보유 String  
    PreferredType AI 유형 선호 String  
    Environment RecordingEnviron 녹음 환경 String Y
    NoiseEnviron 노이즈 환경 String  
    SignalToNoiseRatio 신호대잡음비 String Y
    RecordingDevice 녹음 장치 String Y
    SpeakerStatus  발화자 상태 String Y
    Mask 마스크 착용 여부 String Y
    Style  발화스타일 String  
    File FileCategory  파일 종류 String Y
    FileName  파일 이름 String  
    DirectoryPath  파일 위치 String  
    HeaderSize  헤더 크기 String  
    FileLength  파일 길이 String  
    FileFormat  파일 포맷 String Y
    NumberOfRepeat  반복 차수 String  
    TimeInterval  호출어 위치 String  
    Distance  녹음 거리 String  
    Other QualityStatus  품질 상태 String Y

    3. 라벨링데이터 실제예시

    • [json 형식 샘플 – 어노테이션 정보]
      화자 인식용 음성-라벨링데이터 실제예시_1_json 형식 샘플 – 어노테이션 정보
       
  • 데이터셋 구축 담당자

    수행기관(주관) : 미디어젠㈜
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    윤종성 수석 02-6429-7100 jsyoon@mediazen.co.kr · 데이터 구축 · AI 모델링
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜비디 · 공정관리
    ㈜메트릭스 · 데이터 구축, 검수
    인천대학교 · 데이터 설계
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    윤종성 수석 02-6429-7100 jsyoon@mediazen.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.