콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#다음색 # 보컬 # 가창 음성 합성

다음색 가이드보컬 데이터

다음색 가이드보컬 데이터
  • 분야한국어
  • 유형 오디오
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 6,242 다운로드 : 342 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-12 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-10-20 신규 샘플데이터 개방
    2022-07-12 콘텐츠 최초 등록

    소개

    다양한 보이스 특성으로 구분되는 가창자별 가창 음성을 획득하고, 가창자 발음 구간에 대응되는 가사와 미디(MIDI) 정보가 note 단위로 라벨링 된 데이터

    구축목적

    다양한 가창자의 음색이 반영된 가창 음성 합성을 위한 인공지능 학습용 데이터셋
  • 1. 데이터 구축 규모
    연령대, 성별, 음색, 장르에 따른 다양한 보이스 특성으로 16개 그룹에 92명의 가창자로 구
    별되는 가창 음성 데이터 4,000건


    2. 데이터 분포

    • 가창자별 데이터 분포
      1. 데이터 구축 규모
      가창자 코드 연령대 음색 성별 장르 시간
      비율 가창 길이(초) 비율
      S01 10대 미만 Normal 동요 41 1.03% 4579.28 0.81%
      S02 10대 미만 Normal 동요 41 1.03% 4638.819 0.82%
      S03 10대 미만 Normal 동요 41 1.03% 4521.391 0.80%
      S04 10대 미만 Normal 동요 41 1.03% 4808.324 0.85%
      S05 10대~20대 Husky 댄스 41 1.03% 5217.812 0.92%
      S06 10대~20대 Husky 댄스 45 1.13% 5653.719 1.00%
      S07 10대~20대 Husky 댄스 45 1.13% 5527.619 0.98%
      S08 10대~20대 Husky 발라드 45 1.13% 6237.938 1.10%
      S09 10대~20대 Husky 발라드 41 1.03% 5858.225 1.03%
      S10 10대~20대 Husky 댄스 41 1.03% 5124.626 0.90%
      S11 10대~20대 Normal 댄스 41 1.03% 5094.323 0.90%
      S12 10대~20대 Clear 댄스 45 1.13% 6021.903 1.06%
      S13 10대~20대 Normal 댄스 41 1.03% 4886.48 0.86%
      S14 10대~20대 Normal 댄스 41 1.03% 5062.186 0.89%
      S15 10대~20대 Normal 댄스 41 1.03% 5103.771 0.90%
      S16 10대~20대 Clear 발라드 41 1.03% 5579.523 0.98%
      S17 10대~20대 Clear 발라드 41 1.03% 5745.693 1.01%
      S18 10대~20대 Clear 발라드 41 1.03% 5783.37 1.02%
      S19 10대~20대 Clear 댄스 41 1.03% 5213.45 0.92%
      S20 10대~20대 Clear 댄스 41 1.03% 5275.904 0.93%
      S21 50대 이상 Normal 발라드 41 1.03% 5234.758 0.92%
      S22 50대 이상 Normal 발라드 41 1.03% 5489.066 0.97%
      S23 50대 이상 Normal 발라드 41 1.03% 5168.273 0.91%
      S24 50대 이상 Normal 발라드 41 1.03% 5788.45 1.02%
      S25 10대 미만 Normal 동요 50 1.25% 5841.058 1.03%
      S26 10대 미만 Normal 동요 50 1.25% 5812.908 1.03%
      S27 10대~20대 Normal 댄스 41 1.03% 6140.588 1.08%
      S28 10대~20대 Clear 발라드 50 1.25% 8026.677 1.42%
      S29 10대~20대 Clear 댄스 41 1.03% 5462.331 0.96%
      S30 10대~20대 Normal 발라드 41 1.03% 6090.613 1.07%
      S31 10대~20대 Husky 발라드 50 1.25% 7469.403 1.32%
      S32 10대~20대 Husky 댄스 50 1.25% 6774.8 1.20%
      S33 10대~20대 Normal 발라드 41 1.03% 5436.759 0.96%
      S34 10대~20대 Normal 발라드 50 1.25% 7467.28 1.32%
      S35 10대~20대 Husky 발라드 41 1.03% 5874.965 1.04%
      S36 10대~20대 Normal 발라드 50 1.25% 8020.563 1.42%
      S37 10대~20대 Clear 발라드 41 1.03% 6486.159 1.14%
      S38 10대~20대 Clear 댄스 41 1.03% 6128.402 1.08%
      S39 10대~20대 Husky 발라드 41 1.03% 6063.48 1.07%
      S40 10대~20대 Husky 발라드 41 1.03% 6520.077 1.15%
      S41 10대~20대 Normal 발라드 41 1.03% 6377.738 1.13%
      S42 10대~20대 Husky 발라드 41 1.03% 6041.773 1.07%
      S43 10대~20대 Normal 댄스 41 1.03% 5378.938 0.95%
      S44 10대~20대 Clear 댄스 41 1.03% 5370.882 0.95%
      S45 10대~20대 Clear 발라드 41 1.03% 5465.705 0.96%
      S46 10대~20대 Normal 발라드 41 1.03% 6444.716 1.14%
      S47 10대~20대 Normal 댄스 50 1.25% 7004.555 1.24%
      S48 10대~20대 Clear 발라드 41 1.03% 6250.23 1.10%
      S49 10대~20대 Normal 발라드 41 1.03% 5954.159 1.05%
      S50 10대~20대 Clear 댄스 41 1.03% 6821.562 1.20%
      S51 10대~20대 Husky 댄스 41 1.03% 5531.24 0.98%
      S52 10대~20대 Normal 발라드 41 1.03% 6520.336 1.15%
      S53 30대~40대 Husky 발라드 50 1.25% 7537.979 1.33%
      S54 30대~40대 Husky 댄스 50 1.25% 6709.736 1.18%
      S55 30대~40대 Clear 댄스 50 1.25% 6543.466 1.15%
      S56 30대~40대 Clear 댄스 50 1.25% 6510.295 1.15%
      S57 30대~40대 Clear 발라드 50 1.25% 7418.306 1.31%
      S58 30대~40대 Normal 발라드 41 1.03% 6049.231 1.07%
      S59 30대~40대 Normal 발라드 50 1.25% 7290.473 1.29%
      S60 30대~40대 Clear 발라드 50 1.25% 7307.729 1.29%
      S61 30대~40대 Normal 발라드 50 1.25% 6654.629 1.17%
      S62 30대~40대 Husky 발라드 50 1.25% 7405.038 1.31%
      S63 30대~40대 Clear 발라드 41 1.03% 5671.497 1.00%
      S64 30대~40대 Normal 댄스 41 1.03% 6938.968 1.22%
      S65 30대~40대 Normal 댄스 41 1.03% 6952.054 1.23%
      S66 30대~40대 Husky 댄스 41 1.03% 7056.804 1.25%
      S67 30대~40대 Husky 댄스 50 1.25% 8644.911 1.53%
      S68 30대~40대 Normal 댄스 41 1.03% 6753.77 1.19%
      S69 30대~40대 Normal 댄스 41 1.03% 5720.92 1.01%
      S70 30대~40대 Clear 댄스 41 1.03% 5744.54 1.01%
      S71 30대~40대 Clear 댄스 41 1.03% 6178.942 1.09%
      S72 30대~40대 Husky 댄스 41 1.03% 6338.337 1.12%
      S73 30대~40대 Husky 발라드 41 1.03% 6307.67 1.11%
      S74 30대~40대 Clear 댄스 41 1.03% 6084.311 1.07%
      S75 30대~40대 Husky 발라드 46 1.15% 6948.322 1.23%
      S76 30대~40대 Husky 댄스 50 1.25% 6455.862 1.14%
      S77 30대~40대 Clear 댄스 50 1.25% 6546.444 1.16%
      S78 30대~40대 Normal 댄스 41 1.03% 5315.766 0.94%
      S79 30대~40대 Clear 발라드 50 1.25% 7525.062 1.33%
      S80 30대~40대 Husky 댄스 41 1.03% 5380.536 0.95%
      S81 30대~40대 Clear 발라드 41 1.03% 6117.841 1.08%
      S82 30대~40대 Husky 발라드 50 1.25% 6921.801 1.22%
      S83 30대~40대 Clear 발라드 41 1.03% 5629.838 0.99%
      S84 30대~40대 Normal 발라드 50 1.25% 8196.484 1.45%
      S85 30대~40대 Normal 발라드 41 1.03% 6359.224 1.12%
      S86 30대~40대 Husky 발라드 41 1.03% 6028.183 1.06%
      S87 30대~40대 Normal 댄스 41 1.03% 5290.469 0.93%
      S88 30대~40대 Normal 발라드 41 1.03% 6513.412 1.15%
      S89 50대 이상 Normal 발라드 41 1.03% 6406.619 1.13%
      S90 50대 이상 Normal 발라드 41 1.03% 6364.227 1.12%
      S91 50대 이상 Normal 발라드 41 1.03% 6307.465 1.11%
      S92 50대 이상 Normal 발라드 41 1.03% 6085.793 1.07%
      4000 100.00% 566605.754 100.00%

      - 가창곡 수
      다음색 가이드보컬-데이터 분포_1_가창곡 수(1)다음색 가이드보컬-데이터 분포_2_가창곡 수(2)

      - 가창 길이다음색 가이드보컬-데이터 분포_3_가창 길이(1)다음색 가이드보컬-데이터 분포_4_가창 길이(2)

     

    • 가창자 성별 분포
      가창자 성별 분포
      측정 지표 성별 비율 비고
      비율 46 50% 가창곡 수는 남자 2034, 여자 1966
      46 50%
      92 100%
      다음색 가이드보컬-데이터 분포_5_가창자 성별 분포

     

    • 가창자 연령대 분포
      가창자 연령대별 분포
      측정 지표 연령대 비율 비고
      비율 10대 미만 6 6.52%  
      10대~20대 42 45.65%  
      30대~40대 36 39.13%  
      50대 이상 8 8.70%  
      92 100.00%  
      다음색 가이드보컬-데이터 분포_6_가창자 연령대 분포

     

    • 가창곡 장르별 분포
      가창곡 장르별 분포
      측정 지표 시간 비고
      장르 비율 시간(초) 시간(변환) 비율
      비율 동요 264 6.60% 30201.78 8시간 23분 21.78초 5.33%  
      발라드 2094 52.35% 308442.752 85시간 40분 42.752초 54.44%  
      댄스 1642 41.05% 227961.222 63시간 19분 21.222초 40.23%  
      4000 100.00% 566605.754 157시간 23분 25.754초 100.00%  
      다음색 가이드보컬-데이터 분포_7_가창곡 장르별 분포(1)다음색 가이드보컬-데이터 분포_8_가창곡 장르별 분포(2)

     

    • 가창곡 음색별 분포
      가창곡 음색별 분포
      측정 지표 시간 비고
      음색 비율 시간(초) 시간(변환) 비율
      비율 Normal 1753 43.83% 246064.836 68시간 21분 4.836초 43.43%  
      Husky 1114 27.85% 159630.856 44시간 20분 30.856초 28.17%  
      Clear 1133 28.33% 160910.062 44시간 41분 50.062초 28.40%  
      4000 100.00% 566605.754 157시간 23분 25.754초 100.00%  
      다음색 가이드보컬-데이터 분포_9_가창곡 음색별 분포(1)
      다음색 가이드보컬-데이터 분포_10_가창곡 음색별 분포(2)
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    본 과제에서 제안하는 SVS(Singing Voice Synthesis)는 Acoustic Model과 Vocoder 
    Model이 결합한 구조를 가짐
    Acoustic Model은 주파수 성분인 Mel-spectrogram을 생성하는 인공지능 모델이며, Vocoder Model은 Mel-spectrogram으로부터 자연스러운 가창 음성을 생성하는 모델

     

    다음색 가이드보컬-Acoustic Model과 Vocoder Model의결합 구조

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 가창합성(SVS) Speech Synthesis FastSpeech + WaveGlow, FastSpeech + HiFi-GAN MOS 3.4 4.31

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 대표도면
    다음색 가이드보컬-대표도면_1

     

    2. 라벨링 데이터 구성

    2. 라벨링 데이터 구성
    구분 항목명 타입 필수여부 설명 비고
    1 data_info   Y 데이터 정보  
      1.1 wav_filename String Y 가창 음원 파일  
    1.2 midi_filename String Y 가창 미디 파일  
    1.3 csv_filename String Y 가창 가사 파일  
    1.4 wav_duration String Y 가창 음원 길이  
    1.5 voice_duration String Y 가창 길이  
    1.6 start_time String Y 첫 노트 시작 시간  
    1.7 note_count Int Y 노트 수  
    2 notes   Y 노트 정보  
      2.1 start_time String Y 노트 시작 시간  
    2.2 end_time String Y 노트 끝 시간  
    2.3 length String Y 노트 길이  
    2.4 midi_num Int Y 노트 번호 피치 정보
    2.5 note_name String Y 노트 문자 피치 정보
    2.6 is_bending Boolean Y 밴딩 유무  
    2.7 is_vibrt Boolean Y 바이브레이션 유무  
    2.8 is_breath Boolean Y 호흡 유무  
    2.9 lyric String Y 가창자 발음 가사

     

    3. 라벨링 데이터 실제 예시
    다음색 가이드보컬-라벨링 데이터 실제 예시_1

  • 데이터셋 구축 담당자

    수행기관(주관) : 메타빌드
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김동현 02-6901-3864 hatemintchoco@metabuild.co.kr · 데이터 품질 관리
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    칠로엔 · 수집, 가공, 검수
    한국음악실연자연합회 · 수집
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.