콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#음성 및 모션 합성 데이터 # 모션 데이터 # 멀티 모달 데이터

음성 및 모션 합성 데이터

음성 및 모션합성
  • 분야한국어
  • 유형 오디오 , 비디오 , 텍스트
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 10,018 다운로드 : 525 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-12 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-10-13 신규 샘플데이터 개방
    2022-07-12 콘텐츠 최초 등록

    소개

    한국어 발화 기반 동작 생성 기술을 위한 음성 모션이 동기화된 멀티모달 데이터셋 4,070시간 구축 및 공개

    구축목적

    음성, 행동, 감정을 통합적으로 합성하기 위해 필요한 멀티 모달 데이터셋(발화 음성, 모션 영상, 텍스트) 구축
  • 1. 데이터 구축 규모

     

    1. 데이터 구축 규모
    데이터 종류 데이터 형태 데이터 규모
    원천데이터 – 영상 mp4 4,070 시간
    원천데이터 - 음성 wav 1,017 시간
    라벨링데이터 – 텍스트 json 8,524 건


     

    2 데이터 분포

    • 촬영 상황 및 발화 타입별 분포
      음성 및 모션 합성-데이터 분포_1_촬영 상황별 분포
      촬영 상황 및 발화 타입별 분포
      촬영 상황 구축량
      (시간/영상 기준)
      비율
      독백 2,017 50%
      2인대화 2,053 50%
      음성 및 모션 합성-데이터 분포_2_발화 타입별 분포
      촬영 상황 및 발화 타입별 분포
      발화 타입 구축량
      (시간/영상 기준)
      비율
      스크립트 발화 1,050 25%
      자유 발화 3,020 75%

       
    • 성별 분포
      음성 및 모션 합성-데이터 분포_3_성별 분포
      성별 분포
      성별 인원 (명) 비율
      여성 237 49%
      남성 249 51%

       
    • 발화자 특성별 분포
      음성 및 모션 합성-데이터 분포_4_발화자 특성별 분포
      발화자 특성별 분포
      특성 인원 (명) 비율
      일반인 246 50%
      전문가 240 50%

       
    • 연령대별 분포
      음성 및 모션 합성-데이터 분포_5_연령대별 분포
      연령대별 분포
      연령대 구축량  비율
      (시간/영상 기준)
      10대 579 14%
      20대 904 22%
      30대 944 23%
      40대 867 21%
      50대 475 12%
      60대 301 7%

       
    • 주제별 분포
      음성 및 모션 합성-데이터 분포_6_주제별 분포
      주제별 분포
      발화 주제 구축량 (시간) 비율
      교육/학교 294 7.2%
      건강 370 9.1%
      경제/과학/IT 237 5.8%
      동물 297 7.3%
      문화예술 374 9.2%
      사회/시사 231 5.7%
      스포츠 281 6.9%
      여행/휴가 331 8.1%
      음식 307 7.5%
      인간관계 340 8.3%
      일상생활 704 17.3%
      직장/직업 305 7.5%

       
    • 감정별 분포
      음성 및 모션 합성-데이터 분포_7_감정별 분포
      감정별 분포
      감정 구축량 (시간) 비율
      무표정 3,199 79%
      기쁨 517 13%
      슬픔 164 4%
      분노 102 3%
      놀람 42 1%
      공포 23 1%
      경멸 22 1%

       
    • 카메라 각도별 분포
      음성 및 모션 합성-데이터 분포_8_카메라 각도별 분포
      카메라 각도별 분포
      카메라각도 구축량 (시간) 비율
      A 1,018 25%
      B 1,018 25%
      C 1,018 25%
      D 1,018 25%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. 모델 학습

    • 학습 모델 연구 
      • 음성 기반 행동 생성분야 알고리즘은 음성 데이터와 행동 데이터의 관계성을 표현하는 연구 분야 
      • 딥러닝 방식 전에는 규칙 기반으로 특정 음성에 사상되는 행동을 나열하는 방식으로 접근 
      • 2017년 Human Agent Interaction 학회에 딥러닝을 활용한 음성 기반 행동 생성 모델이 처음으로 발표
      • 이후, 음성 데이터의 특성을 특정 공간에 표현하고(표현 학습, representation learning) 이것을 바탕으로 행동 데이터를 확률적으로 생성하는 생성 모델의 연구방식이 주류를 이룸 
      • 음성 데이터와 행동 데이터는 시퀀스 데이터로 각 데이터의 특성을 만들기 위해 RNN 계열 네트워크 혹은 1D convolution 계열의 네트워크가 주로 활용
    • 모델 설계
      • 해당 알고리즘은 2019년 Intelligent Virtual Agents 학회에서 발표된 Analyzing Input and output Representations for Speech-Driven Gesture Generation 논문에서 제시된 모델 
      • 제시하는 모델은 음성(Audio)에서 시작해 모션 데이터 표현 정보(Representation) 그리고 행동(Pose)의 과정을 거치기에 ARP라고 부름 

      • 음성 및 모션 합성-모델설계_1_음성 데이터를 네트워크의 입력으로 활용하고 출력으로 행동이 생성
        [음성 데이터를 네트워크의 입력으로 활용하고 출력으로 행동이 생성]
      • ARP는 입력으로 3초가량의 음성의 MFCC값을 활용하고 출력으로 행동 관절 키포인트의 x, y, z 3축 좌표를 생성 
      • ARP는 음성을 표현 벡터(representation vector)로 변경하는 SpeechE 모듈과 표현 벡터를 다시 행동으로 변경하는 MotionD 모듈로 구성 

      • 음성 및 모션 합성-모델 설계_2_SpeechE와 MotionD 네트워크를 통합해 전체 네트워크 생성
        [SpeechE와 MotionD 네트워크를 통합해 전체 네트워크 생성]
    • 모델 개발
      • ARP 알고리즘은 SpeechE와 MotionD를 각각 학습 
      • 단층 Denoising AutoEncoder를 활용하여 행동이 들어가서 다시 행동이 생성되는 행동 재건 네트워크를 학습하고 행동 생성 모듈인 MotionD를 전체 네트워크에 사용 

      • 음성 및 모션 합성-모델 개발_1_행동 재건 학습 네트워크의 구조 학습된 MotionD 모듈은 전체 네트워크에 사용
        [행동 재건 학습 네트워크의 구조 학습된 MotionD 모듈은 전체 네트워크에 사용]
      • 입력으로 사용하는 음성을 모션 재건 네트워크 중간의 행동 표현 벡터(representation vector)로 사상시키는 네트워크 SpeechE를 학습시키고 이것을 전체 네트워크에 사용

      • 음성 및 모션 합성-모델 개발_2_음성을 행동 표현 벡터로 학습하는 네트워크 구조 학습된 SpeechE 모듈은 전체 네트워크에 사용
        [음성을 행동 표현 벡터로 학습하는 네트워크 구조 학습된 SpeechE 모듈은 전체 네트워크에 사용]

    2. 서비스 활용 시나리오

    • 스피치 기반 캐릭터 애니메이션을 이용한 서비스 (인공지능 아나운서, 인공지능 강사)
    • 사람의 스피치 스타일과 모션 정보 간 관계를 분석하고 인공지능 생성 모델을 구축, 이를 캐릭터 모션에 적용 가능
    • 인공지능 아나운서, 인공지능 강사, 인공지능 안내자와 같이 사람과 상호작용하며 정보를 전달하는 서비스의 경우 필요한 대사 및 음성 정보로 캐릭터가 음성 스타일에 적합한 애니메이션을 자동으로 생성할 수 있음
      음성 및 모션 합성-서비스 활용 시나리오_1

       

      

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 모션 생성 평가(GENEA 데이터와 비교) Image Generation Audio-Representation-Pose (ARP) Likert scale 3.95 3.97

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 데이터셋 구성
    음성 및 모션 합성-데이터셋 구성_1

    2. 라벨링데이터 구성

    1. 데이터셋 구성
    번호 항목 타입 필수여부
    영문명 한글명
    1 info 메타정보 object Y
      1-1 Audio_info 오디오 정보 object Y
        1-1-1 audio_duration 오디오 길이 number Y
        1-1-2 audio_format 오디오 포맷 string Y
        1-1-3 audio_name 오디오 파일명 array of string Y
        1-1-4 channel 오디오 채널 수  number Y
        1-1-5 sampling_rate 오디오 샘플링레이트 string Y
      1-2 Dataset 데이터셋 object Y
        1-2-1 URL 데이터셋 url string Y
        1-2-2 description 데이터 정보 string Y
        1-2-3 version 데이터 버전 number Y
      1-3 Video_info 비디오 정보 object Y
        1-3-1 FPS 프레임 number Y
        1-3-2 extrinsic 외부카메라 계수 object Y
          1-3-2-1 A 1번카메라 계수 array(2d) Y
          1-3-2-2 B 2번카메라 계수 array(2d) Y
          1-3-2-3 C 3번카메라 계수 array(2d) Y
          1-3-2-4 D 4번카메라 계수 array(2d) Y
        1-3-3 intrinsic 내부카메라 계수 object Y
          1-3-3-1 A 1번카메라 계수 array(2d) Y
          1-3-3-2 B 2번카메라 계수 array(2d) Y
          1-3-3-3 C 3번카메라 계수 array(2d) Y
          1-3-3-4 D 4번카메라 계수 array(2d) Y
        1-3-4 resolution 해상도 array of number Y
        1-3-5 video_duration 영상 길이 number Y
        1-3-6 video_format 영상 포맷 string Y
        1-3-7 video_name 영상 파일명 object Y
          1-3-7-1 A 1번영상파일명 string Y
          1-3-7-2 B 2번영상파일명 string Y
          1-3-7-3 C 3번영상파일명 string Y
          1-3-7-4 D 4번영상파일명 string Y
    2 motion 모션정보 object Y
      2-1 keypoints 키포인트 object Y
        2-1-1 keypoints_2d 2D 키포인트 object Y
          2-1-1-1 A 1번 카메라 array Y
            2-1-1-1-1 body 2D 바디 조인트 좌표 array Y
            2-1-1-1-2 face 2D 얼굴 마커 좌표 array Y
            2-1-1-1-3 speaker_ID 발화자일련번호 string Y
          2-1-1-2 B 2번 카메라 array Y
            2-1-1-2-1 body 2D 바디 조인트 좌표 array Y
            2-1-1-2-2 face 2D 얼굴 마커 좌표 array Y
            2-1-1-2-3 speaker_ID 발화자일련번호 string Y
          2-1-1-3 C 3번 카메라 array Y
            2-1-1-3-1 body 2D 바디 조인트 좌표 array Y
            2-1-1-3-2 face 2D 얼굴 마커 좌표 array Y
            2-1-1-3-3 speaker_ID 발화자일련번호 string Y
          2-1-1-4 D 4번 카메라 array Y
            2-1-1-4-1 body 2D 바디 조인트 좌표 array Y
            2-1-1-4-2 face 2D 얼굴 마커 좌표 array Y
            2-1-1-4-3 speaker_ID 발화자일련번호 string Y
        2-1-2 keypoints_3d 3차원 키포인트 array Y
          2-1-2-1 body 3D 바디 조인트 좌표 array of number Y
          2-1-2-2 face 3D 얼굴 마커 좌표 array of number Y
          2-1-2-3 speaker_ID 발화자일련번호 string Y
      2-2 keypoints_info 키포인트 정보 object Y
        2-2-1 body 바디조인트이름 array of string Y
        2-2-2 face 얼굴조인트이름 array of string Y
    3 Transcript 전사정보 object Y
      3-1 Sentences 발화 문장 정보 array Y
        3-1-1 emotion 감정 정보 string Y
        3-1-2 end_time 발화 종료 시간 number Y
        3-1-3 sentence_text 발화 문장 string Y
        3-1-4 speaker_ID 발화자일련번호 string Y
        3-1-5 start_time 발화 시작 시간 number Y
      3-2 Speaker_info 발화자 정보 array Y
        3-2-1 Accent 표준어 여부 string Y
        3-2-2 Age 연령대 string Y
        3-2-3 Gender 성별 string Y
        3-2-4 Specificity 전문성 여부 string Y
        3-2-5 speaker_ID 발화자일련번호 string Y
      3-3 Transcript_info 전사 문장 정보 object Y
        3-3-1 sentence_count 총 문장 수 number Y
        3-3-2 subject 발화 주제 string Y
        3-3-3 type 발화 타입 string Y

    3. 라벨링데이터 실제예시
    음성 및 모션 합성-라벨링데이터 실제예시_1

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜마인즈랩
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    송혜원 031-625-4349 pworks@mindslab.ai · 데이터 품질 관리
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜인공지능연구원 · 데이터 수집, 정제, 가공 및 학습 모델 개발
    ㈜이엠피이모션캡쳐 · 데이터 수집, 정제
    ㈜크라우드웍스 · 데이터 가공
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    송혜원 031-625-4349 pworks@mindslab.ai
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.