AI-Hub

음성 기반 3D 발화 얼굴 데이터

분야영상이미지
유형 3D

구축년도 : 2023 갱신년월 : 2024-10 조회수 : 4,727 다운로드 : 55 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2024-10-30	데이터 최종 개방
1.0	2024-10-15	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2025-06-12	구축업체정보 수정
2024-11-12	데이터 설명서 수정
2024-06-28	산출물 공개	Beta Version

소개

- 한국어의 음운학적 특성이 고려된 5,000문장에 대한 전문 발화자의 발화 영상을 기반으로 한, 한국어 음성 기반의 3D 발화 얼굴 데이터

구축목적

- 3D 메타휴먼의 한국어 기반 자연스러운 발화 얼굴 영상 생성을 위하여, 수집한 한국어 발화 영상 데이터를 바탕으로 오디오-3D 데이터 구축

메타데이터 구조표
데이터 영역	영상이미지	데이터 유형	3D
데이터 형식	원천데이터: WAV, PNG	데이터 출처	자체 수집
라벨링 유형	3D 데이터 합성(얼굴 랜드마크)	라벨링 형식	3D 메쉬: OBJ 메타데이터(랜드마크 포함): JSON
데이터 활용 서비스	한국어 음성을 입력하면 AI를 기반으로 3D 메타휴먼의 발화 얼굴을 생성하는 서비스	데이터 구축년도/ 데이터 구축량	2023년/오디오 5,000건, 정면 2D 이미지 578,242건, 3D 메쉬 578,242건, 메타데이터 578,242건, 텍스쳐 10건

- 데이터 구축 규모

데이터 구축 규모
구분	데이터 종류	총 구축 수량(개)
원천데이터	오디오	5,000
원천데이터	정면 2D 이미지	578,242
라벨링데이터	3D 메쉬	578,242
	메타 데이터	578,242
	텍스쳐	10

- 데이터 분포
- 발화 모델 분포

발화 모델 분포
성별	남	여
연령	남	여
20대	2	3
30대	3	2
계	10

- 발화 문장 분포

발화 문장 분포

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

- 활용 모델
- CodeTalker
- speech driven 3D facial animation 분야의 SOTA 모델.

- 학습
   - 사용 모델은 CodeTalker이며, speech driven 3D facial animation 분야의 SOTA 모델임.
   - 해당 Task 논문들은 주로 VOCASET과 BIWI 데이터셋을 사용하는데, 이는 모두 영어권 데이터이며, 각각 480문장, 560문장으로 구성됨.
   - 본 사업에서는 한국어로 된 문장 총 5,000문장을 구축하므로 최소 검증과 시험을 모두 각 500문장으로 구성할 것을 제안함.

AI 모델
구분	모델 정보	Training		Validation		Test
구분	모델 정보	79.73%		10.10%		10.17%
1	M01	18,443	400문장	2,305	50문장	2,306	50문장
2	M02	56,756	400문장	7,654	50문장	7,555	50문장
3	M03	50,310	400문장	6,687	50문장	6,500	50문장
4	M04	52,401	400문장	7,116	50문장	7,297	50문장
5	M05	56,340	400문장	6,449	50문장	6,551	50문장
6	M06	56,367	400문장	6,711	50문장	6,966	50문장
7	M07	49,641	400문장	6,009	50문장	6,054	50문장
8	M08	43,784	400문장	5,292	50문장	5,495	50문장
9	M09	42,326	400문장	5,802	50문장	5,710	50문장
10	M10	28,923	400문장	3,464	50문장	3,464	50문장

- 서비스 활용 시나리오
   - 구축한 모델은 음성 기반 가상인간 얼굴을 생성함으로써 영화나 게임 혹은 가상 비서의 말하는 얼굴 생성에 활용될 수 있으며, 뿐만 아니라, 언어 학습이나 의사소통 기술을 향상시키는데 도움을 줄 수 있음
   - 영화나 게임 혹은 가상 비서의 말하는 얼굴 생성
   - 고급 특수 효과와 애니메이션에서 실제 인간의 표정을 디지털 캐릭터에게 전달하기 위해 사용될 수 있으며, 음성 인식과 결합되어 사용자와의 상호작용을 보다 인간적이고 자연스러운 방식으로 진행할 수 있음
   - 의사소통 기술 향상
   - 의사소통 장애가 있는 사람들을 위한 치료 도구로 사용될 수 있음

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

- 데이터 구성 및 포맷

데이터 구성 및 포맷
구분	데이터 종류	파일 포맷
원천데이터	오디오	WAV
원천데이터	정면 2D 이미지	PNG
라벨링데이터	3D 메쉬	OBJ
	메타 데이터	JSON
	텍스쳐	PNG

- 어노테이션 포맷

어노테이션 포맷
항목				항목 설명	Type	필수
info				데이터셋 정보	Object	Y
	description			데이터셋 설명	String	Y
	video_date			촬영일	String	Y
	contributor			데이터 수집 기관명	String	Y
subject				모델 정보	Object	Y
	subject_id			모델 ID	String	Y
	subject_gender			모델 성별	String	Y
	subject_age			모델 연령	Number	Y
script				대본 정보	Object	Y
	script_id			대본 문장 번호	Number	Y
	sentence			대본 문장	String	Y
	phoneme			관련 음운 또는 음운현상	Object	Y
		자음		대본 내 관련 자음	Obejct	Y
			ㄱ	자음 “ㄱ” 관련 음절	Array	N
			ㄴ	자음 “ㄴ” 관련 음절	Array	N
			...
		모음		대본 내 관련 모음	Object	N
			ㅏ	모음 “ㅏ” 관련 음절	Array	N
			ㅑ	모음 “ㅑ” 관련 음절	Array	N
			...
		음운현상		대본 내 관련 음운현상	Object	N
			받침발음	받침발음 관련 정보	Array	N
			음의동화	음의동화 관련 정보	Array	N
			경음화	경음화 관련 정보	Array	N
			음의첨가	음의첨가 관련 정보	Array	N
video				카메라 및 촬영 정보	Object	Y
	video_filename			비디오 파일명	String	Y
	video_length			영상 길이(초)	Number	Y
	take_num			촬영회차	Number	Y
	cam_info			카메라 모델명	String	Y
	cam_id			카메라 id	Number	Y
	frame_rate			영상 프레임레이트	Number	Y
	video_resolution			영상 해상도	String	Y
	sensor			이미지 센서	String	Y
	iso			감도	Number	Y
	iris			조리개	String	Y
	focal_length			초점거리	String	Y
	focus_type			초점 조절방식	String	Y
	shutter_speed			셔터스피드	String	Y
image				이미지 프레임 정보	Object	Y
	frame_num			이미지 프레임 번호	Number	Y
	image_resolution			이미지 해상도	String	Y
audio				오디오 정보	Object	Y
	audio_path			오디오 파일 경로	String	Y
	audio_length			오디오 길이(초)	Number	Y
3d_data				3D 데이터 정보	Object	Y
	mesh_path			3D mesh 파일 경로	String	Y
	texture_path			텍스쳐 파일 경로	String	Y
	vertices_num			Vertices 개수	Number	Y
	lip_vertices			lip vertex의 좌표	Object	Y
		“0”		vertex index 0번의 3D 위지 정보	Array	Y
		...
		“4409”		vertex index 4409번의 3D 위지 정보	Array	Y
	landmark			리토폴로지시 사용한 얼굴 랜드마크 정보	Object	Y
		“0”		랜드마크 index 0번의 3D 위치 정보	Array	Y
		...
		“67”		랜드마크 index 67번의 3D 위치 정보	Array	Y

- 3D메쉬 데이터 예시

3D메쉬 데이터 예시

- 메타데이터 예시

메타데이터 예시

데이터셋 구축 담당자

수행기관(주관) : 고양시청

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
최현옥	031-8075-2570	ilsancho@korea.kr	사업 총괄

수행기관(참여)

수행기관(참여)
기관명	담당업무
고양산업진흥원	홍보
광운대학교 산학협력단	AI 모델 개발, 데이터 검수
㈜아이웹	응용서비스 개발
㈜오모션	데이터 수집, 정제, 가공
㈜엠비씨씨앤아이	홍보
㈜인사이터	데이터 가공, 데이터 검수

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
이희대	02-302-3535	lhd1912@gmail.com
한규훈	02-302-3535	5motion.rnd@gmail.com

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
김정우	02-940-8362	jwkim99@kw.ac.kr
이학범	02-940-8362	hblee@kw.ac.kr

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
이희대	02-302-3535	lhd1912@gmail.com
한규훈	02-302-3535	5motion.rnd@gmail.com

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의