AI-Hub

#video QA # 비디오 질의응답 # 영상이해 # VQA # 영상요약 # video captioning

비디오 네러티브 질의응답 데이터

분야한국어
유형 비디오

구축년도 : 2021 갱신년월 : 2022-07 조회수 : 6,104 다운로드 : 104 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2022-07-12	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2025-05-08	구축업체정보 수정
2022-10-13	신규 샘플데이터 개방
2022-07-12	콘텐츠 최초 등록

소개

영상에 대한 요약문과 이에 대한 질의, 응답으로 구성되어 이미지 캡셔닝, 비디오 언더스탠딩, 요약, 멀티모달 질의 응답 등의 연구에 활용될 수 있는 데이터

구축목적

보도, 시사, 교양, 예능 등 동영상 콘텐츠 내 핵심내용을 신속, 정확하게 파악할 수 있는 인공지능 요약기술 개발에 활용

메타데이터 구조표
데이터 영역	한국어	데이터 유형	비디오
데이터 형식	mp4	데이터 출처	MBN, KBO, KOVO 등
라벨링 유형	내용요약(자연어), 질의응답(자연어)	라벨링 형식	JSON
데이터 활용 서비스	상담 서비스, 의료 및 독거노인 돌봄 서비스	데이터 구축년도/ 데이터 구축량	2021년/원천데이터 - 38467개, 라벨링데이터 - 20개

1. 데이터 분포

카테고리별 분포

1. 데이터 분포
대분류 카테고리	중분류 카테고리	대본 유무(텍스트)	영상 수량	중분류 총계	대분류 총계	비율(%)
생활안전	사고발생	O	1,537	2,923	11,707	30.44%
	사고발생	X	1,386	2,923
	산업안전	O	92	2,769
	산업안전	X	2,677	2,769
	자연재해	O	1,791	3,092
	자연재해	X	1,301	3,092
	치안안전	O	1,607	2,923
	치안안전	X	1,316	2,923
스포츠	배구	X	4,519	4,519	7,700	20.01%
스포츠	야구	X	3,181	3,181	7,700	20.01%
예능교양	건강	O	2,314	2,907	19,060	49.55%
	건강	X	593	2,907
	다큐	O	2,338	3,145
	다큐	X	807	3,145
	시사	X	2,680	2,680
	여행	X	2,606	2,606
	음식	O	2,396	2,875
	음식	X	479	2,875
	정보	X	2,482	2,482
	주거	X	2,365	2,365

비디오 네러티브 질의응답-데이터 분포-카테고리별 분포_1

요약문 및 질의 분포

요약문 및 질의 분포
요약문 종류	요약 건수(목표 건수)	목표 대비 비율(%)	질의 응답	질의 수량
상황	21,259건(13,500건)	157%	시각적 질의	76,934건
행동	13,982건(13,500건)	104%	시각적 질의	76,934건
행동	13,982건(13,500건)	104%	맥락적 질의	24,150건
추론	3,226건(3,000건)	108%	맥락적 질의	24,150건
총계	38,467건		총계	101,084건

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

1. SOTA 알고리즘 기반의 신경망 모델

SOTA 후보 모델 중 하나인 Hierarchical Conditioncal Relation Network(HCRN)를 선정.

비디오 네러티브 질의응답-SOTA 알고리즘 기반의 신경망 모델_1

CRN의 집합으로 이루어진 HCRN은 clip level과 video level로 구분하고 question과 motion을 각 level의 CRN들에 입력하여 영상에 대한 맥락을 파악하여 질문에 답을 할 수 있도록 구성되어 있음.
언어 데이터의 경우 glove를 이용하여 임베딩하며, 영상의 경우 resnext 모델을 사용하여 feature를 추출.

1. SOTA 알고리즘 기반의 신경망 모델
	학습	검증	시험
개요	- 동영상(영상 데이터)과 해당 영상에 질문하고 싶은 내용(언어 데이터)을 학습에 이용 - 질문에 대한 답은 해당 데이터의 라벨로 이용 - 영상에 대한 특징(feature) 2건을 추출하고 질문에 대한 특징 1건을 추출하여 모델에 입력	- 학습 도중 모델 성과를 평가 비교하며 모델을 업데이트 - 질문에 대한 정답률을 이용하여 평가 비교 진행	- 모델 학습 완료 후 따로 준비해 놓은 테스트 데이터를 이용하여 추론함으로써 실질적인 성능을 평가


권장 학습 분배량	80%	10%	10%

2. 서비스 활용시나리오

비디오 네러티브 질의응답-서비스 활용시나리오_1

대화형 질의응답 기술은 스마트 폰, 타블릿, 스마트 TV, 스마트 자동차, 스마트 안경 등 모든 스마트, 웨어러블 기기 등에 활용 가능.
대화형 질의 응답 기술은 사용하기 편리하여 스마트 기기를 제대로 활용을 못하는 노약자 및 장애인 등 소외계층이 인터넷 및 IT 기기의 활용을 유도할 수 있어 IT 평등적 사용에 기여.
국내 인구감소, 고령화 대응을 위한 맞춤형 상담 서비스, 의료 및 독거노인 돌봄 서비스 등 사회 복지와 고령화 사회에 대한 지능형 서비스 구현 가능.

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	비디오 질의응답 모델	Question Answering	Hierarchical Conditional Relation Networks for Video QA	Accuracy	50 %	77.78 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

1. 데이터 포맷

비디오 네러티브 질의응답-데이터 포맷_1

2. 데이터 구성

총 용량 : 181GB
총 데이터 수 : 원천데이터 - 38467개, 라벨링데이터 - 20개
Dataset 폴더 구조 및 카테고리별 원천데이터 수:
(라벨링데이터의 경우 카테고리당 1개 씩)

Dataset구조(원천/라벨링데이터 폴더 구조 동일)
       ㄴ생활안전
           ㄴ사고발생
               ㄴ대본O
               ㄴ대본X
           ㄴ산업안전
               ㄴ대본O
               ㄴ대본X
           ㄴ자연재해
               ㄴ대본O
               ㄴ대본X
           ㄴ치안안전
               ㄴ대본O
               ㄴ대본X
       ㄴ스포츠
           ㄴ배구
               ㄴ대본X
           ㄴ야구
               ㄴ대본X
       ㄴ예능교양
           ㄴ건강
               ㄴ대본O
               ㄴ대본X
           ㄴ다큐
               ㄴ대본O
               ㄴ대본X
           ㄴ시사
               ㄴ대본X
           ㄴ여행
               ㄴ대본X
           ㄴ음식
               ㄴ대본O
               ㄴ대본X
           ㄴ정보
               ㄴ대본X
           ㄴ주거
               ㄴ대본X

3. 어노테이션 포맷

1. 데이터 포맷
구분	항목명	타입	필수여부	설명	범위
1	correct_idx	Number	Y	정답순번
2	answers[]	Object	Y	정답정보
3	qid	Number	Y	질문식별키
4	que	String	Y	질문
5	QA_queType	String	Y	질문 타입	[시각적질의,
5	QA_queType	String	Y	질문 타입	맥락적질의]
6	QA_queTypeSub	String	Y	질문 유형	[위치, 방향, 행동, 장소, 색상, 지칭, 수량, 인과관계, 인물관계, 시간순서, 발화내용, 감정, 용도, 상황]
7	sumType	String	Y	요약구분	[행동, 상황, 추론]
8	sum	String	Y	요약
9	vid	String	Y	영상파일정보
10	script	String		대본
11	sentiment	String	Y	감정	[긍정,
					중립,
					부정]
12	sum_vidSitu	String	Y	상황	[일상,
12	sum_vidSitu	String	Y	상황	업무(작업), 휴식, 유희, 이동, 경기, 행사, 정보전달, 사고/사건, 기타]
13	sum_vidPlace	String	Y	환경(장소)	[교육시설, 여가시설, 영업시설, 운송시설, 통행시설, 체육시설, 작업현장, 주거공간, 자연, 기타]
14	category_code	String	Y	대분류	[생활안전, 스포츠, 예능교양]
15	category_name	String	Y	소분류	[사고발생, 산업안전, 자연재해, 치안안전, 배구, 야구, 건강, 다큐, 시사, 여행, 음식, 정보, 주거]
16	script_exi	number	Y	대본 유무

4. 실제예시

{       "correct_idx": 0,
       "answers": [
           "헬멧",
           "인형탈",
           "머리띠",
           "두건",
           "방독면"
       ],
       "qid": 7465743,
       "que": "왼쪽에 있는 사람이 머리에 착용한 것은 무엇입니까",
       "QA_queType": "시각적질의",
       "QA_queTypeSub": "지칭",
       "sumType": "행동",
       "sum": "가운데에 있는 사람이 앉는다\n그 사람이 물건을 집는다\n그 사람이 일어서서 양손으로 물건을 만진다",
       "vid": "output_enter_H_00466.mp4",
       "script": "a: 그.. 오늘 해주실 게 이 파이프를.. 이게 온수거든요? 예, 그래서 위에",
       "sentiment": "중립",
       "sum_vidSitu": "업무(작업)",
       "sum_vidPlace": "작업현장",
       "category_code": "예능교양",
       "script_exi": 1,
       "train_type": "train"
   }

데이터셋 구축 담당자

수행기관(주관) : 주식회사 써로마인드

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
정성제	02-872-5127	sjjeong@surromind.ai	과제 총 관리 및 모델 개발

수행기관(참여)

수행기관(참여)
기관명	담당업무
(주)KDX한국데이터거래소	데이터 수집 및 정제
㈜유클리드 소프트	데이터 가공
공주대학교	데이터 검증
한국과학기술원	해커톤 경진 대회 진행 및 관리

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
정성제	02-872-5127	sjjeong@surromind.ai

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의