콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#video QA # 비디오 질의응답 # 영상이해 # VQA # 영상요약 # video captioning

비디오 네러티브 질의응답 데이터

비디오 네러티브 질의응답 데이터
  • 분야한국어
  • 유형 비디오
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 2,866 다운로드 : 87 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-12 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-10-13 신규 샘플데이터 개방
    2022-07-12 콘텐츠 최초 등록

    소개

    영상에 대한 요약문과 이에 대한 질의, 응답으로 구성되어 이미지 캡셔닝, 비디오 언더스탠딩, 요약, 멀티모달 질의 응답 등의 연구에 활용될 수 있는 데이터

    구축목적

    보도, 시사, 교양, 예능 등 동영상 콘텐츠 내 핵심내용을 신속, 정확하게 파악할 수 있는 인공지능 요약기술 개발에 활용

  • 1. 데이터 분포 

    • 카테고리별 분포
    1. 데이터 분포 
    대분류 카테고리 중분류 카테고리 대본 유무(텍스트) 영상 수량 중분류 총계 대분류 총계 비율(%)
    생활안전 사고발생 O 1,537 2,923 11,707 30.44%
    X 1,386
    산업안전 O 92 2,769
    X 2,677
    자연재해 O 1,791 3,092
    X 1,301
    치안안전 O 1,607 2,923
    X 1,316
    스포츠 배구 X 4,519 4,519 7,700 20.01%
    야구 X 3,181 3,181
    예능교양 건강 O 2,314 2,907 19,060 49.55%
    X 593
    다큐 O 2,338 3,145
    X 807
    시사 X 2,680 2,680
    여행 X 2,606 2,606
    음식 O 2,396 2,875
    X 479
    정보 X 2,482 2,482
    주거 X 2,365 2,365

     

    비디오 네러티브 질의응답-데이터 분포-카테고리별 분포_1

     

    • 요약문 및 질의 분포
    요약문 종류 요약 건수(목표 건수) 목표 대비 비율(%) 질의 응답 질의 수량
    상황 21,259건(13,500건) 157% 시각적 질의 76,934건
    행동 13,982건(13,500건) 104%
    맥락적 질의 24,150건
    추론 3,226건(3,000건) 108%
    총계 38,467건 총계 101,084건
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. SOTA 알고리즘 기반의 신경망 모델

    • SOTA 후보 모델 중 하나인 Hierarchical Conditioncal Relation Network(HCRN)를 선정.

    비디오 네러티브 질의응답-SOTA 알고리즘 기반의 신경망 모델_1

     

    • CRN의 집합으로 이루어진 HCRN은 clip level과 video level로 구분하고 question과 motion을 각 level의 CRN들에 입력하여 영상에 대한 맥락을 파악하여 질문에 답을 할 수 있도록 구성되어 있음.
    • 언어 데이터의 경우 glove를 이용하여 임베딩하며, 영상의 경우 resnext 모델을 사용하여 feature를 추출.
    1. SOTA 알고리즘 기반의 신경망 모델
      학습 검증 시험
    개요 - 동영상(영상 데이터)과 해당 영상에 질문하고 싶은 내용(언어 데이터)을 학습에 이용
    - 질문에 대한 답은 해당 데이터의 라벨로 이용
    - 영상에 대한 특징(feature) 2건을 추출하고 질문에 대한 특징 1건을 추출하여 모델에 입력
    - 학습 도중 모델 성과를 평가 비교하며 모델을 업데이트
    - 질문에 대한 정답률을 이용하여 평가 비교 진행
    - 모델 학습 완료 후 따로 준비해 놓은 테스트 데이터를 이용하여 추론함으로써 실질적인 성능을 평가
    권장 학습 분배량 80% 10% 10%

     

    2. 서비스 활용시나리오

    비디오 네러티브 질의응답-서비스 활용시나리오_1

     

    • 대화형 질의응답 기술은 스마트 폰, 타블릿, 스마트 TV, 스마트 자동차, 스마트 안경 등 모든 스마트, 웨어러블 기기 등에 활용 가능.
    • 대화형 질의 응답 기술은 사용하기 편리하여 스마트 기기를 제대로 활용을 못하는 노약자 및 장애인 등 소외계층이 인터넷 및 IT 기기의 활용을 유도할 수 있어 IT 평등적 사용에 기여.
    • 국내 인구감소, 고령화 대응을 위한 맞춤형 상담 서비스, 의료 및 독거노인 돌봄 서비스 등 사회 복지와 고령화 사회에 대한 지능형 서비스 구현 가능.
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 비디오 질의응답 모델 Question Answering Hierarchical Conditional Relation Networks for Video QA Accuracy 50 % 77.78 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

     

    1. 데이터 포맷

    비디오 네러티브 질의응답-데이터 포맷_1

     

    2. 데이터 구성

    • 총 용량 : 181GB
    • 총 데이터 수 : 원천데이터 - 38467개, 라벨링데이터 - 20개
    • Dataset 폴더 구조 및 카테고리별 원천데이터 수:
    • (라벨링데이터의 경우 카테고리당 1개 씩)

     

    Dataset구조(원천/라벨링데이터 폴더 구조 동일)         
            ㄴ생활안전
                ㄴ사고발생
                    ㄴ대본O  
                    ㄴ대본X 
                ㄴ산업안전
                    ㄴ대본O 
                    ㄴ대본X 
                ㄴ자연재해  
                    ㄴ대본O 
                    ㄴ대본X   
                ㄴ치안안전
                    ㄴ대본O         
                    ㄴ대본X   
            ㄴ스포츠
                ㄴ배구
                    ㄴ대본X          
                ㄴ야구        
                    ㄴ대본X   
            ㄴ예능교양
                ㄴ건강
                    ㄴ대본O         
                    ㄴ대본X    
                ㄴ다큐
                    ㄴ대본O       
                    ㄴ대본X    
                ㄴ시사
                    ㄴ대본X 
                ㄴ여행
                    ㄴ대본X   
                ㄴ음식
                    ㄴ대본O          
                    ㄴ대본X   
                ㄴ정보 
                    ㄴ대본X              
                ㄴ주거
                    ㄴ대본X  

     

    3. 어노테이션 포맷

    1. 데이터 포맷
    구분 항목명 타입 필수여부 설명 범위 비고
    1 correct_idx Number Y 정답순번    
    2 answers[] Object Y 정답정보    
    3 qid Number Y 질문식별키    
    4 que String Y 질문    
    5 QA_queType String Y 질문 타입 [시각적질의,  
    맥락적질의]
    6 QA_queTypeSub String Y 질문 유형 [위치, 방향, 행동, 장소, 색상, 지칭, 수량, 인과관계, 인물관계, 시간순서, 발화내용, 감정, 용도, 상황]  
    7 sumType String Y 요약구분 [행동, 상황, 추론]  
    8 sum String Y 요약    
    9 vid String Y 영상파일정보    
    10 script String   대본    
    11 sentiment String Y 감정 [긍정,  
    중립,
    부정]
    12 sum_vidSitu String Y 상황 [일상,  
    업무(작업), 휴식, 유희, 이동, 경기, 행사, 정보전달, 사고/사건, 기타]
    13 sum_vidPlace String Y 환경(장소) [교육시설, 여가시설, 영업시설, 운송시설, 통행시설, 체육시설, 작업현장, 주거공간, 자연, 기타]  
    14 category_code String Y 대분류 [생활안전, 스포츠, 예능교양]  
    15 category_name String Y 소분류 [사고발생, 산업안전, 자연재해, 치안안전, 배구, 야구, 건강, 다큐, 시사, 여행, 음식, 정보, 주거]  
    16 script_exi number Y 대본 유무    

     

     

    4. 실제예시

    {        "correct_idx": 0,
            "answers": [
                "헬멧",
                "인형탈",
                "머리띠",
                "두건",
                "방독면"
            ],
            "qid": 7465743,
            "que": "왼쪽에 있는 사람이 머리에 착용한 것은 무엇입니까",
            "QA_queType": "시각적질의",
            "QA_queTypeSub": "지칭",
            "sumType": "행동",
            "sum": "가운데에 있는 사람이 앉는다\n그 사람이 물건을 집는다\n그 사람이 일어서서 양손으로 물건을 만진다",
            "vid": "output_enter_H_00466.mp4",
            "script": "a: 그.. 오늘 해주실 게 이 파이프를.. 이게 온수거든요? 예, 그래서 위에",
            "sentiment": "중립",
            "sum_vidSitu": "업무(작업)",
            "sum_vidPlace": "작업현장",
            "category_code": "예능교양",
            "script_exi": 1,
            "train_type": "train"
        }

     

     

  • 데이터셋 구축 담당자

    수행기관(주관) : 주식회사 써로마인드
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    하지혜 02-872-5127 jhha@surromind.ai 과제 총 관리 및 모델 개발
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    (주)KDX한국데이터거래소 데이터 수집 및 정제
    ㈜유클리드 소프트 데이터 가공
    공주대학교 데이터 검증
    한국과학기술원 해커톤 경진 대회 진행 및 관리
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    하지혜 02-872-5127 jhha@surromind.ai
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.