-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2024-12-04 서브라벨링 추가 개방 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 관광분야 설명문 생성을 위해 다양한 관광분야의 요금표, 시간표, 안내도, 이정표 등 다양한 표, 도표 이미지와 라벨링 쌍 데이터
구축목적
- 다양한 관광분야 표, 도표 이미지의 내용 정보를 구조화된 요약문 및 설명문으로 자동 추출하기 위한 목적으로 구축된 데이터셋
-
메타데이터 구조표 데이터 영역 문화관광 데이터 유형 이미지 데이터 형식 png 데이터 출처 직접수집 라벨링 유형 바운딩박스(이미지) 라벨링 형식 json 데이터 활용 서비스 시각장애인 안내 서비스, 챗봇 서비스 등 데이터 구축년도/
데이터 구축량2023년/원천데이터(280,000장), 라벨링데이터(280,000건) 서브라벨링(원천데이터 10,000장, 라벨링데이터 10,000건) -
- 데이터 통계
데이터 통계 항목 수량 분표 메인 카테고리 서브 카테고리 표 요금표 13,360건 4.77% 시간표 24,768건 8.85% 요금/시간 통합표 5,368건 1.92% 관광정보 및 프로그램표 13,256건 4.73% 도표 안내도 94,400건 33.71% 이정표 48,915건 17.47% 입장권 51,584건 18.42% 기타 28,349건 10.12% (포스터/배너,현수막) -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 모델학습
1. EasyOCR기반 문자인식 모델개발
- 문자인식(OCR)을 위해 CRAFT(Object Detection)와 CRNN(Text Recongnition)을 파이프라인으로 구성한 EasyOCR을 사용
- 본 과제에서는 CRNN모델을 학습데이터로 학습하며, CRAFT는 라벨링 규칙에 맞추어 파라미터 튜닝 함
- 따라서, 학습은 CRNN 모델만 진행하며, 평가는 CRAFT+CRNN으로 구성된 파이프라인의 결과값으로 성능평가
2. T5기반 문장생성 모델개발- 문장생성을 위해 T5(Text-To-Text Transfer Transformer)의 한국어 버전 중 하나인 pko-t5를 파인튜닝 함
- OCR 라벨링데이터를 입력으로 하여 해당 이미지에 대한 설명 문장을 생성
-문자인식된 텍스트를 기반으로 설명문 생성을 해야하는 제약조건 충족을 위해 OCR 라벨링데이터에서 제목영역, 텍스트영역, 표 영역 정보를 추출하고, 설명문 생성에 적합한 형태로 전처리.
- 전처리된 제목 정보, 텍스트 정보, 표 정보 기반으로 T5 문장생성 모델을 이용하여 해당 이미지에 대한 설명문 생성
3. YOLOv8를 기반 표 영역 탐지 모델개발- 관광이미지 내의 표 존재여부를 판단하는 모델을 개발
- 객체탐지인식 알고리즘인 YOLO(You Only Look Once)의 YOLOv8m 모델을 파인튜닝 함
-YOLOv8의 Object Detection 기능을 이용하여 표 영역 탐지 진행
-표 영역 탐지를 통해 표 존재 여부를 판단
- 서비스활용
- 시각적 문해력 취약계층을 위한 관광 이미지 설명 서비스에 활용할 수 있음
- 자동 생성된 이미지-텍스트 쌍 데이터 기반 관광 특화 질의응답 서비스에 사용할 수 있음
- 관광지 여행 어시스턴트 서비스에 적용할 수 있음 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 구성
데이터 구성 항목 설명 타입 year 생성년도 string version 버전정보 number date_created 생성일자 string date_modified 변경일자 string captioningYN 이미지캡션 여부 string name 원시파일명 string id 원시파일 아이디 string format 원시이미지 형식 string size 원시이미지 크기 number width 원시이미지 너비 number height 원시이미지 높이 number address 원시이미지 수집 주소 string gps 원시이미지 위치정보 string date_captured 원시데이터 수집일자 string data_source 수집유형 string tour_name 관광지명 string tour_main_category 관광 대분류 string tour_sub_category 관광 중분류 string camera_model 원시데이터 수집기기 string name 원천파일명 string id 원천파일 아이디 string format 원천파일 형식 string size 원천이미지 크기 number width 원천이미지 너비 number height 원천이미지 높이 number main_category 데이터 표유형 string sub_category 데이터 표 세부유형 string unit 단위 유무 number legend 범례 유무 number ocr 가공전 ocr 정보 array ocr_labels ocr 라벨링 array type 라벨링 타입 string bbox 바운딩박스 object x 바운딩박스 좌상x값 number y 바운딩박스 좌상y값 number width 바운딩박스 너비 number height 바운딕박스 높이 number _class 클래스 유형 string text ocr 정보 string attribute 설명문 사용 여부 string tables 표 라벨링 array type 라벨링 타입 string bbox 바운딩박스 object x 바운딩박스 좌상x값 number y 바운딩박스 좌상y값 number width 바운딩박스 너비 number height 바운딕박스 높이 number _class 클래스 유형 string table 표바운딩박스 유형 array description 설명문 내용 string - 어노테이션 포맷
어노테이션 포맷 No 항목(영문명) 항목(한글명) 타입 필수 여부 비고 1 info object Y 1-1 year 생성년도 string Y 1-2 version 버전정보 number Y 1 1-3 date_created 생성일자 string Y 1-4 date_modified 변경일자 string Y 1-5 captioningYN 이미지캡션 여부 string Y "Y","N" 2 orgin_image object Y 2-1 name 원시파일명 string Y 2-2 id 원시파일 아이디 string Y 2-3 format 원시이미지 형식 string Y jpg 2-4 size 원시이미지 크기 number Y 2-5 width 원시이미지 너비 number Y 2-6 height 원시이미지 높이 number Y 2-7 address 원시이미지 수집 주소 string Y 2-8 gps 원시이미지 위치정보 string N 2-9 date_captured 원시데이터 수집일자 string Y 2-10 data_source 수집유형 string Y "현장수집","웹수집" 2-11 tour_name 관광지명 string Y 2-12 tour_main_category 관광 대분류 string Y "자연","인문","교통시설","레포츠","쇼핑, 숙박" 2-13 tour_sub_category 관광 중분류 string Y 2-14 camera_model 원시데이터 수집기기 string Y 3 source_image object Y 3-1 name 원천파일명 string Y 3-2 id 원천파일 아이디 string Y 3-3 format 원천파일 형식 string Y png 3-4 size 원천이미지 크기 number Y 3-5 width 원천이미지 너비 number Y 3-6 height 원천이미지 높이 number Y 3-7 main_category 데이터 표 유형 string Y "표","도표" 3-8 sub_category 데이터 표 세부유형 string Y "요금표","시간표","요금/시간 통합표","관광정보 및 프로그램표","안내도","이정표","입장권","기타(포스터, 배너)" 3-9 unit 단위 유무 number Y 1, 0 3-10 legend 범례 유무 number Y 1, 0 3-11 ocr 가공전 ocr 정보 array Y 4 annotations object Y 4-1 ocr_labels ocr 라벨링 array Y 4-1-1 {} object Y 4-1-2 type 라벨링 타입 string Y 4-1-3 bbox 바운딩박스 object Y 4-1-4 x 바운딩박스 좌상x값 number Y 4-1-5 y 바운딩박스 좌상y값 number Y 4-1-6 width 바운딩박스 너비 number Y 4-1-7 height 바운딕박스 높이 number Y 4-1-8 _class 클래스 유형 string Y "제목","텍스트" 4-1-9 text ocr 정보 string Y 4-1-10 attribute 설명문 사용 여부 string Y "사용","미사용" 4-2 tables 표 라벨링 array Y 4-2-1 {} object N 4-2-2 type 라벨링 타입 string N “표 열 영역”, “표 행 영역”, “표 헤더 영역”, “표 병합 영역” 4-2-3 bbox 바운딩박스 object N 4-2-4 x 바운딩박스 좌상x값 number N 4-2-5 y 바운딩박스 좌상y값 number N 4-2-6 width 바운딩박스 너비 number N 4-2-7 height 바운딩박스 높이 number N 4-2-8 _class 클래스 유형 string N "테이블" 4-2-9 table 표바운딩박스 유형 array N 5 descriptions object Y 5-1 description 설명문 내용 string Y 원천데이터 및 json 예시 원천데이터 및 json 예시 설명문(Description) 다음은 관람료 안내에 대한 정보입니다.
개인/단체에 대한 내용을 설명합니다.
성인은 1,100원/800원입니다.
청소년은 500원/300원입니다.
어린이는 무료/무료입니다. -
데이터셋 구축 담당자
수행기관(주관) : ㈜에프아이솔루션
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 오재만 070-7872-7748 jaeman1003@fisolution.co.kr 주관업무, 데이터 정제, 가공(라벨링), 검사 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜더바이럴 데이터 획득/수집 ㈜보인정보기술 저작도구, 인공지능 모델 ㈜그루크리에이티브랩 데이터 검수, 품질검사 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 백승진 070-7872-7748 sjbeak@fisolution.co.kr 최순배 070-7872-7748 sbchoi@fisolution.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 김현영 02-6949-1441 hykim@boinit.com 곽미영 02-6949-1441 mykwak@boinit.com 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 김현영 02-6949-1441 hykim@boinit.com 지선영 02-6949-1441 syji@boinit.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.