콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#AI학습용데이터 # 동남아시아언어데이터 # 태국어OCR # 캄보디아어OCR

BETA 동남아시아 고품질 OCR 데이터

동남아시아 고품질 OCR 데이터 아이콘 이미지
  • 분야지식재산
  • 유형 이미지
  • 생성 방식LMM
구축년도 : 2025 갱신년월 : 2026-06 조회수 : 1,527 다운로드 : 8 용량 :
샘플(경량) 데이터 ?

※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2026-06-05 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2026-06-05 산출물 최종 공개

    소개

    태국어와 캄보디아어(크메르어)의 복잡한 문자 구조를 정밀하게 인식할 수 있도록 구축된 고품질 OCR 데이터는 저자원 언어 환경에서 문서 디지털화와 병기 번역, LLM 학습까지 가능한 핵심적인 역할을 하도록 구축함.

    구축목적

    ㅇ 초거대 AI 시대, 동남아 언어 데이터 확보
    ㅇ 동남아 손글씨 자료 AI 활용 기반 마련
  • ▶ 데이터 구축 규모

    ▶ 데이터 구축 규모
    RFP 제시량 원시데이터 수량 원천데이터 수량 라벨링 데이터 수량
    비율 : 100% 비율 : 200% 비율 : 160% 비율 : 160%
    . 손글씨 이미지 20만 장 이상
    . 텍스트 라벨링 20만 건 이상
    . QA셋 1만 개 이상
    . 손글씨 이미지 40만 장 이상 . 전처리 이미지 32만장 이상
    (321,210장)
    . 라벨링 텍스트32만장 이상 (321,210장)
    . QA셋 1.6만 개 

     

    ▶ 데이터 분포

    ▶ 데이터 분포
    항목 세부 분류 비율(%)
    연령대 초등학생 (10~12세) 25.20%
    중·고등학생 (13~18세) 29.74%
    성인1 (19~29세) 20.30%
    성인2 (30~49세) 24.76%
    직업군 학생군 54.94%
    일반 사무직 및 교직자 25.12%
    판매/서비스/생산직 19.93%
    수기 도구
    (필기 도구)
    연필 34.96%
    볼펜 35.06%
    싸인펜/형광펜 등 굵은 필기구 10.02%
    디지털펜 19.95%
    종이 유형 줄노트 39.97%
    무지 30.02%
    A4 문서 양식 30.01%
    수집 방식 스캔 80.05%
    디지털펜 19.95%
    문장길이 단문(20~30단어) 43.13%
    중문(31~40단어) 39.50%
    장문(41단어 이상) 17.37%
    주제별 가족 관계 표현 4.90%
    감정 표현 4.94%
    건강/병원 관련 5.75%
    시간/날짜 표현 5.09%
    실생활 장소 표현 4.84%
    공공 안내문 표현 4.45%
    쇼핑/가격 관련 4.96%
    음식/요리 표현 5.63%
    명령문 표현 5.73%
    의문문 표현 8.21%
    (SNS포함)
    고유명사/지명 표현 0.00%
    교육/학습 표현 4.59%
    교육기관 표현 4.69%
    교통/이동 표현 3.93%
    전화/통신 표현 4.29%
    정부/제도 표현 4.60%
    직업/노동 표현 4.38%
    여행/관광 표현 4.79%
    날씨/계절 표현 5.14%
    취미/자기소개 표현 4.85%

     

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. 손-글씨 OCR 인식 
    ○ 임무 정의
    - 손-글씨 OCR 인식
    ㅇ 태국어/캄보디아어 손글씨 OCR 인식(Recongnition)

     

    ○ 임무 선정 사유
    - 모델의 OCR 인식 텍스트와 정답 전사(GT)를 문자 단위로 정렬해 CER (Character Error Rate)을 산출하여 인식 성능을 검증

     

    ○ 학습 모델 개발 환경
    - 학습 환경: Amazon Linux, Python, Pytorch, GPU
    - 모델리소스 및 자원 활용: 고성능 GPU 서버를 사용하여 모델 학습을 진행
    - 모델 개발: 1-Cycle 자가 점검 계획에 맞춰 모델 개발
    - 성능 지표 결과를 통해 가장 성능이 우수한 모델로 최종 선정

     

    ○ 최종 선정 모델
    - Qwen3-VL-8B-Instruct
    - Hugging Face 사이트로부터 다운로드 가능

    Qwen/Qwen3-VL-8B-Instruct 모델 이미지

    [ Qwen/Qwen3-VL-8B-Instruct 모델 ]

     

    ○ 학습 데이터 생성
        - 학습 데이터 분할(8:1:1 로 분할)
           * train – 전처리 이미지, 라벨링json
           * valid – 전처리 이미지, 라벨링json
           * test - 전처리 이미지, 라벨링.json

     

    ○ AI 모델 성능

    ○ AI 모델 성능
    AI Task 알고리즘 데이터 수량 성능지표 목표치 평가결과
    총 구축량 학습(80%) 평가(10%)
    손-글씨 OCR 인식-태국어 Qwen3-VL-8B-Instruct 손-글씨 이미지 154,220 건
    캡션기준 154,220 건
    캡션기준
    123,376 건
    캡션기준
    15,422 건
    CER 17% 이하 7.74%
    손-글씨 OCR 인식-캄보디아어 Qwen3-VL-8B-Instruct 손-글씨 이미지 150,991 건
    캡션기준 150,991 건
    캡션기준
    120,793 건
    캡션기준
    15,100 건
    CER 17% 이하 3.43%

     

    2. - 손-글씨 기반 질의응답

    ○ 임무 정의
    - 손-글씨 기반 질의응답
    ㅇ 손글씨 작성 문서 기반 질의응답
    ㅇ 이미지 포함 현지어 손글씨 문서 기반 질의응답

     

    ○ 임무 선정 사유
    - 평가용 테스트셋을 4지선다형(MCQA)으로 구성하고, 모델이 생성한 응답을 보기 4개와 비교해 가장 높은 유사도를 갖는 선택지를 최종 답으로 선택하여 최종 선택지의 정오 여부를 기반으로 F1-score를 산출

     

    ○ 학습 모델 개발 환경
    - 학습 환경: Amazon Linux, Python, Pytorch, GPU
    - 모델리소스 및 자원 활용: 고성능 GPU 서버를 사용하여 모델 학습을 진행
    - 모델 개발: 1-Cycle 자가 점검 계획에 맞춰 모델 개발
    - 성능 지표 결과를 통해 가장 성능이 우수한 모델로 최종 선정

     

    ○ 최종 선정 모델
    - Qwen3-8B
    - Hugging Face 사이트로부터 다운로드 가능

    Qwen/Qwen3-8B 모델 이미지

    [ Qwen/Qwen3-8B 모델 ]

     

    ○ 학습 데이터 생성
    - 학습 데이터 분할(8:1:1 로 분할)
           * train – 전처리 이미지, 라벨링json
           * valid – 전처리 이미지, 라벨링json
           * test - 전처리 이미지, 라벨링.json

     

    ○ AI 모델 성능

    ○ AI 모델 성능
    AI Task 알고리즘 데이터 수량 성능지표 목표치 평가결과
    총 구축량 학습(80%) 평가(10%)
    손-글씨 기반 질의응답-태국어 Qwen3-VL-8B-Instruct 손-글씨 이미지 8,000 건
    캡션기준 8,000 건
    캡션기준
    6,400 건
    캡션기준
    800 건
    F1 Score 75% 이상 77.78%
    손-글씨 기반 질의응답-캄보디아어 Qwen3-VL-8B-Instruct 손-글씨 이미지 150,991 건
    캡션기준 150,991 건
    캡션기준
    6,400 건
    캡션기준
    800 건
    F1 Score 60% 이상 66.18%

     

    3. 손-글씨 자동번역

    ○ 임무 정의
    - 손-글씨 자동번역
    ㅇ 태국어/캄보디아어 손글씨 자동 번역(현지어 -> 한국어)

     

    ○ 임무 선정 사유
    - 생성된 번역문과 정답 번역문을 문장 단위로 비교한 뒤, SentencePiece 기반 서브워드 토크나이저를 적용하여 토큰화하고, spBLEU 지표를 사용해 토큰 기반 유사도를 정량적으로 산출

     

    ○ 학습 모델 개발 환경
    - 학습 환경: Amazon Linux, Python, Pytorch, GPU
    - 모델리소스 및 자원 활용: 고성능 GPU 서버를 사용하여 모델 학습을 진행
    - 모델 개발: 1-Cycle 자가 점검 계획에 맞춰 모델 개발
    - 성능 지표 결과를 통해 가장 성능이 우수한 모델로 최종 선정

     

    ○ 최종 선정 모델
    - Qwen3-8B
    - Hugging Face 사이트로부터 다운로드 가능

    Qwen/Qwen3-8B 모델 이미지

    [ Qwen/Qwen3-8B 모델 ]

     

    ○ 학습 데이터 생성
    - 학습 데이터 분할(8:1:1 로 분할)
           * train – 전처리 텍스트, 라벨링json
           * valid – 전처리 텍스트, 라벨링json
           * test - 전처리 텍스트, 라벨링.json

     

    ○ AI 모델 성능

    ○ AI 모델 성능
    AI Task 알고리즘 데이터 수량 성능지표 목표치 평가결과
    총 구축량 학습(80%) 평가(10%)
    손-글씨 자동번역-태국어 Qwen3-8B 텍스트 25,134 건 캡션기준 캡션기준 spBLEU 35 이상 58.01
    캡션기준 25,134 건 20,107 건 2,514 건
    손-글씨 자동번역-캄보디아어 Qwen3-8B 텍스트 28,629 건 캡션기준 캡션기준 spBLEU 30 이상 53.18
    캡션기준 28,629 건 28,629 건 2,864 건

     

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    ▶  데이터 구성

    ▶  데이터 구성
    구분  획득/수집 단계  정제 단계 가공 단계
    데이터 구분 원시데이터 원천데이터 라벨링데이터
    데이터 형태 이미지 정제 이미지 바운딩 박스(이미지)

     

    ▶  어노테이션 포맷
     ○ 일반 라벨링 데이터(QA 제외)

    ▶  어노테이션 포맷  ○ 일반 라벨링 데이터(QA 제외)
    구분 속성명 타입 필수
    여부
    설명 범위 비고
    1 basic_info object Y 기본정보    
      1.1 image_id string Y 이미지 고유 식별자    
    1.2 language string Y 데이터 언어   "TH", "KH"
    1.3 full_text_korean string Y 병기될 한국어 번역문    
    1.4 full_text_local string Y 라벨링된 태국어 원문    
    1.5 subject string Y 문장 주제   "가족 관계", "감정", "건강/병원", "시간/ 날짜", "실생활 장소", "공공 안내문", "쇼핑 /가격", "음식/요리", "명령문", "의문문", "고유명사/지명", "교육/학습", "교육기관", "교통/이동", "전화 /통신", "정부/제도", "직업/노동", "여행/관광", "날씨/계절", "취미/자기소개"
    2 metadata object Y 메타데이터    
      2.1 writer_info object Y 작성자 정보    
      2.1.1 age_group string Y 작성자 연령대   "A1","A2","A3","A4"
    2.1.2 gender string Y 작성자 성별   "남성", "여성"
    2.1.3 job_group string Y 작성자 직업군   "학생군", "사무직", 
    "현장직"
    2.2 environment_info object   작성환경    
      2.2.1 writing_tool string Y 사용 필기구   "연필", "볼펜", "싸인펜", "디지털펜"
    2.2.2 paper_type string Y 사용 종이 유형   "줄노트", "무지", "A4 문서 양식"
    2.3 source_info     수집방식    
      2.3.1 collection_method string Y 데이터 수집 방식   "스캔", "디지털펜"
    2.3.2 image_resolution string Y 이미지 해상도   스캔: 300dpi 이상, 디지털펜: "1587*2245"
    2.3.3 capture_date string N 원본 수집 일자    
    3 annotations object Y 어노테이션    
      3.1 bbox object Y BBox 정보    
      3.1.1 sentence_text string Y 문장 전체 텍스트    
    3.1.2 sentence_box array Y 문장 바운딩 박스   [x1, y1, x2, y2]
    3.1.3 words array Y 단어 단위 라벨링    
      3.1.3.1 word_text string Y 단어 텍스트    
    3.1.3.2 word_box array Y 단어 바운딩 박스   [x1, y1, x2, y2]

     

     ○ QA 라벨링 데이터

     ▶  어노테이션 포맷 ○ QA 라벨링 데이터
    구분 속성명 타입 필수 여부 설명 범위 비고
    1 basic_info object Y 기본정보    
      1.1 image_id string Y 이미지 고유 식별자    
    1.2 language string Y 데이터 언어   "TH", "KH"
    1.3 full_text_korean string Y 병기될 한국어 번역문    
    1.4 full_text_local string Y 라벨링된 태국어 원문    
    1.5 subject string Y 문장 주제   "가족 관계", "감정", "건강/병원", "시간/ 날짜", "실생활 장소", "공공 안내문", "쇼핑 /가격", "음식/요리", "명령문", "의문문", "고유명사/지명", "교육/학습", "교육기관", "교통/이동", "전화 /통신", "정부/제도", "직업/노동", "여행/관광", "날씨/계절", "취미/자기소개"
    2 metadata object Y 메타데이터    
      2.1 writer_info object Y 작성자 정보    
      2.1.1 age_group string Y 작성자 연령대   "A1","A2","A3","A4"
    2.1.2 gender string Y 작성자 성별   "남성", "여성"
    2.1.3 job_group string Y 작성자 직업군   "학생군", "사무직", 
    "현장직"
    2.2 environment_info object   작성환경    
      2.2.1 writing_tool string Y 사용 필기구   "연필", "볼펜", "싸인펜", "디지털펜"
    2.2.2 paper_type string Y 사용 종이 유형   "줄노트", "무지", "A4 문서 양식"
    2.3 source_info     수집방식    
      2.3.1 collection_method string Y 데이터 수집 방식   "스캔", "디지털펜"
    2.3.2 image_resolution string Y 이미지 해상도   스캔: 300dpi 이상, 디지털펜: "1587*2245"
    2.3.3 capture_date string N 원본 수집 일자    
    3 annotations object Y 어노테이션    
      3.1 bbox object Y BBox 정보    
      3.1.1 sentence_text string Y 문장 전체 텍스트    
    3.1.2 sentence_box array Y 문장 바운딩 박스   [x1, y1, x2, y2]
    3.1.3 words array Y 단어 단위 라벨링    
      3.1.3.1 word_text string Y 단어 텍스트    
    3.1.3.2 word_box array Y 단어 바운딩 박스   [x1, y1, x2, y2]
    4 qa_set object Y QA셋 정보    
      4.1 turn_type string Y 질의응답 유형   “none”, "single-turn", 
    "multi-turn"
    4.2 raw_data object Y 인풋 데이터 정보    
      4.2.1 story_local string Y 현지어 입력값    
    4.2.2 story_korean string Y 한국어 번역    
    4.3 first_turn object Y 첫 번째 턴 정보    
      4.3.1 turn_id number Y 턴ID    
    4.3.2 questions object Y 질문 정보    
      4.3.2.1 input_text string Y 질문 (현지어)    
    4.3.2.2 input_text_korean string Y 질문 (한국어)    
    4.3.3 answers object Y 대답 정보    
      4.3.3.1 span_start number Y      
    4.3.3.2 span_end number Y      
    4.3.3.3 span_text string Y      
    4.3.3.4 input_text array Y 대답 (현지어) 배열    
    4.3.3.5 input_text_korean array Y 대답 (한국어) 배열    
    4.4 second_turn object N 두 번째 턴 정보    
      4.4.1 turn_id number N 턴ID    
    4.4.2 questions object N 질문 정보    
      4.4.2.1 input_text string N 질문 (현지어)    
    4.4.2.2 input_text_korean string N 질문 (한국어)    
    4.4.3 answers object N 대답 정보    
      4.4.3.1 span_start number N      
    4.4.3.2 span_end number N      
    4.4.3.3 span_text string N      
    4.4.3.4 input_text array N 대답 (현지어) 배열    
    4.4.3.5 input_text_korean array N 대답 (현지어) 텍스트    

     

    ▶ 데이터 포맷

    ▶ 데이터 포맷
    원시데이터 원천데이터 라벨링데이터
    .png .png .json 

     

    ▶ 실제 예시
     ○ 원시데이터 예시

    원시데이터 예시 이미지

     ○ 원천데이터 예시

    원천데이터 예시1 태국어 이미지

    <원천데이터 예시1_태국어>
    원천데이터 예시2 캄보디아어 이미지

    <원천데이터 예시2_캄보디아어>

     

     ○ 라벨링데이터 예시(.json)

    {  "basic_info": {
        "image_id": "KH_D_A1_00007.png",
        "language": "KH",
        "full_text_korean": "많은 사람들이 일상생활에서 가고 싶어하는 곳은 학교입니다. 왜냐하면 학교에서 새로운 지식을 얻고 지적 능력을 향상시킬 수 있기 때문입니다.",
        "full_text_local": "កន្លែងដែលមនុស្សច្រើនចូលចិត្តទៅក្នុងជីវិតប្រចាំថ្ងៃគឺសាលារៀន ព្រោះនៅទីនោះពួកគេអាចទទួលបានចំណេះដឹងថ្មីៗ និងបង្កើនសមត្ថភាពបញ្ញារបស់ខ្លួនបាន។",
        "subject": "실생활 장소"
      },
      "metadata": {
        "writer_info": {
          "age_group": "A1",
          "gender": "여성",
          "job_group": "학생군"
        },
        "environment_info": {
          "writing_tool": "디지털펜",
          "paper_type": "줄노트"
        },
        "source_info": {
          "collection_method": "디지털펜",
          "image_resolution": "300dpi",
          "capture_date": "2025-08-12"
        }
      },
      "annotations": {
        "bbox": {
          "sentence_text": "កន្លែងដែលមនុស្សច្រើនចូលចិត្តទៅក្នុងជីវិតប្រចាំថ្ងៃគឺសាលារៀន ព្រោះនៅទីនោះពួកគេអាចទទួលបានចំណេះដឹងថ្មីៗ និងបង្កើនសមត្ថភាពបញ្ញារបស់ខ្លួនបាន។",
          "sentence_box": [
            44.10042936960856,
            21.13645494249132,
            2346.963762702942,
            627.153121609158
          ],
          "words": [
            {
              "word_text": "កន្លែង",
              "word_box": [
                [
                  56.53154048071967,
                  55.32201049804687,
                  305.1537627029419,
                  251.11201049804686
                ]
              ]
            },
            ...
          ]
        }
      },
      "qa_set": {
        "turn_type": "multi_turn",
        "raw_data": {
          "story_local": "កន្លែងដែលមនុស្សច្រើនចូលចិត្តទៅក្នុងជីវិតប្រចាំថ្ងៃគឺសាលារៀន ព្រោះនៅទីនោះពួកគេអាចទទួលបានចំណេះដឹងថ្មីៗ និងបង្កើនសមត្ថភាពបញ្ញារបស់ខ្លួនបាន។",
          "story_korean": "많은 사람들이 일상생활에서 가고 싶어하는 곳은 학교입니다. 왜냐하면 학교에서 새로운 지식을 얻고 지적 능력을 향상시킬 수 있기 때문입니다."
        },
        "first_turn": {
          "turn_id": 1,
          "questions": {
            "input_text": "មនុស្សច្រើនចូលចិត្តទៅកន្លែងណា?",
            "input_text_korean": "많은 사람들이 가고 싶어하는 곳은 어디인가요?"
          },
          "answer": {
            "span_start": 0,
            "span_end": 40,
            "span_text": "សាលារៀន",
            "input_text": [
              "សាលារៀន",
              "សាលារៀន"
            ],
            "input_text_korean": [
              "학교",
              "학교"
            ]
          }
        },
        "second_turn": {
          "turn_id": 2,
          "questions": {
            "input_text": "តើហេតុអ្វីបានជា​សាលារៀនគឺកន្លែងដែលមនុស្សច្រើនចូលចិត្ត?",
            "input_text_korean": "왜 학교가 많은 사람들이 좋아하는 곳인가요?"
          },
          "answer": {
            "span_start": 41,
            "span_end": 99,
            "span_text": "ទទួលបានចំណេះដឹងថ្មីៗ និងបង្កើនសមត្ថភាពបញ្ញា",
            "input_text": [
              "ពួកគេអាចទទួលបានចំណេះដឹងថ្មីៗ និងបង្កើនសមត្ថភាពបញ្ញារបស់ខ្លួន",
              "ទទួលបានចំណេះដឹងថ្មីៗ និងបង្កើនសមត្ថភាពបញ្ញា"
            ],
            "input_text_korean": [
              "새로운 지식을 얻고 지적 능력을 향상시킬 수 있기 때문입니다.",
              "새로운 지식을 습득하고 지적 역량을 키우다"
            ]
          }
        }
      }
    }

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜유핏
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김희곤 1544-9730 koscokim@ufits.co.kr 사업총괄 관리, 데이터 수집, 가공, 검수, 저작도구
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜피씨엔 데이터 정제
    ㈜도스트11 AI학습모델
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    ㈜유핏 안동철 070-4012-1836 ceo@ufits.co.kr
    ㈜유핏 김희곤 070-4012-1836 koscokim@ufits.co.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    ㈜도스트11 양효걸 070-4012-1836 amadeus@mbc.co.kr
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    ㈜유핏 안동철 070-4012-1836 ceo@ufits.co.kr
    ㈜유핏 김희곤 070-4012-1836 koscokim@ufits.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.

방송영상 데이터 개방 안내

방송영상 데이터는 열람서비스를 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의