콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#피노믹스 # 종자 # 디지털 피노타이핑 # 영상 식물학 # 표현형

작물 디지털 피노타이핑 데이터

작물 디지털 피노타이핑
  • 분야농축수산
  • 유형 텍스트 , 이미지
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 4,014 다운로드 : 93 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-13 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-10-21 신규 샘플데이터 개방
    2022-07-13 콘텐츠 최초 등록

    소개

    • 국립농업과학원, 한국원자력연구원, 한국과학기술연구원이 기 확보하고 있는 ‘Plant-to-Sensor’ (컨베이어로 화분이 영상 데이터 획득용 챔버로 이동하고, 다각도 RGB, LiDAR, 열화상, 초분광, 엽록소형광 데이터 획득) 타입과 ‘Sensor-to-Plant’ (화분 및 육묘트레이는 고정되어 있고, XYZ 스테이지를 통해 카메라 모듈이 이동하여 RGB 영상 데이터 획득) 타입의 피노타이핑 인프라를 활용하여, 벼, 밀, 콩, 상추, 배추 육종에 적용될 수 있는 주요 표현형(농업 형질) 영상 데이터 획득 및 획득 체계 확립
    - 벼, 콩, 밀 다각도 RGB 이미지 600,000장 구축
    - 밀, 콩 다각도 LiDAR 데이터 140,000장 구축
    - 배추, 상추 품종/유전자원 구분 및 생중량 예측용 RGB 데이터 30,000장 구축
    - 엽록소 형광(상추), 초분광(밀), 열화상(콩) 데이터 20,000 장 구축

    구축목적

    • 구축된 인공지능 학습용 데이터를 활용하여 주요 작물(벼, 밀, 콩)의 표현형(농업 형질인 초장, 폭, 꽃, 과실) detection 인공지능 모델, 작물(배추, 상추)의 품종 구분 classification 인공지능 모델, 열화상(콩), 엽록소형광(상추), 초분광(밀) 영상에서 관심 부위 지표 추출을 위한 기준 부위 detection 인공지능 모델을 개발하고 이를 검증
  • 1. 구축 데이터 규모

    1. 구축 데이터 규모
    구분 성과목표 구축실적 달성율
    데이터셋명 다각도 RGB 데이터 60만 건 60만 건 100%
    탑뷰 RGB 데이터 12만 건 12만 건 100%
    엽록소 형광 데이터 1,000 건 1,000 건 100%
    초분광 데이터 7,000 건 7,000 건 100%
    열화상 데이터 12,000 건 12,000 건 100%
    LiDAR 데이터 14만 건 14만 건 100%

     

    2. 구축 데이터 분포

    구분 데이터 항목명 데이터 수 비율
    수집 데이터
    형태 분포
    다각도 RGB 600,000 건 75.90%
    다각도 LiDAR 140,000 건 17.70%
    Top view RGB 30,000 건 3.80%
    엽록소형광 1,000 건 0.10%
    다각도 열화상 12,000 건 1.50%
    초분광 7,000 건 0.90%
    작물별 분포 200,000 건 25.30%
    282,000 건 35.70%
    277,000 건 35.10%
    상추 21,000 건 2.70%
    배추 10,000 건 1.30%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. 모델 학습

    • 이미지 바운딩박스 객체 인식 : 객체 탐지 알고리즘 중에서 YOLO 계열의 YOLOv5를 사용하여 학습 모델 설계
      • AI 학습 중에서 image classification 은 주어진 이미지를 학습한 Class들 중 하나로 분류하는 학습으로 이미지에 하나의 객체가 있을 때 이 객체가 학습한 Class 중 어떠한 Class에 속하는지를 분류하기 위함
      • 딥러닝 기반 방식은 Feature Extractor와 Classifier가 분리되어 있는 기존 전통적인 머신 러닝 방법과는 달리 Feature Extractor, 즉 이미지의 특징(feature)을 뽑아내는 것과 Feature들을 통해 어떠한 class에 속하는지 분류하는 Classifier(분류기)를 학습하는 것이 통합되어 있어 한꺼번에(end-to-end) 학습이 가능
      • 이미지 내 특정 영역을 Detection한 후, cropping하여 그 부분이 어떠한 클래스에 속하는지 판단하는 용도로 생육 측정에 활용될 수 있음. 즉, Multi-Class Object Detection을 할 때 학습할 데이터가 부족한 경우, Multi-Class Object Detection Network 대신, One Class Object Detection + Classification의 2-Stage Approach로 활용
        • IoU ≧ 0.5 으로 그린 Precision-Recall Curve 아래 면적 AP를 11보간법으로 계산한 클래스 평균값
          작물 디지털 피노타이핑-모델학습_1
          작물 디지털 피노타이핑-모델학습_2
      • 본 과제에 사용된 YOLOv5 는 2020년에 발표된 구현으로 PyTorch 프레임웍 기반으로 개발되어서 최근에 사용되는 알고리즘.
      • YOLOv5 특징
        • v4에 비해 낮은 요량과 빠른 속도
        • YOLOv4와 같은 CSPNet 기반의 backbone 사용
        • PyTorch 기반으로 구현하여 darknet 기반의 이전 YOLO 버전과 다름 
        • YOLOv4에 비해 더 쉽게 학습 환경을 구성할 수 있고 더 빠른 학습 속도 제공
      • YOLOv5를 사용한 바운딩박스 객체인식은 이미지 유형 중에서 수중객체(type01) 이미지와 채집함(type02) 이미지에 대하여 사용함.

    2. 서비스 활용 시나리오

    1. 모델 학습
    응용서비스(예시) 데이터 명 AI 모델 모델 성능 지표
    인공지능 기반 벼, 콩, 밀 주요 표현형 지표추출 SW 서비스 다각도 RGB 데이터 벼, 콩, 밀 주요 표현형
    지표 추출을 위한 기준
    부위 detection 딥러닝
    (3작물 x 5생육단계 =
    15개 학습모델)
    잎 수, 식물체 키, 폭, 식물체 면적, 꽃, 종실 수/크기 측정에
    요구되는 기준 부위
    detection 성능(탐지
    정확도) 및 속도
    인공지능 기반 콩, 배추 3D 영상분석 SW
    서비스
    다각도 LiDAR 데이터 콩, 밀 3D 정합
    영상에서, 관심 부위 지표 추출을 위한 기준
    부위 detection 딥러닝
    (2작물 x 5생육단계 = 10개 학습모델)
    3D 정합 영상에서 잎, 꽃/종실 등 관심 영역 추출에 요구되는 기준 부위 detection 성능
    (탐지 정확도) 및 속도
    종자기업의 인공지능
    기반 배추, 상추
    유전자원 선발 및
    생산량 예측 SW 서비스
    작물품종/유전자원
    구분 및 생중량 예측 데이터
    배추, 상추 품종/유전자원 구분
    classification 학습모델
    (2작물 x 1생육단계 = 2개 학습모델)
    생중량 예측
    prediction(regression) 학습모델
    (2작물 x 1생육단계 = 2개 학습모델)
    품종 및 유전자원 구분 classification 정밀도, 생중량 예측 prediction 정밀도
    인공지능 기반
    엽록소형광, 초분광,
    열화상 영상분석 SW 서비스
    분광(엽록소형광,
    초분광, 열화상) 데이터
    콩 열화상, 상추
    엽록소형광, 밀 초분광
    영상에서, 관심 부위
    지표 추출을 위한 기준 부위 detection 딥러닝 학습모델
    (2작물 x 3종류 분광 = 6개 학습모델)
    열화상, 엽록소형광,
    초분광 영상에서
    식물체 부위 관심 영역 추출에 요구되는 기준
    부위 detection
    성능(탐지 정확도) 및 속도
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 바운딩박스 객체 인식 (다각도 RGB) Object Detection YOLO v5 mAP 70 % 74.5 %
    2 바운딩박스 객체 인식 (탑뷰 RGB) Object Detection YOLO v5 mAP 70 % 99.5 %
    3 바운딩박스 객체 인식 (엽록소형광) Object Detection YOLO v5 mAP 70 % 99.5 %
    4 바운딩박스 객체 인식 (초분광) Object Detection 3D CNN mAP 70 % 80.43 %
    5 바운딩박스 객체 인식 (열화상) Object Detection YOLO v5 mAP 70 % 96 %
    6 바운딩박스 객체 인식 (LiDAR) Object Detection RetinaNet mAP 70 % 99.84 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    구축 데이터 정의


    1. 데이터 포맷 정의

    • 다각도 RGB 데이터 
      • 원시데이터 포맷
        • 획득단계의 원시데이터는 영상데이터로 PNG 또는 JPG파일 형식으로 저장
        • 각 원시데이터는 2백만 화소 이상의 해상도로 촬영
        • 국립농업과학원: 하나의 식물체를 18도씩 회전시켜 총 20개의 원시데이터를 획득
        • KAERI, KIST: 하나의 식물체를 카메라 로봇팔이 10도 또는 36도 간격으로 회전하여 총 10개 또는 36개의 원시데이터를 획득
      • 라벨링데이터 포맷
        • 라벨링 데이터는 JSON 형식으로 저장, 원시데이터에 대한 이미지 정보와 일치되게 포함
    • 다각도 LiDAR 데이터 
      • 원시데이터 포맷
        • 획득단계의 RGB 원시데이터는 영상데이터로 JPG파일 형식으로 저장
        • 획득단계의 Depth 원시데이터는 카메라에서 식물체의 위치별 거리 데이터를 기반으로 csv파일, JPG 또는 PNG 파일 저장
        • 각 원시데이터는 1280X720 해상도로 촬영
        • 식물체를 중심축으로 카메라를 회전하여 LiDAR, RGB 원시데이터를 획득
      • 라벨링데이터 포맷
        • 라벨링 데이터는 JSON 형식으로 저장, 원시데이터에 대한 이미지 정보와 일치되게 포함
    • 분광(열화상, 엽록소형광, 초분광) 데이터 (KIST)
      • 원시데이터 포맷
        • 열화상: 이미지파일 JPG 또는 PNG(640x480), 텍스트파일 CSV파일 형식으로 저장
        • 엽록소형광: 이미지파일 PNG 또는 JPG, 텍스트파일 CSV파일 형식으로 저장
        • 초분광: 3D cube 형태의 his 파일과 파장정보를 가진 hdr 파일에서 변환된 RGB파일(PNG 또는 JPEG)로 저장(라벨링 시 컨버팅된 이미지를 이용)
      • 라벨링데이터 포맷
        • 라벨링 데이터는 JSON, XML, NPY 형식으로 저장, 원시데이터에 대한 이미지 정보와 일치되게 포함

    2. 데이터 속성 정의

    • 다각도 RGB 데이터
      구축 데이터 정의
      No 속성명 속성 설명 Type 필수여부 작성예시
      1 Collector and system 수집기관 및 수집 시스템 식별 정보 string 필수 KIST_XYZ
      2 Plant pot ID Tag 식물체 고유번호 및 실험체 이름 string 필수 A_02_04
      3 Snapshot Time Stamp 이미지 획득 날짜, 시간 string 필수 2020-03-21 14:38
      4 File Format 파일 형식(포맷) string   JPG, PNG
      5 Image Size 이미지 파일 크기 string   5MB
      6 Writer Label "촬영카메라_촬영각도" string 필수 VIS_SV0
      7 Width, Height 이미지 사이즈 string   1024x1024
      8 Aspect ratio 비율(종횡비) string   4:03
    • 다각도 LiDAR 데이터 
      No 속성명 속성 설명 Type 필수여부 작성예시
      1 Collector and system 수집기관 및 수집 시스템 식별 정보   필수 KIST_XYZ
      2 Plant pot ID Tag 식물체 고유번호 및 실험체 이름 string 필수 A_02_04
      3 Snapshot Time Stamp 이미지 획득 시간 string 필수 2020-03-21 14:38
      4 File Format 파일 형식(포맷)     JPG 또는 PNG(2개), CSV(1개)
      5 Image Size 이미지 파일 크기     JPG 또는 PNG(2개) : 2MB 이내
      CSV(1개) : 5MB 이내
      6 Writer Label "촬영카메라_촬영각도" string 필수 DEP_SV0
      7 Width, Height 이미지 사이즈     1280x720
      8 Aspect ratio 비율(종횡비)     16:09
    • 분광(열화상, 엽록소형광, 초분광) 데이터
      No 속성명 속성 설명 Type 필수여부 작성예시
      1 Collector and system 수집기관 및 수집 시스템 식별 정보   필수 KIST_XYZ
      2 Plant pot ID Tag 식물체 고유번호 및 실험체 이름 string 필수 A_02_04
      3 Snapshot Time Stamp 이미지 획득 시간 string 필수 2020-03-21 14:38
      4 File Format 파일 형식(포맷)     JPG 또는 PNG(2개), CSV(1개)
      5 Image Size 이미지 파일 크기     JPG 또는 PNG(2개) : 각 1MB이내 및 2MB 이내
      CSV(1개) : 100MB 이내
      6 Writer Label "촬영카메라_촬영각도" string 열화상 필수, 엽록소형광 및 초분광 해당없음 DEP_SV0
      7 Width, Height 이미지 사이즈     1280x720
      8 Aspect ratio 비율(종횡비)     16:09

    3. 특성 분류 정의

    • 다각도 RGB 데이터
      • 라벨링 작업 대상 및 범위, 클래스 분류 기준
        라벨링 작업
        대상 작물 
        작업 정의 작업 범위 클래스 분류 기준
        벼의 다각도 이미지 상 키, 폭, 주요 기관(출수 등) 부위를 복수로 바운딩 박스 표시하고, 규정된 class 분류 기준에 따라 라벨링  5개 생육단계 동안 수집되는 다각도 이미지 별로, 기부, 출수, 이삭에 대한 복수 바운딩 박스 및 class 라벨링 수행  기부 부분 바운딩 박스를 class 1, 최상단 위치 박스를 class 2, 최우측 위치 박스를 class 3, 최좌측 위치 박스를 class 4로, 출수는 class 5, 이삭은 class 6으로 라벨링
        콩의 다각도 이미지 상 키, 폭, 주요 기관(꽃, 꼬투리 등) 부위를 복수로 바운딩 박스 표시하고, 규정된 class 분류 기준에 따라 라벨링 5개 생육단계 동안 수집되는 다각도 이미지 별로, 기부, 최고 및 최좌-우측 식물체 부위, 꽃, 꼬투리에 대한 복수 바운딩 박스 및 class 라벨링 수행 기부 부분 바운딩 박스를 class 1, 최상단 위치박스를 class 2, 최우측 위치 박스를 class 3, 최좌측 위치 박스를 class 4로, 꽃은 class 5, 꼬투리는 class 6으로 라벨링
        밀의 다각도 이미지 상 키, 폭, 주요 기관(꽃 등) 부위를 복수로 바운딩 박스 표시하고, 규정된 class 분류 기준에 따라 라벨링 5개 생육단계 동안 수집되는 다각도 이미지 별로, 기부, 최고 및 최좌-우측 식물체 부위, 꽃, 꼬투리에 대한 복수 바운딩 박스 및 class 라벨링 수행 기부 부분 바운딩 박스를 class 1, 최상단 위치 박스를 class 2, 최우측 위치 박스를 class 3, 최좌측 위치 박스를 class 4로, 출수는 class 5, 이삭은 class 6으로 라벨링
    • 다각도 LiDAR 데이터
      • 라벨링 작업 대상 및 범위, 클래스 분류 기준
        라벨링 작업
        대상 작물  
        작업 정의 작업 범위 클래스 분류 기준
        인텔 리얼센스(L515)에서 수집되는(전처리 가공된) 밀 다각도 이미지별로 식물체의 외곽영역과 회전축 영역에 대한 라벨링  5개 생육단계 동안 수집되는 다각도 이미지 별로, 식물체의 외곽영역과 회전축 영역을 박스 라벨링  클래스 2종
        (식물체 외곽영역, 회전중심축 영역)
        인텔 리얼센스(L515)에서 수집되는(전처리 가공된) 콩의 다각도 이미지별로 식물체의 외곽영역과 회전축 영역에 대한 라벨링  5개 생육단계 동안 수집되는 다각도 이미지 별로, 식물체의 외곽영역과 회전축 영역을 박스 라벨링  클래스 2종
        (식물체 외곽영역, 회전중심축 영역)
    • 분광(열화상, 엽록소형광, 초분광) 데이터
      • 라벨링 작업 대상 및 범위, 클래스 분류 기준
        라벨링 작업
        대상 작물  
        작업 정의 작업 범위 클래스 분류 기준
        상추 - 엽록소형광 챔버에서 수집되는 상추 Top view RGB 이미지 상 식물체 영역 부위를 폴리곤으로 라벨링  - 5개 생육단계 동안 수집되는 Top view 이미지 별로, 식물 영역 전체를 폴리곤으로 라벨링 클래스 해당없음
        - 초분광 챔버에서 수집되는 밀 Top view RGB 이미지(3D cube his 파일을 PNG 또는 JPEG으로 변환한) 상 식물체 부분을 바운딩박스로 라벨링  - 5개 생육단계 동안 수집되는 밀 Top view 이미지 별로 식물체 영역 전체를 폴리곤으로 라벨링  - 클래스 해당없음
        - KIST 피노타이핑 챔버(회전식 로봇팔) 열화상카메라(COX650)를 통해 수집되는 다각도 콩 다각도 열화상 이미지 상 식물 잎 부위를 복수 바운딩박스로 라벨링 - 5개 생육단계 동안 수집되는 콩 다각도 열화상 이미지 별로 콩 잎 부위를 복수 바운딩 박스로 라벨링  클래스 해당 없음

    4. 라벨링 및 어노테이션 구조 정의

    • 라벨링 데이터의 어노테이션 구조 (RGB, LiDAR, 분광 공통)
      항목 설명
      ID 이미지 파일 고유 ID
      filename 이미지 파일명, 
      예) Bean_001_1_V0_2021-05-01.jpg
      size 이미지 파일 크기
      regions shape name 어노테이션 형태, box labeling
      points 어노테이션 포인트 좌표, 예) (x,y)
      region_attributes annotation_kr 한글 기반의 어노테이션 데이터
      : 외곽, 중심축
      annotation_en 영어 기반의 어노테이션 데이터
      : outer, axis
      file_attributes datasource 수집 출처, RealSense
      image_resolution 이미지 해상도, 1280x720
      title 작물명, 예) Oryza sativa L
      part 작물 부위, 예) leaf
      date 영상 촬영 일자, 예) 2021-06-01
      • 데이터 라벨링 / 어노테이션 방법
        어노테이션 작업 어노테이션 방법
        다각도 RGB
        이미지
        데이터
        키, 폭 부분은 최상위(바운딩박스), 화분흙에서 식물이 시작되는 기부 부분(바운딩박스), 최 우측(포인트), 최 좌측(포인트) 부분의 좌표 값을 해당되는 클래스로 라벨링
        꽃, 열매 부분을 바운딩 박스를 치고 해당되는 클래스로 라벨링 
        분광 (초분광, 엽록소분광, 열화상)
        이미지 데이터
        엽록소 형광 이미지의 광합성이 활발한 성엽, 육묘 트레이에서 취득된 개별 식물 부분 등 복잡한 구조의 특정 부위 detection을 위해서는 전문가가 해당되는 부위를 폴리곤으로 annotation

        열화상 카메라를 통해 측면에서 취득된 IR 이미지 상 배추 잎 부분 detection 용 딥러닝 알고리즘 개발을 위해 개별 잎 부분을 바운딩박스로 어노테이션

        열화상 카메라를 통해 측면에서 취득된 IR 이미지 상 콩 잎 부분 detection용 딥러닝 알고리즘 개발을 위해 개별 잎 부분을 바운딩박스로 어노테이션

        엽록소 형광장치를 이용해 Top-view로 취득된 엽록소형광이미지의 식물 부분의 세그멘테이션을 위한 식물 부분 detection용 딥러닝 알고리즘 개발을 위해 개별 식물 부분을 바운딩박스로 어노테이션

        초분광영상 촬영 후 바운딩 박스 및 필터별로 어노테이션 
        TopView RGB
        이미지데이터
        - 전체 이미지에서 식물 부분을 바운딩 박스를 치고 해당되는 클래스로 라벨링
        LiDAR, LiDAR 영상에서 이미지 검출
        (Object detection) 
        Annotation은 Open source를 활용하여 KIST에서 만든 2D annotation 툴을 이용 (LiDAR Depth 영상과 동일 화각으로 생성된 2D RGB 영상 적용)

        Labeling class는 2개 존재
        1. 식물 최외곽 영역에 맞닿은 Box 영역
        2. 회전 축 (폭이 좁은 Box Labeling 실시)

        LiDAR 데이터에 정합된 2D-RGB 영상을 이용하여 사람이 식물의 최외곽 영역을 Box Labeling 진행
        또한 회전축 위치를 찾아 수직방향의 폭이 좁은 Box Labeling을 수행

    5. 어노테이션 포맷
    [바운딩박스 어노테이션 JSON 포맷]

    No 어노테이션 형태 항목 설명
    1 shapes 이미지 내 객체 개수
    2 eName 이미지 영문 클래스 라벨
    3 points bounding box 위치 정보

     

    6. 샘플 데이터

    어노테이션 작업 어노테이션 예시
    다각도 RGB
    이미지 데이터
    작물 디지털 피노타이핑-샘플데이터_1_다각도 RGB 이미지 데이터
    분광 (초분광, 엽록소분광, 열화상)
    이미지 데이터
    작물 디지털 피노타이핑-샘플데이터_2_분광 (초분광, 엽록소분광, 열화상) 이미지 데이터(1)
    작물 디지털 피노타이핑-샘플데이터_3_분광 (초분광, 엽록소분광, 열화상) 이미지 데이터(2)
    작물 디지털 피노타이핑-샘플데이터_4_분광 (초분광, 엽록소분광, 열화상) 이미지 데이터(3)
    TopView RGB
    이미지데이터
    작물 디지털 피노타이핑-샘플데이터_5_TopView RGB 이미지데이터
    LiDAR,
    LiDAR 영상에서
    이미지 검출
    (Object detection)

    작물 디지털 피노타이핑-샘플데이터_6_LiDAR, LiDAR 영상에서 이미지 검출 (Object detection)(1)-LiDAR 촬영 모식도, Annotation Tool

    [그림] LiDAR 촬영 모식도, Annotation Tool

    작물 디지털 피노타이핑-샘플데이터_7_LiDAR, LiDAR 영상에서 이미지 검출 (Object detection)(2)-data 정합을 위한 Labeling 방법 (식물체 외곽영역 Box Labeling, 식물체 회전축 Box Labeling)

    [그림] data 정합을 위한 Labeling 방법
    (식물체 외곽영역 Box Labeling, 식물체 회전축 Box Labeling)

    작물 디지털 피노타이핑-샘플데이터_8_LiDAR, LiDAR 영상에서 이미지 검출 (Object detection)(3)

     

  • 데이터셋 구축 담당자

    수행기관(주관) : 원투씨엠 주식회사
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김치권 070-7018-9433 ckkim@12cm.co.kr · AI모델 설계 및 구현
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    한국과학기술연구원 · 데이터 설계 및 수집
    한국원자력연구원 · 데이터 수집
    국립농업과학원 · 데이터 수집
    ㈜엠블럭 · 데이터 정제 및 검수
    ㈜비투팜 · 데이터 정제 및 가공
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.