※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-28 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-01-06 메타데이터 정보 수정 데이터 구축량 2022-07-28 콘텐츠 최초 등록 소개
신생아에서 15세 청소년에 이르기까지 연령별 흉부 주요발병 질환별로 소아흉부 X-ray 영상과 폐 영역 및 병변 부위를 마스킹한 인공지능 학습용 영상 데이터
구축목적
소아/청소년의 흉부 X-ray로부터 정상/폐렴/기타폐질환을 구분하고, 질환이 있는 경우 병변 영역을 검출해 내도록 인공지능을 훈련하기 위한 데이터셋
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 DICOM 데이터 출처 고려대구로병원 외 8개 병원 (참여기관) 라벨링 유형 세크멘테이션 이미지 및 임상정보 Text 라벨링 형식 PNG / JSON 데이터 활용 서비스 소아 흉부질환 진단 서비스 데이터 구축년도/
데이터 구축량2021년/19,095 -
- 데이터 구축 규모
데이터 구축 규모 확보 건수 정상 6,767 폐렴 (바이러스성, 세균성) 8,346 기타 폐질환 6,104 공기누출 (기흉, 종격동기흉) 1,161 과다팽창 468 무기폐 845 신생아 호흡곤란증후군 2,351 흉막삼출 1,279 총합계 21,217 - 나이대별 질환별 구축 규모 및 분포
나이대별 질환별 구축 규모 및 분포 연령대 질환 종류 환자명수 영상 건수 0-2개월 Normal 정상 4,976 1,056 5,887 1,180 RDS 신생아 호흡곤란증후군 2,069 2,351 Pneumonia (viral+bacteria) 폐렴 (바이러스성, 세균성) 1,293 1,584 Air leak 공기누출 (기흉, 종격동기흉) 558 772 3개월-5세 Normal 정상 5,618 2,255 6,455 2,514 Pneumonia (viral+bacteria) 폐렴 (바이러스성, 세균성) 2,285 2,706 Hyperinflation 과다팽창 446 468 Pleural effusion 흉막삼출 292 364 Atelectasis 무기폐 340 403 6-10세 Normal 정상 3,726 1,207 4,618 1,358 Pneumonia (viral+bacteria) 폐렴 (바이러스성, 세균성) 1,825 2,338 Pleural effusion 흉막삼출 364 480 Atelectasis 무기폐 330 442 11-15세 Normal 정상 3,416 1,433 4,257 1,715 Pneumonia (viral+bacteria) 폐렴 (바이러스성, 세균성) 1,360 1,718 Pleural effusion 흉막삼출 301 435 Air leak 공기누출 (기흉, 종격동기흉) 322 389 총합계 17,736 21,217
- 데이터 구축 규모
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 활용 모델
– 흉부 질환분류 모델 및 폐영역 분할 모델 개발 및 검증
– 데이터 : 총 16,500장 사용, Train:Validation:Test = 8:1:1의 비율로 분할
– 흉부 질환분류 모델 : DenseNet121
– 폐영역 분할 모델 : U-Net
- 서비스 활용 시나리오
– 소아 흉부의 정상/질환 여부를 자동으로 분류하는 진단 지원 서비스- 서비스 내용 : 소아 흉부가 정상/질환인지 여부, 질환인 경우 어떤 종류의 질환인지를 구분하고 질환의 영역을 표시해주는 서비스
- 효과 : 1차/2차 병원에서 소아흉부 질환의 스크리닝 진단 제공 가능.
소아과 / 영상의학과 검사시간 단축 및 진단 정확도 증대 등
- 활용 모델
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 소아 흉부 질환 분류 학습 모델 Image Classification DenseNet201 AUC-ROC 0.7 단위없음 0.8646 단위없음 2 소아 흉부 폐영역 분할 학습 모델 Image Classification U-Net mIoU 85 % 89.8 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터셋의 종류 및 형식
– 인공지능학습을 위한 소아흉부질환의 데이터셋은 X-ray 이미지와 폐/병변 부위를 Annotation한 라벨링 영상(Polygon Segmentation) 및 임상정보 메타데이터를 포함한 라벨링 데이터셋으로 구성됨.
(1) 원본 데이터 : 비식별화 처리된 소아 흉부 X-ray 영상 (Dicom 형식)
(2) 라벨링 데이터
– 폐 영역과 병변 영역이 Annotation된 영상 (PNG 형식)
– 환자 나이, 몸무게, 질환종류 등의 임상정보를 포함한 메타데이터 (JSON 형식)
* 원본 및 라벨링 데이터 예시* 원본 및 라벨링 데이터 예시 원본 데이터(dicom) 폐영역 세그멘테이션(png) 병변영역 세그멘테이션(png) - 데이터 종류
데이터 종류 데이터셋명 분류 Level 1 Level 2 Level 3 소아 흉부 이미지 정상 정상 0~2개월 3개월~5세 6~10세 11~15세 폐렴 폐렴 0~2개월 3개월~5세 6~10세 11~15세 기타폐질환 공기누출 0~2개월 11~15세 과다팽창 3개월~5세 무기폐 3개월~5세 6~10세 신생아호흡곤란증후군
(RDS)0~2개월 흉막삼출 3개월~5세 6~10세 11~15세 - 질환별 라벨링 예시
폐렴 RDS 공기누출 무기폐 과다팽창 흉막삼출 - 데이터 구성 및 어노테이션 포맷
데이터 구성 및 어노테이션 포맷 No 속성명 항목설명 필수여부 타입 비고 annotations(어노테이션) 1 project_code 프로젝트코드 Y string D74 2 identifier 고유번호 Y string 병원코드+일련번호+순번 (예) H01_00001_01 dicom_info(DICOM정보) 3 modality 모달리티 구분 Y string (예) CR 4 study_id 스터디 ID Y string 5 series_no 시리즈 번호 Y integer 6 instance_no 인스턴스 번호 Y integer patient(환자정보) 7 age_group 연령대 Y string [표] 참조 8 diagnosis 진단명 Y string [표] 참조 9 pneumonia_type 폐렴유형 string 1:바이러스성, 2:세균성, 3:알수없음,4:바이러스성+세균성 10 report 진단내역 string 11 sex 성별 Y string M.남, F.여 12 age 나이 string 1세미만 : 0~11개월 1세이상 : 1세~15세 13 height 키 number cm 14 weight 몸무게 number kg mask_image(어노테이션 이미지) 15 org_dicom_file 원본파일 경로 Y string 16 body_part_mask 장기부위 마스킹 파일경로 Y string 17 lesion_part_mask 병변부위 마스킹 파일경로 string - Annotation 데이터 구조 예시
- 데이터셋의 종류 및 형식
-
데이터셋 구축 담당자
수행기관(주관) : 고려대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 조금준 교수 02-2626-3145 geumjoon@korea.ac.kr · 총괄책임 수행기관(참여)
수행기관(참여) 기관명 담당업무 건국대학교 산업협력단 · 데이터 수집 및 검수 전남대학교 산학협력단 · 데이터 수집 및 검수 카톨릭대학교 산업협력단 · 데이터 수집 및 검수 강원대학교 산업협력단 · 데이터 수집 및 검수 계명대학교 산업협력단 · 데이터 수집 및 검수 경희대학교 산업협력단 · 데이터 수집 및 검수 중앙대학교 산업협력단 · 데이터 수집 및 검수 SQI소프트(주) · 저작/검수 도구
· 개발/운영㈜애마슈 · AI 모델 개발 ㈜에프에이솔루션 · 데이터 품질 관리 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 조금준 교수 02-2626-3145 geumjoon@korea.ac.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.