콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
본 데이터는
온라인 안심존 데이터 ?

온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석

입니다.
#소화기병리 # 위장관내시경 # 조직검사 # 병리데이터 # 디지털병리

소화기조직 병리검사 이미지 데이터

소화기조직 병리검사 이미지
  • 분야헬스케어
  • 구분 안심존(온라인)
  • 유형 이미지
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 3,706 다운로드 : 34

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-29 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-07-29 콘텐츠 최초 등록

    소개

    위장관 내시경 검사에서 채취된 조직의 병리검사 이미지 12,006장으로 구성된 데이터셋

    구축목적

    위장관내시경 조직 이미지를 판독하여 병리 진단을 하기 위한 데이터셋
  • 1. 데이터 구축 규모

    1. 데이터 구축 규모
    분류 진단명 (시험군의 경우 수집조건) 증례수
    gastric adenocarcinoma 1,102
    gastric adenoma 603
    Gastritis with atypia 351
    gastritis with intestinal metaplasia 350
    normal stomach 1,100
    H.pylori evaluation group (WSI수=700) 350
    대장 intestinal adenocarcinoma 600
    intestinal conventional adenoma  1,100
    intestinal serrated lesion 550
    Inflammatory bowel disease 350
    intestinal polypoid lesion 350
    normal intestine 1,100
    위, 대장 gastric lymphoma, intestinal lymphoma 550
    gastric neuroendocrine neoplasm,  550
    gastric non-epithelial neoplasm other than lymphoma, 
    intestinal neuroendocrine neoplasm, 
    intestinal non-epithelial neoplasm other than lymphoma
    시험군 일정 기간 내시경 생검 전체 증례 3,000

     

    2. 데이터 분포

     

    • 연령 분포
      소화기조직 병리검사 이미지-데이터 분포_1_연령 분포 그래프
      색상 연령대 건수 비율
        10대 이하 113 0.94%
        20대 235 1.96%
        30대 682 5.68%
        40대 1590 13.24%
        50대 3104 25.85%
        60대 3437 28.63%
        70대 2232 18.59%
        80대 이상 613 5.11%
    • 성별 분포
      소화기조직 병리검사 이미지-데이터 분포_2_성별 분포 그래프
      색상 성별 건수 비율
        여성 4921 40.99%
        남성 7085 59.01%
    • 장기 분포
      소화기조직 병리검사 이미지-데이터 분포_3_장기 분포 그래프
      색상 장기 건수 비율
        6413 53.42%
        대장 5593 46.59%
    • 검체종류 분포
      소화기조직 병리검사 이미지-데이터 분포_4_검체종류 분포 그래프
      색상 검체종류 건수 비율
        endoscopic biopsy 10390 86.54%
        endoscopic resection 1616 13.46%
    • 진단별 분포
      • 장기: 위
        소화기조직 병리검사 이미지-데이터 분포_5_진단별 분포(장기:위) 그래프
        장기 색상 진단명 수량 백분율
          gastric adenocarcinoma 1244 19.48%
          gastric neuroendocrine neoplasm 121 1.90%
          gastric adenoma 685 10.73%
          gastric lymphoma 483 7.56%
          gastric non-epithelial neoplasm other than lymphoma
        (melanoma, GIST, leiomyoma, lipoma)
        24 0.38%
          H.pylori evaluation group 350 5.48%
          gastritis with atypia 431 6.75%
          gastritis with intestinal metaplasia 980 15.35%
          normal stomach 2067 32.37%
        합계 6385 100%
      • 장기: 대장
        소화기조직 병리검사 이미지-데이터 분포_6_진단별 분포(장기:대장) 그래프
        장기 색상 진단명 수량 백분율
        대장   intestinal adenocarcinoma 655 11.65%
          intestinal neuroendocrine neoplasm 309 5.50%
          intestinal conventional adenoma 1661 29.55%
        (including tubular, villous, tubulovillous)
          intestinal serrated lesion (including HP, SSL, TSA) 718 12.77%
          intestinal lymphoma 77 1.37%
          ntestinal non-epithelial neoplasm other than lymphoma
        (melanoma, GIST, leiomyoma, lipoma)
        97 1.73%
          Inflammatory bowel disease (including UC and CD) 388 6.90%
          intestinal polypoid lesion (including hamartomatous 355 6.32%
        polyp, inflammatory polyp, and other polypoid lesion)
          normal intestine 1361 24.21%
        합계 5621 100%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. 활용 모델 
    모델 학습

    • 대장암 : 대장암 검출 학습 모델
      • 1 단계: Multi-Resolution Input CNN (Patch-level classifier) -> High resolution input patch와 low resolution input patch를 분석에 같이 사용하여 더 강건하고 일반적인 성능의 모델 개발 시도
        • High Resolution Input: 분석을 실행하고자 하는 대상이며 동시에 조직 이미지 분석에 있어서 세포 핵의 크기나 모양과 같은 국소적 시각 정보 (Local Visual Information) 를 주로 추출하는 입력 데이터
        • Low Resolution Input: High Resolution Input의 분석을 돕고자 해당 조직 영역의 주변의 전역적 문맥 정보 (Global Context Information) 를 주로 추출하는 입력 데이터
      • 2 단계: 앙상블 모델 (Slide-level classifier)
        • 학습 완료된 1단계 모델을 이용하여 WSI의 여러 특징들을 추출하고 해당 특징을 앙상블 모델로 학습 시켜 WSI 단위의 분류기 모델을 학습 시킴.
      • 학습 방법:
        • 데이터 분배 : Train : Validation : Test = 8 : 1 : 1
        • 모델 parameters:
          • batch size: 256
          • optimizer: adamW
          • initial learning rate: 0.001
          • schedulear: cosine annealing warm restarts
          • max epoch: 150
          • weight decay: 1e-5
    • 위암 : 위암 검출 학습 모델
      • 데이터 전처리
        • 학습용 패치 추출 
        • Training set, Validation set에 있는 슬라이드의 mpp를 0.51로 표준화 이후 패치 추출 
        • Positive annotation annotation에서 패치 추출 
          소화기조직 병리검사 이미지-활용 모델 _1_학습 패치 추출 예시
          [학습 패치 추출 예시]
      • 인공지능 모델 학습 
        • 알고리즘 설계 
          • 높은 해상도를 유지하기 위해 patch level의 학습 진행
          • Slide 당 patch의 tumor probability의 평균값으로 slide의 tumor probability를 예측
          • Tumor probability가 0.5 이상 일시 위암 진단, 아닐 시 정상 진단 
        • 사용 모델 
          • EfficientNet-B0 : 모델의 스케일 (width, depth, resolution)을 최적화 하여 가벼우면서 높은 정확도 때문에 현재 가장 널리 쓰이는 모델 (논문 인용 수 4,630회) 
          • ResNet50 : Residual block을 통해 모델 성능을 크게 끌어올려 전통적으로 가장 많이 사용하는 모델 (논문 인용 수 99,816회) 
        • 학습 환경 
          • Program language: python 3.8.10 
          • Framework: pytorch 1.9 
          • Patch size: 256
          • Optimizer: Adam
          • Learning rate scheduler: ReduceLROnPlateau  
          • Epoch: 100 
          • Batch size: [64, 128, 256] 
          • Initial learning rate: [1e-4, 1e-5, 1e-6] 
      • 제언 
        • 위에서 제시하는 학습 환경은 최적화된 옵션이 아닌, 본 데이터를 활용해 모델 개발을 하기 위한 최소한의 가이드라인임

    2. 서비스 활용 시나리오

    • Slide level malignant tumor screening : 주어진 소화기 병리조직 WSI의 malignant tumor 유무를 판별하여 빠르게 slide screening을 진행하고, tumor 영역의 시각화를 통해 전문 병리 의사의 업무를 보조 
    • tumor visualization : 주어진 소화기 병리조직 WSI내에서 malignant tumor의 위치 영역을 시각화하여 전문 병리 의사의 진단 보조
    • AI 추가 판독 (Second read) service : 증가하고 있는 판독 건수 대비 부족한 병리 전문의의 수를 고려할 때, 병리 의사 한 명이 부담해야 하는 업무량과 피로가 증가하고 있음. AI 기반 추가 판독을 통해 의료 사고 (e.g. Tumor를 놓치는 케이스)에 대한 안전 기준을 높일 수 있음
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 위암 진단 분류 모델 Image Classification EfficientNet-B0 기반 CNN 모델 AUC-ROC 0.7 단위없음 0.9533 단위없음
    2 대장암 진단 분류 모델 Image Classification Multi-Resolution Input CNN AUC-ROC 0.7 단위없음 1 단위없음

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 대표도면

    • multiframe이미지 : dcm
      소화기조직 병리검사 이미지-대표도면_1_어노테이션 정보가 포함된 multiframe이미지의 예시[어노테이션 정보가 포함된 multiframe이미지의 예시]
    • single frame이미지 : jpg
      소화기조직 병리검사 이미지-대표도면_2_single frame이미지 예시

    2. 라벨링데이터 구성 (필수 : M / 필수아님 : O)

    • 진단 라벨 : 1.Dataset>원천데이터>(case_id)>(case_id).csv
      1. 대표도면
      구분 항목명 타입 필수여부 설명 범위 참조
      1 case_id string M 증례 일련번호 NA  
      2 slide_id string M 이미지원천데이터 일련번호 NA  
      3 age int M 진단시 연령 [0,200] 붙임1
      4 sex int M 성별 0 or 1 붙임1
      5 los int M 장기 0 or 1 붙임1
      6 los01 int O 위장 세부위치 [0,3] 붙임1
      7 los11 int O 대장 세부위치 [0,6] 붙임1
      8 proc int M 검체종류 0 or 1 붙임1
      9 dx_qc int M 진단 [0,17] 붙임1
      10 dx_code string M 세부진단 코드
      (code for diagnosis)
      NA 붙임1
      11 tstg0 int O 위암병기 T category [0,6] 붙임1
      12 nstg0 int O 위암병기 N category [0,4] 붙임1
      13 mstg0 int O 위암병기 M category 0 or 1 붙임1
      14 tstg1 int O 대장암병기 T category [0,5] 붙임1
      15 nstg1 int O 대장암병기 N category [0,5] 붙임1
      16 mstg1 int O 대장암병기 M category [0,4] 붙임1
      17 preop int O 수술전 항암치료 0 or 1 붙임1
      18 msi0 int O MSI검사결과 0 or 1 붙임1
      19 ebv0 int O EBV검사결과 0 or 1 붙임1
      20 her20 int O HER2검사결과 0 or 1 붙임1
      21 kras1 int O KRAS검사결과 0 or 1 붙임1
      22 nras1 int O NRAS검사결과 0 or 1 붙임1
      23 braf1 int O BRAF검사결과 0 or 1 붙임1

      [붙임1]
      항목명 비고
      age  
      sex 0=female, 1=male
      los 0=stomach, 1=large intestine
      los01 0=antrum, 1=angle, 2=body 3=cardia/EJG, 9999=NA
      los11 0=cecum, 1=ascending colon, 2=transverse colon, 3=descending colon, 4=sigmoid, 5=rectosigmoid, 6=rectum, 9999=NA
      proc 0=biopsy, 1=resection
      tstg0 0=Tis, 1=T1a, 2=T1b, 3=T2, 4=T3, 5=T4a, 6=T4b, 9999=NA
      nstg0 0=N0, 1=N1, 2=N2, 3=N3a, 4=N3b, 9999=NA
      mstg0 0=M0, 1=M1, 9999=NA
      tstg1 0=Tis, 1=T1, 2=T2, 3=T3, 4=T4a, 5=T4b, 9999=NA
      nstg1 0=N0, 1=N1a, 2=N1b, 3=N1c, 4=N2a, 5=N2b, 9999=NA
      mstg1 0=M0, 1=M1, 9999=NA
      preop 0=no, 1=yes 
      msi0 0=intact, 1=abnormal, 9999=NA
      ebv0 0=negative, 1=positive, 9999=NA
      her20 0=not amplified, 1=amplified, 9999=NA
      kras1 0=wild, 1=mutant, 9999=NA
      nras1 0=wild, 1=mutant, 9999=NA
      braf1 0=wild, 1=mutant, 9999=NA
      dx_qc 0=gastric adenocarcinoma, 
      1=gastric neuroendocrine neoplasm, 
      2=gastric adenoma, 
      3=gastric lymphoma, 
      4=gastric non-epithelial neoplasm other than lymphoma (melanoma, GIST, leiomyoma, lipoma), 
      5=H.pylori evaluation group, 
      6=gastritis with atypia, 
      7=gastritis with intestinal metaplasia, 
      8=normal stomach, 
      9=intestinal adenocarcinoma, 
      10=intestinal neuroendocrine neoplasm, 
      11=intestinal conventional adenoma (including tubular, villous, tubulovillous), 12=intestinal serrated lesion (including HP, SSL, TSA), 
      13=intestinal lymphoma, 
      14=intestinal non-epithelial neoplasm other than lymphoma (melanoma, GIST, leiomyoma, lipoma), 
      15=Inflammatory bowel disease (including UC and CD), 
      16=intestinal polypoid lesion (including hamartomatous polyp, inflammatory polyp, and other polypoid lesion), 
      17=normal intestine
      dx_detail 세부진단 code for diagnosis
      Stomach Papillary adenocarcinoma c0000001
      Stomach Tubular adenocarcinoma WD c0000002
      Stomach Tubular adenocarcinoma MD c0000003
      Stomach Tubular adenocarcinoma PD c0000014
      Stomach Poorly cohesive carcinoma c0000015
      Stomach Signet ring cell carcinoma c0000016
      Stomach Mucinous adenocarcinoma c0000017
      Stomach Medullary carcinoma with lymphoid stroma c0000018
      Stomach Tubular adenoma high grade c0001100
      Stomach Tubular adenoma low grade c0001110
      Stomach Atypia vienna 2 c0110000
      Stomach Atypia vienna 1 c0110100
      Stomach Neuroendocrine Neoplasm c0000100
      Stomach H.pylori positive c0100000
      Stomach H.pylori negative c0100100
      Stomach Intestinal metaplasia c0111000
      Stomach Normal c0111100
      Stomach Lymphoma c0010000
      Stomach Melanoma c0010100
      Stomach Gastrointestinal stromal tumor c0012100
      Stomach Leiomyoma c0011120
      Stomach Lipoma c0011130
      Intestine Adenocarcinoma WD c1000000
      Intestine Adenocarcinoma MD c1000010
      Intestine Adenocarcinoma PD c1000020
      Intestine Neuroendocrine Neoplasm c1000100
      Intestine Tubular adenoma high grade c1001000
      Intestine Tubular adenoma low grade c1001001
      Intestine Tubulovillous adenoma high grade c1001010
      Intestine Tubulovillous adenoma low grade c1001011
      Intestine Villous adenoma high grade c1001020
      Intestine Villous adenoma low grade c1001021
      Intestine Hyperplastic polyp c1001100
      Intestine Sessile serrated lesion c1001101
      Intestine Traditional serrated adenoma c1001102
      Intestine Lymphoma c1010000
      Intestine Melanoma c1010100
      Intestine Gastrointestinal stromal tumor c1012000
      Intestine Leiomyoma c1011000
      Intestine Lipoma c1011100
      Intestine Crohndisease c1100000
      Intestine Ulcerative colitis c1101000
      Intestine Hamartomatous polyp c1110000
      Intestine Inflammatory polyp c1110100
      Intestine Other polypoid lesion c1110200
      Intestine Normal c1111000
    • 이미지 영역 라벨 : 1.Dataset>라벨링데이터>(case_id)>(slide_id).json
      구분 항목명 타입 필수여부 설명 범위
      1 type string M Annotation의 타입 “Feature”
      2 geometry object M 영역을 정의하는 객체 NA
      2-1 type string M Geometry의 타입 “Polygon”, “Bounding box”
      2-2 coordinates object M 좌표 객체 NA
      2-2-1 [] array M 포인트 배열 NA
      2-2-1-1 [] array M 포인트 성분 배열 NA
      2-2-1-1-1   number M 원소 1 : column 0 <
      원소 2 : row
      3 Properties object M 속성을 정의하는 객체  
      3-1 object_type string M 객체의 타입 “annotation”
      3-2 classification object M Annotation 분류 객체 NA
      3-3 name string M 분류 명 “Region*”, “Positive”, “Negative”
      3-4 colorRGB number M Annotation Line 색상  
      3-5 isLocked boolean O Annotation 수정 가능 여부 ture, false
      3-6 measurements [] array O 영역 측정 정보 배열 NA
      3-6-1 {} object O 측정 항목 객체 NA
      3-6-1-1 name string O 측정 항목 명 “Area”, “Perimeter”
      3-6-1-2 value number O 측정 항목 값  

    3. 라벨링데이터 실제예시

    • 진단데이터 : csv
      소화기조직 병리검사 이미지-라벨링데이터 실제예시_1_진단데이터 : csv
    • 어노테이션 데이터 : json
      소화기조직 병리검사 이미지-라벨링데이터 실제예시_2_어노테이션 데이터 : json (1)소화기조직 병리검사 이미지-라벨링데이터 실제예시_3_어노테이션 데이터 : json (2)
  • 데이터셋 구축 담당자

    수행기관(주관) : 소화기병리학연구회/국립암센터
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    국명철 031-920-1745 mckook@ncc.re.kr · 데이터 구축작업 총괄 · 데이터 설계 · 데이터 수집-정제-가공-검수
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    가톨릭대학교 산학협력단 서울성모병원 · 데이터 수집-정제-가공-검수
    서울대학교 산학협력단 · 데이터 수집-정제-가공-검수
    연세대학교 산학협력단 · 데이터 수집-정제-가공-검수
    연세대학교 원주산학협력단 · 데이터 수집-정제-가공-검수
    녹십자의료재단 · 데이터 수집-정제-가공-검수
    인피니트헬스케어 · 저작도구 개발
    · 데이터 정제-가공
    (주) 뷰노 · AI모델 개발
    에이아이트릭스 · AI모델 개발
    웹프라임 · 개발환경 및 공동작업환경 구축
    · 데이터 저장소 관리
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    국명철 031-920-1745 mckook@ncc.re.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.