콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어

NEW 추상 요약 사실성 검증 데이터

추상 요약 사실성 검증 데이터 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
구축년도 : 2022 갱신년월 : 2023-11 조회수 : 6,393 다운로드 : 400 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-11-03 데이터 최종 개방
    1.0 2023-07-31 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2023-12-08 산출물 전체 공개

    소개

    요약문의 오류를 검출하고 수정하여 궁극적으로는 AI의 텍스트 자동 요약 성능을 향상하기 위한 인공지능 학습용 데이터. AI 요약문과 사람 요약문에 포함된 오류를 대분류(문장 생성 오류, 요약문의 내용 오류), 소분류(오류 유형 6가지)로 구분하여 라벨링함.

    구축목적

    양질의 한국어 텍스트 요약 학습용 데이터 구축을 통한 텍스트 인공지능 요약 모델 개발 경쟁력 확보
  • 1. 데이터 구축 규모
    -원천데이터(단위: 건)

    원천텍스트
    데이터 분류
    2022년 추상 요약 사실성 검증데이터(원천) 정제수량
    사실전달형 의견제시형 자유형
    신문기사 기고문/잡지 법률 문서
    AI모델 실행 기계 요약
    (-90%)
    35,365 34,669 20,214 90,248
      사람 요약
    (-10%)
    4,535 4,264 2,339 11,138
    원천 데이터 세트 39,900
    (-39%)
    38,933
    (-39%)
    22,553
    (-22%)
    101,386

    <표 2> 원천데이터 규모

     

    -라벨링데이터(단위: 건)

    대분류 오류 번호 한글명 수량
    문장 생성 오류 [1] 한글맞춤법, 띄어쓰기 오류 22,801
    [2] 단어 선택 오류 110,48
    [3] 비문 16,576
    [4] 미완성 또는 불완전한 문장 5,083
    요약문의 내용 오류 [5] 키워드 또는 중요 내용 오류 31,003
    [6] 유사한 내용 반복 14,875

    <표 3> 라벨링 데이터 구축 규모

     

    2. 데이터 분포(단위: 건)

    author 카테고리 오류유형 개수 
    AI 요약문 사실전달형 [1]한글 맞춤법, 띄어쓰기 오류 10,125
    [2]단어 선택 오류 3,030
    [3]비문 4,960
    [4]미완성 또는 불완전한 문장 424
    [5]키워드 또는 중요 내용 오류 14,017
    [6]유사한 내용 반복 2,809
    의견제시형 [1]한글 맞춤법, 띄어쓰기 오류 7,488
    [2]단어 선택 오류 3,183
    [3]비문 7,376
    [4]미완성 또는 불완전한 문장 82
    [5]키워드 또는 중요 내용 오류 11,626
    [6]유사한 내용 반복 4,914
    자유형 [1]한글 맞춤법, 띄어쓰기 오류 3,165
    [2]단어 선택 오류 2,429
    [3]비문 1,407
    [4]미완성 또는 불완전한 문장 3,192
    [5]키워드 또는 중요 내용 오류 4,888
    [6]유사한 내용 반복 5,133
    사람 요약문 사실전달형 [1]한글 맞춤법, 띄어쓰기 오류 909
    [2]단어 선택 오류 907
    [3]비문 972
    [4]미완성 또는 불완전한 문장 780
    [5]키워드 또는 중요 내용 오류 119
    [6]유사한 내용 반복 848
    의견제시형 [1]한글 맞춤법, 띄어쓰기 오류 765
    [2]단어 선택 오류 1,090
    [3]비문 1,098
    [4]미완성 또는 불완전한 문장 164
    [5]키워드 또는 중요 내용 오류 346
    [6]유사한 내용 반복 801
    자유형 [1]한글 맞춤법, 띄어쓰기 오류 349
    [2]단어 선택 오류 409
    [3]비문 763
    [4]미완성 또는 불완전한 문장 441
    [5]키워드 또는 중요 내용 오류 7
    [6]유사한 내용 반복 370
    총계 101,386건 

     

     

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. 향후 데이터 활용 분야 및 활용 서비스
      ㅇ AI를 통한 텍스트 요약의 품질 점검 기준으로 사용 
      ㅇ 장차 한국어 텍스트를 가공 및 정제하여 말뭉치를 신규 구축할 때 본 사업에서 활용한 .json 구문 규칙과 저작 도구는 시간과 비용을 줄이는 데 기여

     

    2. 데이터 개선 및 고도화 계획
      ㅇ 전문가의 검토 및 가공으로 제작된 오류 학습용 데이터 중 맞춤법 관련 부문은 AI요약문뿐만 아니라 다양한 텍스트에 대한 학습용 데이터로 적합하므로, 향후 순수하게 AI에 기반한 맞춤법 및 문장 교정 시스템을 구축하는 데 활용할 예정 
      ㅇ 본 사업에서 활용한 저작 도구의 매개 변수를 바꾸면 크라우드워커를 활용한 데이터 가공 작업 시에 다방면에서 요긴하게 활용될 것으로 기대되므로 향후 본 사업과 관련된 데이터의 증량 및 보수, 또는 신규 말뭉치 구축에 있어 요긴하게 활용할 것으로 기대

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 요약문 오류 유형 분류 성능 Text Classification xlm-roberta-base Accuracy 50 % 73.45 %
    2 요약문 오류 교정 성능 Reconstruction kobart F1-Score 0.4 0.5374

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

     

     

    1. 데이터 형식

    {
      "annotation" : {
        "target" : "machine_abstractive_summary",
        "type" : "사실전달형",
        "original_summary" : {
          "machine_abstractive_summary" : {
            "text" : "20대 마지막 정기국회가 본격화된 가운데, 홈쇼핑 사업자에 대한 방송통신발전기금 산정 기준을 영업이익에서 매출액으로 바꾸는 내용의 방송통신발전기본법 개정안이 통과될 수 있어, TV홈쇼핑과 T커머스 등 홈쇼핑 업계가 비상이다.",
            "author" : {
              "id" : "AI-001",
              "name" : "KoBert",
              "type" : "machine"
            }
          },
          "human_abstractive_summary" : {
            "text" : "20대 정기국회에서 홈쇼핑 사업자에 대한 방송통신발전기금(이하 방발기금) 산정 기준을 매출액의 6%로 변경하는 내용의 개정안이 통과될 수 있어서 TV홈쇼핑의 방발기금 부담이 크게 증가할 것으로 보인다.",
            "author" : {
              "id" : "human-2020",
              "name" : "human",
              "type" : "human"
            }
          }
        },
        "corrected_summary" : {
          "corrected_type1" : null,
          "corrected_type2" : null,
          "corrected_type3" : null,
          "corrected_type4" : null,
          "corrected_type5" : {
            "correction_type" : "[5] 키워드 또는 중요 내용 오류",
            "text" : "20대 마지막 정기국회가 본격화된 가운데, 홈쇼핑 사업자에 대한 방송통신발전기금 산정 기준을 영업이익에서 매출액으로 바꾸는 내용의 방송통신발전기본법 개정안이 통과될 수 있는데, 이렇게 되면 직매입 확대로 회계상 매출액이 크게 늘어나고 있는 TV홈쇼핑 입장에서는 방발기금 부담이 커질 수밖에 없고 그동안 영업적자를 이유로 방발기금을 납부하지 않았던 대부분의 T커머스 업체들도 방발기금을 내야할 처지에 놓이기 때문에 TV홈쇼핑과 T커머스 등 홈쇼핑 업계가 비상이다.",
            "errors" : [ {
              "error_id" : "361641855.0",
              "begin" : 94,
              "end" : 104,
              "sub" : "있어, TV홈쇼핑과",
              "type" : "[5] 키워드 또는 중요 내용 오류",
              "correction" : "있는데, 이렇게 되면 직매입 확대로 회계상 매출액이 크게 늘어나고 있는 TV홈쇼핑 입장에서는 방발기금 부담이 커질 수밖에 없고 그동안 영업적자를 이유로 방발기금을 납부하지 않았던 대부분의 T커머스 업체들도 방발기금을 내야할 처지에 놓이기 때문에 TV홈쇼핑과"
            } ]
          },
          "corrected_type6" : null,
          "corrected_all" : {
            "corrected_type" : "all",
            "text" : "20대 마지막 정기국회가 본격화된 가운데, 홈쇼핑 사업자에 대한 방송통신발전기금 산정 기준을 영업이익에서 매출액으로 바꾸는 내용의 방송통신발전기본법 개정안이 통과될 수 있는데, 이렇게 되면 직매입 확대로 회계상 매출액이 크게 늘어나고 있는 TV홈쇼핑 입장에서는 방발기금 부담이 커질 수밖에 없고 그동안 영업적자를 이유로 방발기금을 납부하지 않았던 대부분의 T커머스 업체들도 방발기금을 내야할 처지에 놓이기 때문에 TV홈쇼핑과 T커머스 등 홈쇼핑 업계가 비상이다."
          }
        }
      },
      "original_text" : "20대 마지막 정기국회가 본격화된 가운데 TV홈쇼핑과 T커머스 등 홈쇼핑 업계가 비상이다. 홈쇼핑 사업자에 대한 방송통신발전기금(이하 방발기금) 산정 기준을 영업이익에서 매출액으로 바꾸는 내용의 방송통신발전기본법 개정안이 통과될 수 있어서다. 직매입 확대로 회계상 매출액이 크게 늘어나고 있는 TV홈쇼핑 입장에서는 방발기금 부담이 커질 수밖에 없다. 또 그동안 영업적자를 이유로 방발기금을 납부하지 않았던 대부분의 T커머스 업체들도 방발기금을 내야할 처지에 놓였다. 직매입 압박 커지는 TV홈쇼핑, 기금 부담 커진다=30일 관련업계에 따르면 이원욱 더불어민주당 의원이 대표 발의한 방통통신발전기본법 개정안은 홈쇼핑 사업자의 방발기금 산정 기준을 기존 방송서비스부문 영업이익에서 매출액으로 변경하는 것을 골자로 한다. 개정안은 TV홈쇼핑, T커머스를 포함한 홈쇼핑 사업자들이 전년도 방송서비스 매출액의 6%를 방발기금으로 내도록 규정하고 있다. 그동안 TV홈쇼핑 업체들은 방송서비스 영업이익의 13%를, T커머스 업체들은 방송서비스 영업이익의 10%를 방발기금으로 내왔다. 이번 개정안은 종합유선방송(SO)위성방송IPTV 사업자 등 다른 방송사업자와의 형평을 위해 발의됐다. 이들 사업자는 방송서비스 매출액의 6%를 방발기금으로 내왔다. 개정안이 국회를 통과한다면 TV홈쇼핑의 방발기금은 크게 늘어날 전망이다. GS홈쇼핑의 지난해 실적을 기준으로 할 경우 현재 규정대로 라면 GS홈쇼핑은 TV사업 영업이익 기준으로 734억원만 내면 되지만, 개정안에 따라 TV사업 매출액 기준으로 할 경우 1026억원을 부담해야한다. 여기에 홈쇼핑 사업자들의 직매입 규모가 지속적으로 커지고 있다는 점도 부담이다. 2018년 TV홈쇼핑 7개사의 중소기업 제품 직매입 규모는 3628억원으로 전년대비 9.3% 증가했다. TV홈쇼핑 업계 관계자는 중소기업과의 상생을 이유로 정부가 직매입 비중을 확대를 요구하고 있는 상황이라며 (직매입을 확대하면) 회계상 매출액은 그만큼 늘어날 수밖에 없더 방발기금 부담은 더욱 커질 것이라고 말했다. 영업적자에 방발기금까지 부담 커지는 T커머스=TV홈쇼핑보다 상황이 심각한 건 T커머스다. 영업적자가 지속되는 가운데 방발기금 부담까지 짊어지게 생겼다. SK스토아 K쇼핑 신세계TV쇼핑 W쇼핑 쇼핑엔티 등 T커머스 단독 사업자 가운데 방발기금을 내고 있는 업체는 W쇼핑이 유일하다. T커머스 업체 중 유일하게 흑자를 내고 있어서다. 나머지 업체들은 영업적자로 방발기금을 납부하지 않는다. 방송서비스 매출액 기준으로 방발기금을 납부하게 된다면 T커머스 사업자들의 수익 실현은 사실상 물 건너가게 된다. 송출수수료 경쟁으로 이미 비용 부담이 큰 상황에서 방발기금이라는 추가 비용까지 생겨나기 때문이다. T커머스 업계 관계자는 T커머스 시장은 10년도 되지 않았다며 2009년 IPTV 사업자의 방발기금 납부를 유예 했듯이 산업 진흥 차원에서 정책적 배려가 필요하다고 말했다.",
      "INFO" : {
        "id" : "SM00029799",
        "src" : {
          "src_id" : "361641855",
          "src_category" : "news"
        },
        "token_size" : {
          "machine_abstractive_summary_token_size" : 26,
          "human_abstractive_summary_token_size" : 24,
          "original_text_token_size" : 302,
          "corrected_all_token_size" : 56
        }
      }
    }


    2. 어노테이션 포맷

    No. 속성명 D1 속성명 D2 속성명 D3 속성명 D4 속성명 D5 속성명D6 타입 항목 설명
    1 annotation           object  
    1-1   target         string “machine_abstractive_summary” 또는
    “human_abstractive_summary”
    1-2   type         string “사실전달형”, “의견제시형”, “자유형”
    1-3   original_summary         object  
    1-3-1     machine_abstractive_summary       object 데이터가 기계 요약문일 경우 속성명이 “machine_abstractive_summary”임
    데이터가 사람 요약문일 경우 속성명이 “machine_abstractive_summary”인 항목은 없음.
    1-3-1-1       text     string 오류가 포함된 기계 요약문
    1-3-1-2       author     object  
    1-3-1-2-1         id   string “AI-001”
    1-3-1-2-2         name   string “KoBert”
    1-3-1-2-3         type   string “machine”
    1-3-2     human_abstractive_summary       object  
    1-3-2-1       text     string 데이터가 기계 요약문일 경우 사람 요약문 
    데이터가 사람 요약문일 경우 오류가 포함된 사람 요약문
    1-3-2-2       author     object  
    1-3-2-2-1         id   string “human-2020”
    1-3-2-2-2         name   string “human”
    1-3-2-2-3         type   string “human”
    1-4   corrected_summary         object 오류 유형 명세를 위한 개체
    1-4-1     corrected_type1       object 오류 유형 분류 [1]
    (NULL 허용, 
    해당 사항 있는 경우에만 내용을 표시함)
    1-4-1-1       correction_type     string 오류 유형 이름 표시. 
     
    [1] 한글 맞춤법, 띄어쓰기 오류
    1-4-1-2       text     string 오류 유형 1종의 오류가 수정된 요약문
    1-4-1-3       errors     array  
    1-4-1-3-1         {}   object  
    1-4-1-3-1-1           error_id string 파일명(기사 고유 ID No.)“.”동일 오류 개수
    예) 301234.2
    1-4-1-3-1-2           begin number 오류 구간 시작 인덱스
    1-4-1-3-1-3           end number 오류 구간 종료 인덱스
    1-4-1-3-1-4           sub string 오류 구간 수정 전 텍스트
    1-4-1-3-1-5           type string 관련 정보를 모아서 볼 수 있도록 오류 유형 이름을 다시 표시함.
    [1] 한글 맞춤법, 띄어쓰기 오류
    1-4-1-3-1-6           correction string 오류 구간 수정 후 텍스트
    1-4-2     corrected_type2       object 오류 유형 분류 [2]
    (NULL 허용, 
    해당 사항 있는 경우에만 내용을 표시함)
    1-4-2-1       correction_type     string 오류 유형 이름 표시. 
    [2] 단어 선택 오류
    1-4-2-2       text     string 오류 유형 1종의 오류가 수정된 요약문
    1-4-2-3       errors     array  
    1-4-2-3-1         {}   object  
    1-4-2-3-1-1           error_id string 파일명(기사 고유 ID No.)“.”동일 오류 개수
    예) 301234.2
    1-4-2-3-1-2           begin number 오류 구간 시작 인덱스
    1-4-2-3-1-3           end number 오류 구간 종료 인덱스
    1-4-2-3-1-4           sub string 오류 구간 수정 전 텍스트
    1-4-2-3-1-5           type string 관련 정보를 모아서 볼 수 있도록 오류 유형 이름을 다시 표시함.
    [2] 단어 선택 오류
    1-4-2-3-1-6           correction string 오류 구간 수정 후 텍스트
    1-4-3     corrected_type3       object 오류 유형 분류 [3]
    (NULL 허용, 
    해당 사항 있는 경우에만 내용을 표시함)
    1-4-3-1       correction_type     string 오류 유형 이름 표시. 
    [3] 비문
    1-4-3-2       text     string 오류 유형 1종의 오류가 수정된 요약문
    1-4-3-3       errors     array  
    1-4-3-3-1         {}   object  
    1-4-3-3-1-1           error_id string 파일명(기사 고유 ID No.)“.”동일 오류 개수
    예) 301234.2
    1-4-3-3-1-2           begin number 오류 구간 시작 인덱스
    1-4-3-3-1-3           end number 오류 구간 종료 인덱스
    1-4-3-3-1-4           sub string 오류 구간 수정 전 텍스트
    1-4-3-3-1-5           type string 관련 정보를 모아서 볼 수 있도록 오류 유형 이름을 다시 표시함.
    [3] 비문
    1-4-3-3-1-6           correction string 오류 구간 수정 후 텍스트
    1-4-4     corrected_type4       object 오류 유형 분류 [4]
    (NULL 허용, 
    해당 사항 있는 경우에만 내용을 표시함)
    1-4-4-1       correction_type     string 오류 유형 이름 표시. 
     
    [4] 미완성 또는 불완전 문장
    1-4-4-2       text     string 오류 유형 1종의 오류가 수정된 요약문
    1-4-4-3       errors     array  
    1-4-4-3-1         {}   object  
    1-4-4-3-1-1           error_id string 파일명(기사 고유 ID No.)“.”동일 오류 개수
    예) 301234.2
    1-4-4-3-1-2           begin number 오류 구간 시작 인덱스
    1-4-4-3-1-3           end number 오류 구간 종료 인덱스
    1-4-4-3-1-4           sub string 오류 구간 수정 전 텍스트
    1-4-4-3-1-5           type string 관련 정보를 모아서 볼 수 있도록 오류 유형 이름을 다시 표시함.
    [4] 미완성 또는 불완전 문장
    1-4-4-3-1-6           correction string 오류 구간 수정 후 텍스트
    1-4-5     corrected_type5       object 오류 유형 분류 [5]
    (NULL 허용, 
    해당 사항 있는 경우에만 내용을 표시함)
    1-4-5-1       correction_type     string 오류 유형 이름 표시. 
    [5] 키워드 또는 중요 내용 오류
    1-4-5-2       text     string 오류 유형 1종의 오류가 수정된 요약문
    1-4-5-3       errors     array  
    1-4-5-3-1         {}   object  
    1-4-5-3-1-1           error_id string 파일명(기사 고유 ID No.)“.”동일 오류 개수
    예) 301234.2
    1-4-5-3-1-2           begin number 오류 구간 시작 인덱스
    1-4-5-3-1-3           end number 오류 구간 종료 인덱스
    1-4-5-3-1-4           sub string 오류 구간 수정 전 텍스트
    1-4-5-3-1-5           type string 관련 정보를 모아서 볼 수 있도록 오류 유형 이름을 다시 표시함.
    [5] 키워드 또는 중요 내용 오류
    1-4-5-3-1-6           correction string 오류 구간 수정 후 텍스트
    1-4-6     corrected_type6       object 오류 유형 분류 [6]
    (NULL 허용, 
    해당 사항 있는 경우에만 내용을 표시함)
    1-4-6-1       correction_type     string 오류 유형 이름 표시. 
    [6] 유사한 내용 반복
    1-4-6-2       text     string 오류 유형 1종의 오류가 수정된 요약문
    1-4-6-3       errors     array  
    1-4-6-3-1         {}   object  
    1-4-6-3-1-1           error_id string 파일명(기사 고유 ID No.)“.”동일 오류 개수
    예) 301234.2
    1-4-6-3-1-2           begin number 오류 구간 시작 인덱스
    1-4-6-3-1-3           end number 오류 구간 종료 인덱스
    1-4-6-3-1-4           sub string 오류 구간 수정 전 텍스트
    1-4-6-3-1-5           type string 관련 정보를 모아서 볼 수 있도록 오류 유형 이름을 다시 표시함.
    [6] 유사한 내용 반복
    1-4-6-3-1-6           correction string 오류 구간 수정 후 텍스트
    1-4-7     corrected_all       object target이 machine_abstractive_summary일 경우 기계요약문을 수정한 결과임.
    target이 human_abstractive_summary일 경우 사람요약문을 수정한 결과임.
    1-4-7-1       corrected_type     string “all”
    1-4-7-2       text     string 모든 유형의 오류가 수정된 요약문
    2 original_text           string 원문 텍스트
    3 INFO           object  
    3-1   id         string 파일명
    3-2   src         object  
    3-2-1     src_id       string 원시 데이터 고유 ID No.
    3-2-2     src_category       string “news”, “magazine”, “law”
    3-3   token_size         object  
    3-3-1     machine_abstractive_summary_token_size       number 오류가 포함된 기계 요약문 어절 수
    데이터가 사람 요약문일 경우, “machine_abstractive_summary_token_size”는 제시되지 않음.
    3-3-2     human_abstractive_summary_token_size       number 오류가 포함된 사람 요약문 어절 수
    3-3-3     original_text_token_size       number 원문 텍스트 어절 수
    3-3-4     corrected_all_token_size       number 모든 유형의 오류가 수정된 요약문 어절 수
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜알토비전
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김태훈 02-576-0218 gimth@altovision.kr 가공
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜비플라이소프트 수집 및 정제
    ㈜나라지식정보 검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    김태훈 02-576-0218 gimth@altovision.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.