콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#법률 # 판결문 # 판례 # 심결례 # 하급심 # 판결 쟁점 추출 요약 # 질의 응답 #자연어

BETA 법률/규정 텍스트 분석 데이터 (고도화)- 상황에 따른 판례 데이터

법률 규정 텍스트 분석 데이터 (고도화)- 상황에 따른 판례 데이터 아이콘 이미지
  • 분야법률
  • 유형 텍스트
구축년도 : 2023 갱신년월 : 2024-08 조회수 : 6,520 다운로드 : 349 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2024-08-22 데이터 추가 개방
    1.0 2024-06-28 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-28 산출물 공개 Beta Version

    소개

    - 학계와 산업계의 법률 자연어처리 및 인공지능 연구와 기술 개발에 필요한 60,000건 이상의 판례 데이터를 라벨링한 학습용 데이터를 구축
    - 인공지능 학습에서 판례 데이터의 비율 분포를 실제 비율과 유사하도록 고른 비율로 수집하고 카테고리별 2,000건 이상이 되도록 데이터를 구성
    - 활용도가 높은 판례 데이터를 수집하고 판례의 주요 내용을 추출요약하고, 질의응답 셋을 작성, 용어 정보(키워드)를 라벨링하여 인공지능 학습에 도움이 되는 데이터를 구축

    구축목적

    - 학계와 산업계의 인공지능 연구와 기술 개발에 활용할 수 있도록 충분한 판례 데이터를 제공
    - 판결 요약, 판결 예측 등 자연어 이해 및 생성 성능 향상을 위한 인공지능 학습 데이터를 구축
    - 판결 예측, 유사 판례 추천에 최적화된 파인튜닝용 질의응답(QA)학습 데이터를 추가 구축
  • - 데이터 통계

     

     

    1. 데이터 구축 규모
      - 상황별 판례 데이터: 원문 약 25만 건, 요약문 건(추출요약 66,511건), 질의응답 총 70,784건
      - QA 데이터: 질의응답 및 해설 20,160건

    데이터 구축 규모
    데이터
    종류
    데이터
    형태
    원문 규모 어노테이션
    규모
    결과물 규모
    추출 요약 질의응답
    상황별
    판례
    데이터
    텍스트 - 판례 203,809건
    - 심결례 48,137건
    137,295건 66,511건
    (1문장
    추출)
    70,784건
    (1~5셋트 작성) 
    QA
    데이터
    텍스트 - 20,160건 - 20,160건
    (1개 셋트 작성)
    총계 251,946건 157,455건 66,511건 90,944건

     

     

     

     

    2. 데이터 분포
      - 상황별 10개 카테고리별 분포

    데이터 분포 - 상황별 10개 카테고리별 분포
    목표 수량 비율 구축량
    민사 17,000 28.33% 17,030
    가사 2,000 3.33% 2,071
    형사A(생활형) 6,000 10% 6,000
    형사B(일반형) 6,000 10% 6,857
    행정 16,000 26.67% 21,342
    기업 2,000 3.33% 2,142
    근로자 3,000 5% 3,011
    특허/저작권 3,000 5% 3,012
    금융조세 3,000 5% 3,041
    개인정보/
    ICT 
    2,000 3.33% 2,005
    합계 60,000 100% 66,511

     

     

      - 심판 유형별 분포

    데이터 분포 - 심판 유형별 분포
    목표 수량 비율 구축량
    하급심 9,000 55% 10,310
    대법원 36,000 40% 40,443
    심결례 15,000 5% 15,758
    합계 60,000 100% 66,511
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 활용 모델

     

    1. 판례요약모델

    모델학습

      - BART(Bidirectional and Auto-Regressive Transformers)는 자연어 처리 분야에서 활용되는 트랜스포머(Transformer) 아키텍처 기반의 모델로 특히 텍스트의 생성과 요약 작업에 중점을 둔 모델임.  
      - 판례요약모델은 판결문의 원문 및 요약문 데이터를 통해 사전학습된 BART 모델을 fine-tuning 하여 생성함.
      - 모델학습에 사용하는 데이터는 많을수록 좋지만 최소 10,000 건 이상의 데이터를 사용해야 안정적인 성능을 보장할 수 있음.

    판례요약모델
      학습 검증 평가
    개요 BART Fine-tuning 학습 중 모델성능
    평가를 통한
    학습파라미터 조정
    모델학습 완료 후
    모델평가
    필요데이터 많을수록 좋음 10% 10%

     

    판례요약모델 학습과정

    [그림] 03_판례요약모델 학습과정

     

    서비스 활용 시나리오
      - 구축한 모델은 일반인이 이해하기 어려운 법률문장의 중요부분을 요약해 쉽게 이해하도록 도와줄 수 있음.
      - 판결요약 데이터는 다른 요약모델의 평가를 위한 데이터로 활용될 수 있음. 이로 인해 다른 요약모델의 개발에 활용될 수 있음.
      - 또한, 초거대AI의 학습 데이터로 활용될 수 있음.

     

    2. 판결예측모델

    모델학습
      - BERT(Bidirectional Encoder Representations from Transformers)는 구글에서 개발한 자연어 처리 모델 중 하나로, Transformer 아키텍처를 기반으로 함. 
      - BERT는 양방향(bidirectional)으로 문맥을 이해하는 데 중점을 두며, 대규모의 텍스트 데이터를 사용하여 사전 훈련됨.
      - 판결예측모델은 사전학습된 BERT 모델을 fine-tuning 하여 판결을 긍정/부정/불명으로 분류함. 
      - 모델학습에 사용하는 데이터는 많을수록 좋지만 최소 10,000 건 이상의 데이터를 사용해야 안정적인 성능을 보장할 수 있음.

    판결예측모델
      학습 검증 평가
    개요 BERT Fine-tuning 학습 중 모델성능
    평가를 통한
    학습파라미터 조정
    모델학습 완료 후
    모델평가
    필요데이터 많을수록 좋음 10% 10%

     

    판결예측모델 학습과정

    [그림] 04_판결예측모델 학습과정

     

     

    서비스 활용 시나리오
      - 판결예측모델을 통해 판결문의 내용을 입력하면, 그 내용이 긍정/부정/불명인지 분류해 일반인이 해석하기 어려운 판례를 이해하기 쉽도록 활용가능함.
      - 시민들은 일상적으로 궁금한 법률사항을 입력하면 그것이 적법인지 불법인지를 확인할 수 있는 시스템으로 진화 가능함.
      - 또한 구축한 데이터는 초거대AI모델의 파인튜닝용 데이터로 활용될 수 있음

     

    기타정보

     

    대표성
      - 판례 데이터를 10개의 분야로 나누어 활용성이 높은 판례로 구성함.

     

    독립성
      - 본 데이터와 관련이 있는 학습용 데이터는 2018년에 구축된 ‘법률 지식베이스’ 와 2021년에 구축된 ‘법률/규정 (판결서, 약관 등) 텍스트 분석 데이터’ 
    가 있음. 
      - 2017년에 구축된 데이터는 메타데이터에 어노테이션 데이터만 제공하기 때문에 실제 원시데이터와는 관계가 없으며 2021년에 구축된 데이터는 1심, 2심 데이터만을 수집함.
      - 기구축된 데이터를 확인하여 본 사업에 포함되지 않도록 제외하여 원시데이터를 선정함.

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - [데이터셋 1: 상황별 판례데이터]

     

    데이터 구성

    데이터 구성
    Key Description Type Child Type
    info 기초 정보 Object json Object
    dataType 문서 종류 String  
    caseNm 사건명 String  
    caseTitle 사건제목 String  
    courtType 심판 유형 String  
    courtNm 법원명 String  
    judmnAdjuDe 판결선고일 String  
    caseNoID 대표사건번호 String  
    caseNo 사건번호 String  
    jdgmn 판시사항 String  
    jdgmnInfo Q&A Object json Array
    question 질문 String  
    answer 답변 String  
    Summary 요약 라벨링 Object json Array
    summ_contxt 요약대상원문 String  
    summ_pass 요약 문장 String  
    keyword_tagg 키워드 태그 Object json Object
    keyword 키워드 String  
    Reference_info 참조 정보 Object json Object
    reference_rules 참조 법령 태깅 String  
    reference_court_case 참조 판례 태깅 String  
    Class_info 카테고리 정보 Object json Object
    class_name 대분류 Array  
    instance_name 세분류 Array  

     

     

    어노테이션 포맷

    어노테이션 포맷
    구분 항목명 타입 필수 설명 자동
    추출 
    비고
    1 info Object Y 기초 정보    
      1.1 dataType String Y 문서 종류 가능 2021년도 어노테이션을
    고려하여 추가
    2023년 본 과제는 모두
    “판결문”임
    1.2 caseNm String Y 사건명 가능  
    1.3 caseTitle String Y 사건제목 불가능 - 사건명이 없는 경우
    “[법원명 선고일자 선고
    사건번호 판결유형]”을
    사건명으로 삼음
    1.4 courtType String Y 심판 유형 가능 판례(대법원), 판례(하급심),
    심결례
    1.5 courtNm String Y 법원명 가능 courtNM을 courtNm으로
    수정함
    1.6 judmnAdjuDe String Y 판결선고일 가능 “YYYY-MM-DD”형식으로
    표기
    1.7 caseNoID String Y 대표사건번호 가능 DB관리용 정보
    json 파일명과 동일
    1.8 caseNo String Y 사건번호 가능  
    2 jdgmn String Y 판시사항 불가 판결문에 판시사항이 없는
    경우, null 값 허용
    3 jdgmnInfo Object Y Q&A    
      3.1 question String Y 질문 불가  
    3.2 answer String Y 답변 불가 답변 유형: 긍정, 부정, 불명
    4 Summary Object Y 요약 라벨링    
      4.1 summ_contxt String Y 요약대상원문 불가 판결 요지 등 판결문의 주요
    내용이 담긴 원문(요약대상)
    4.2 summ_pass String Y 요약 문장 불가 요약대상원문을 추출 요약
    5 keyword_tagg Object Y 키워드 태그    
      5.1 keyword String Y 키워드 불가 키워드 별로 id(일련번호) 부여
    6 Reference_info Object Y 참조 정보    
      6.1 reference_rules String Y 참조 법령 태깅 불가 참조법령이 없는 판결문이
    있음
    6.2 reference_court_case String Y 참조 판례 태깅 불가 참조판례가 없는 판결문이
    있음
    7 Class_info Object Y 카테고리 정보    
      7.1 class_name Array Y 대분류 불가  
    7.2 instance_name Array Y 세분류 불가  

    데이터 포맷


      - 원문데이터 포맷

    원문데이터 포맷

     

      - 전처리 후(서브라벨링 데이터)

     

    {
        "판례일련번호": 235009,
        "사건명": "유언효력확인의소[녹음에 의한 유언의 효력 확인을 구한 사건]",
        "사건번호": "2023다217534",
        "선고일자": "2023-06-01",
        "법원명": "대법원",
        "법원종류코드": null,
        "사건종류명": "민사",
        "사건종류코드": 400101,
        "판결유형": "판결",
        "선고": "선고",
        "판례상세링크": "/DRF/lawService.do?OC=pwshoot&target=prec&ID=235009&type=HTML&mobileYn=",
        "판시사항": "【판시사항】\n\n[1] 유언증서가 성립한 후에 멸실되거나 분실된 경우, 이해관계인이 유언증서의 내용을 증명하여 유언의 유효를 주장할 수 있는지 
    여부(적극) 및 이는 녹음에 의한 유언이 성립한 후에 녹음테이프나 녹음파일 등이 멸실 또는 분실된 경우에도 마찬가지인지 여부(적극) / 원본의 존재 및 원본 성립
    의 진정에 관하여 다툼이 있고 사본을 원본의 대용으로 하는 것에 대하여 상대방으로부터 이의가 있는 경우, 사본으로써 원본을 대신할 수 있는지 여부(소극) 및 서
    증으로서 사본 제출의 효과 / 서증 제출에 있어 원본을 제출할 필요가 없는 경우 및 그 주장·증명책임의 소재(=해당 서증의 신청당사자)\n\n[2] 감정인의 감정 결
    과의 증명력",
        "판결요지": "【판결요지】\n\n[1] 유언증서가 성립한 후에 멸실되거나 분실되었다는 사유만으로 유언이 실효되는 것은 아니고 이해관계인은 유언증서의 내용을 
    증명하여 유언의 유효를 주장할 수 있다.\n이는 녹음에 의한 유언이 성립한 후에 녹음테이프나 녹음파일 등이 멸실 또는 분실된 경우에도 마찬가지이다.\n\n문서
    의 제출은 원본으로 하여야 하는 것이고, 원본이 아니고 단순히 사본만으로 한 증거의 제출은 정확성의 보증이 없어 원칙적으로 부적법하므로, 원본의 존재 및 원본
    의 성립의 진정에 관하여 다툼이 있고 사본을 원본의 대용으로 하는 것에 대하여 상대방으로부터 이의가 있는 경우에는 사본으로써 원본을 대신할 수 없다.\n반면
    에 사본을 원본으로서 제출하는 경우에는 그 사본이 독립한 서증이 되는 것이나 그 대신 이로써 원본이 제출된 것으로 되지는 아니하고, 이때에는 증거에 의하여 사
    본과 같은 원본이 존재하고 그 원본이 진정하게 성립하였음이 인정되지 않는 한 그와 같은 내용의 사본이 존재한다는 것 이상의 증거가치는 없다.\n다만 서증사본
    의 신청 당사자가 문서 원본을 분실하였다든가, 선의로 이를 훼손한 경우, 문서제출명령에 응할 의무가 없는 제3자가 해당 문서의 원본을 소지하고 있는 경우, 원본
    이 방대한 양의 문서인 경우 등 원본 문서의 제출이 불가능하거나 곤란한 상황에서는 원본을 제출할 필요가 없지만, 그러한 경우라면 해당 서증의 신청당사자가 원
    본을 제출하지 못하는 것을 정당화할 수 있는 구체적 사유를 주장·증명하여야 한다.\n\n[2] 감정인의 감정 결과는 그 감정방법 등이 경험칙에 반하거나 합리성이 
    없는 등의 현저한 잘못이 없는 한 이를 존중하여야 한다.\n",
        "참조조문": "【참조조문】\n[1]민법 제1067조,제1073조,민사소송법 제288조[증명책임],제355조\n[2]민사소송법 제202조",
        "참조판례": "【참조판례】\n[1]대법원 1996. 9. 20. 선고 96다21119 판결(공1996하, 3129),대법원 2010. 2. 25. 선고 2009다96403 판결\n[2]대법원 2009. 7. 9. 선고 
    2006다67602, 67619 판결",
        "판례내용": "【원고, 피상고인】 원고 1 외 2인 (소송대리인 법무법인 서휘 담당변호사 김익현 외 5인)\n\n【피고, 상고인】 피고 (소송대리인 법무법인 가람 외 1
    인)\n\n【원심판결】 서울고법 2023. 2. 1. 선고 2021나2035828 판결\n\n【주문】\n\n상고를 모두 기각한다.\n상고비용은 피고가 부담한다.\n\n【이유】\n\n상
    고이유(상고이유서 제출기간이 지난 뒤에 제출된 상고이유보충서의 기재는 상고이유를 보충하는 범위 내에서)를 판단한다.\n\n1. 사안의 개요\n\n원심판결 이유 
    및 기록에 따르면 아래 사실을 알 수 있다.\n\n가. 망인은 2018. 8. 24. 사망하였고, 그 상속인으로 배우자인 원고 1과 자녀인 원고 2, 원고 3 및 피고가 있다.\n\n나. 
    원고 3은 서울가정법원에 망인이 녹음에 의한 유언을 하였다며 그에 대한 검인을 청구하였고, 2019. 7. 16. 열린 2차 검인기일에 ‘2018. 2. 27. 유언녹음을 한 후 소외
    인이 녹음원본을 계속 보관하였고, 유언녹음은 망인의 병실에서 이루어졌으며 원고 1, 원고 2가 입회하였다.\n’고 진술하였다.\n\n다. 법원은 소외인의 휴대전화
    (이하 ‘이 사건 휴대전화’라고 한다)에 저장되어 있는 녹음파일 등(이하 ‘검인파일’이라고 한다)에 대하여 사실조사를 실시한 후 유언검인조서를 작성하였다.\n\n라. 
    피고의 대리인은 ‘검인파일에 데이터 상세정보의 저장일자를 보면 2019. 5. 14. 오후 12:20에 마지막으로 수정된 것으로 보여 편집되었을 우려가 있다.\n’는 의견을 
    밝혔고, 원고 3의 대리인은 ‘휴대전화가 고장이 나서 복원하는 과정에서 수정일시가 달라졌다.\n’고 진술하였다.\n\n2. 관련 법리\n\n유언증서가 성립한 후에 멸
    실되거나 분실되었다는 사유만으로 유언이 실효되는 것은 아니고 이해관계인은 유언증서의 내용을 증명하여 유언의 유효를 주장할 수 있다( 대법원 1996. 9. 20. 선
    고 96다21119 판결등 참조 ).\n이는 녹음에 의한 유언이 성립한 후에 녹음테이프나 녹음파일 등이 멸실 또는 분실된 경우에도 마찬가지이다.\n\n문서의 제출은 원
    본으로 하여야 하는 것이고, 원본이 아니고 단순히 사본만으로 한 증거의 제출은 정확성의 보증이 없어 원칙적으로 부적법하므로, 원본의 존재 및 원본의 성립의 진
    정에 관하여 다툼이 있고 사본을 원본의 대용으로 하는 것에 대하여 상대방으로부터 이의가 있는 경우에는 사본으로써 원본을 대신할 수 없다.\n반면에 사본을 원
    본으로서 제출하는 경우에는 그 사본이 독립한 서증이 되는 것이나 그 대신 이로써 원본이 제출된 것으로 되지는 아니하고, 이때에는 증거에 의하여 사본과 같은 원
    본이 존재하고 그 원본이 진정하게 성립하였음이 인정되지 않는 한 그와 같은 내용의 사본이 존재한다는 것 이상의 증거가치는 없다.\n다만 서증사본의 신청 당사
    자가 문서 원본을 분실하였다든가, 선의로 이를 훼손한 경우, 문서제출명령에 응할 의무가 없는 제3자가 해당 문서의 원본을 소지하고 있는 경우, 원본이 방대한 양
    의 문서인 경우 등 원본 문서의 제출이 불가능하거나 곤란한 상황에서는 원본을 제출할 필요가 없지만, 그러한 경우라면 해당 서증의 신청당사자가 원본을 제출하
    지 못하는 것을 정당화할 수 있는 구체적 사유를 주장·증명하여야 한다( 대법원 2010. 2. 25. 선고 2009다96403 판결등 참조).\n\n감정인의 감정 결과는 그 감정방
    법 등이 경험칙에 반하거나 합리성이 없는 등의 현저한 잘못이 없는 한 이를 존중하여야 한다[ 대법원 2009. 7. 9. 선고 2006다67602(본소), 2006다67619(반소) 판결
    등 참조].\n\n3. 판단\n\n가. 원심은 원심 감정인들의 각 감정 결과 등을 종합하여 인정한 판시와 같은 사정을 근거로, ① 소외인이 2018. 2. 27. 14:08:09 무렵 이 
    사건 휴대전화를 사용하여 망인의 유언을 녹음한 사실, ② 위 ①항의 녹음에 따라 애초 이 사건 휴대전화에서 생성된 원본파일(이하 ‘원본파일’이라고 한다)이 존재
    하였던 사실, ③ 소외인은 2018. 2. 27. 14:11:51경 원고 3에게 원본파일을 카카오톡으로 전송한 다음 이 사건 휴대전화에서 원본파일을 삭제한 사실, ④ 원고 3은 
    2018. 2. 27. 위 파일을 자신의 이메일 주소로 전송하여 보관하다가 2019. 5. 14. 소외인에게 전달하였으며, 소외인은 2019. 5. 14. 12:20경 이를 다시 이 사건 휴대전화
    에 저장한 사실, ⑤ 소외인이 2019. 5. 14. 12:20경 이 사건 휴대전화에 저장한 파일이 검인파일로 제출되었고 이는 원본파일과 동일성이 있는 파일인 사실을 인정한 
    다음, 피고가 주장하듯이 원고 3 등이 유언 검인기일에서 일부 사실과 다른 내용의 진술을 한 점, 디지털 장치에 저장된 파일의 위·변조가 용이하다는 점 등만으로는 
    위 인정을 뒤집기 부족하다고 판단하였다.\n이어서 원심은 원본파일과 동일성이 인정되는 검인파일 등에 따르면 망인의 유언은 민법 제1067조의 요건을 갖춘 것으
    로서 유효하다고 판단하였다.\n\n나. 앞서 본 법리에 비추어 기록을 살펴보면, 원심의 위와 같은 판단에 상고이유 주장과 같이 녹음에 의한 유언, 감정 결과의 증명
    력, 유언을 녹음한 원본 파일과 사본 파일의 동일성의 의미 및 대상에 관한 법리를 오해하여 필요한 심리를 다하지 않은 잘못이 없다.\n\n4. 결론\n\n그러므로 상
    고를 모두 기각하고 상고비용은 패소자가 부담하도록 하여, 관여 대법관의 일치된 의견으로 주문과 같이 판결한다.\n\n대법관   김선수(재판장) 박정화 노태악 오
    경미(주심)"
    }

     

     

      - json 형식

     json 형식

     

      - 실제 예시

     
    {
      "info": {
        "id": 42041955,
        "dataType": "판결문",
        "caseNm": "유언효력확인의소[녹음에 의한 유언의 효력 확인을 구한 사건]",
        "caseTitle": "대법원 2023. 6. 1. 선고 2023다217534 판결",
        "courtType": "판례(대법원)",
        "courtNm": "대법원",
        "judmnAdjuDe": "2023-06-01",
        "caseNoID": "2023다217534",
        "caseNo": "2023다217534"
      },
      "jdgmn": "[1] 유언증서가 성립한 후에 멸실되거나 분실된 경우, 이해관계인이 유언증서의 내용을 증명하여 유언의 유효를 주장할 수 있는지 여부(적극) 및 이는 녹
    음에 의한 유언이 성립한 후에 녹음테이프나 녹음파일 등이 멸실 또는 분실된 경우에도 마찬가지인지 여부(적극) (...생략...)",
      "jdgmnInfo": [
        {
          "question": "유언증서가 성립한 후에 멸실되거나 분실된 경우, 이해관계인이 유언증서의 내용을 증명하여 유언의 유효를 주장할 수 있는가?",
          "answer": "긍정"
        }
      ],
      "Summary": [
        {
          "summ_contxt": "유언증서가 성립한 후에 멸실되거나 분실되었다는 사유만으로 유언이 실효되는 것은 아니고 이해관계인은 유언증서의 내용을 증명하여 유언
    의 유효를 주장할 수 있다. 이는 녹음에 의한 유언이 성립한 후에 녹음테이프나 녹음파일 등이 멸실 또는 분실된 경우에도 마찬가지이다. 문서의 제출은 원본으로 하
    여야 하는 것이고, 원본이 아니고 단순히 사본만으로 한 증거의 제출은 정확성의 보증이 없어 원칙적으로 부적법하므로, 원본의 존재 및 원본의 성립의 진정에 관하
    여 다툼이 있고 사본을 원본의 대용으로 하는 것에 대하여 상대방으로부터 이의가 있는 경우에는 사본으로써 원본을 대신할 수 없다.",
          "summ_pass": "유언증서가 성립한 후에 멸실되거나 분실되었다는 사유만으로 유언이 실효되는 것은 아니고 이해관계인은 유언증서의 내용을 증명하여 유언의 
    유효를 주장할 수 있고, 녹음에 의한 유언이 성립한 후에 녹음테이프나 녹음파일 등이 멸실 또는 분실된 경우에도 마찬가지이다."
        }
      ],
      "keyword_tagg": [
        {
          "id": 1,
          "keyword": "유언 실효"
        },
        {
          "id": 2,
          "keyword": "유언증서"
        }
      ],
      "Reference_info": {
        "reference_rules": "[1] 민법 제1067조, 제1073조 / 민사소송법 제288조[증명책임], 제355조 [2] 민사소송법 제202조",
        "reference_court_case": "[1] 대법원 1996. 9. 20. 선고 96다21119 판결(공1996하, 3129), 대법원 2010. 2. 25. 선고 2009다96403 판결 [2] 대법원 2009. 7. 9. 선고 
    2006다67602, 67619 판결"
      },
      "Class_info": {
        "class_name": "민사",
        "instance_name": "유언"
      }
    }

     

    - [데이터셋 2: QA 데이터]

     

    데이터구성

    데이터구성
    Key Description Type Child Type
    title 기초 정보 String  
    question 질문 String  
    answer 답변 String  
    commentary 해설 String  
    keyword 키워드  String  
    reference_info 참조 정보 Object  
    reference_rules 참조 법령 태깅 String  
    reference_court_case 참조 판례 태깅 String  
    reference_general 참조 문헌 태깅 String  

     

    어노테이션 포맷

    어노테이션 포맷
    구분 항목명 타입 필수 설명 자동 추출 비고
    1 title String Y 기초 정보   판결문의 기초 정보
    2 question String Y 질문 불가 라벨링 대상
    3 answer String Y 답변 불가 라벨링 대상
    4 commentary String Y 해설 불가  
    5 keyword String Y 키워드    null 값 허용
    6 reference_info Object Y 참조 정보   참조 법령, 참조
    판례, 참조 문헌 중
    1가지 이상 값이
    있음
      6.1 reference_rules String Y 참조 법령 태깅 불가 null 값 허용
    6.2 reference_court_case String Y 참조 판례 태깅 불가 null 값 허용
      6.3 reference_general String Y 참조 문헌 태깅 불가 null 값 허용

     

     

    데이터 포맷
    - 원문 없이 법령, 판례, 문헌 등을 참고하여 법률 전문가들이 직접 작성하므로 원문이나 전처리 공정이 없음

     

    02_QA 데이터 json 형식

    [그림] 02_QA 데이터 json 형식

     

    실제 예시

     
    {
        "id": "QA_00001",
        "title": "공직유관단체의 의미",
        "question": "청탁금지법 적용 대상인 공직유관단체는 무엇입니까?",
        "answer": "공직자윤리법 제3조의2에 따라 지정된 기관 및 단체로서 인사혁신처장이 지정·고시한 기관에 한정합니다.",
        "commentary": "1. 한국은행\n2. 공기업\n3. 정부의 출자·출연·보조를 받는 기관·단체(재출자·재출연을 포함한다), 그 밖에 정부 업무를 위탁받아 수행하거나 대행하
    는 기관·단체\n4. 「지방공기업법」에 따른 지방공사·지방공단 및 지방자치단체의 출자·출연·보조를 받는 기관·단체(재출자·재출연을 포함한다), 그 밖에 지방자치단체의 
    업무를 위탁받아 수행하거나 대행하는 기관·단체\n5. 임원 선임 시 중앙행정기관의 장 또는 지방자치단체의 장의 승인·동의·추천·제청 등이 필요한 기관·단체나 중앙행
    정기관의 장 또는 지방자치단체의 장이 임원을 선임·임명·위촉하는 기관·단체 등이 있습니다.",
        "keyword": "공직유관단체",
        "reference_rules": "청탁금지법 제2조/공직자윤리법 제3조의2",
        "reference_court_case": null,
        "reference_general": "권익위 청탁금지법 해설집(2018. 1월) 27면"
    }

     

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜윤즈정보개발
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    고윤희 070-8290-7470 yh.goh@yoonsid.com 사업 총괄, 데이터 라벨링, 품질관리
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    국민대학교 산학협력단 데이터베이스 설계, 데이터 구축프로세스 설계
    라벨링 가이드라인 작성, 데이터 라벨링
    ㈜에버트란 데이터 라벨링, AI모델 선정을 위한 테스트
    법무법인(유) 원 라벨링 데이터 검사기준 작성, 라벨링 데이터 품질검수
    이지메타(주) 저작도구 개발 및 운영, 데이터 라벨링
    ㈜인텔리콘연구소 AI모델 개발, 데이터 수집 정제 및 라벨링, QA데이터 구축
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    고윤희 이사 070-8290-7470 yh.goh@yoonsid.com
    이승철 수석 070-8290-7474 lsc@yoonsid.com
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    김윤철 전무 070-5142-4752 paul@intellicon.co.kr
    정병택 이사 02-6284-0195 jungbt@intellicon.co.kr
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    윤택기 대표 02-584-3489 tkyoon02@daum.net
    서민석 소장 02-584-3489 minsuksuh@gmail.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.