-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 국내 거주 외국인 대상 다국어 법률 정보 내용 전달 목적으로 국내 법률 문서 30,205건 기준으로 영어, 중국어, 힌디어, 베트남어, 러시아어 번역 라벨링 데이터 법률 병렬 말뭉치 151,025건 구축 (언어별 421,019 문장, 총 2,105,095 문장 포함) - 초거대 AI 말뭉치 데이터 해당 과제임에 따라 서브라벨링 데이터 16,600건 구축 - 학습용 데이터와 서브라벨링 데이터 포함하여 총 167,625건 데이터 구축
구축목적
- 다국어 번역을 통해 언어별 번역 격차 해소 - 기계번역의 번역 오류율을 줄이기 위한 목적 - 외국인을 위한 다국어 법률 정보 내용 전달 목적 - 법률정보에 따라 차이가 발생되는 번역, 특이사항을 일관성 있게 구성하기 위한 번역 DB 구축
-
메타데이터 구조표 데이터 영역 법률 데이터 유형 텍스트 데이터 형식 csv 데이터 출처 자체 수집 (국가법령정보센터, 국세법령정보시스템) 라벨링 유형 번역 라벨링 형식 json 데이터 활용 서비스 인공지능 법률번역 서비스 데이터 구축년도/
데이터 구축량2023년/원천데이터 30,205건 / 라벨링 데이터 151,025건 / 서브라벨링 데이터 16,600건 -
- 데이터 구축 규모
· 원천데이터
- 국내 법률문서 (판결문, 결정문, 조서)에 대해 법률 분야 9종으로 구분하여 원천데이터 30,205건 구축. 원천데이터에는 한국어 문장 421,019 문장 포함데이터 구축 규모· 원천데이터 원천데이터 (.csv) 구분 수량 비율 비고 민사 일반민법 6,795 22% 한국어
421,019
문장 포함근로기준법 1,583 5% 부동산 관련 법 1,211 4% 형사 형법 7,664 25% 형사소송법 6,451 21% 특별형법 1,772 6% 근로기준법 308 1% 가사 친족법 1,321 4% 조세 종합소득세 3,100 10% 합계 30,205 100% · 라벨링 데이터
- 국내 법률문서 (판결문, 결정문, 조서)에 대해 법률 분야 9종으로 구분하여 생성한 원천데이터 30,205건 기반 5개 언어별 다국어 번역 데이터 151,025건 구축. 라벨링 데이터에는 언어별 421,019 문장, 총 2,105,095 문장 포함데이터 구축 규모· 라벨링 데이터 라벨링데이터 (.json) 구분 수량 비율 비고 민사 일반민법 33,975 22% 번역문
2,105,095
문장 포함근로기준법 7,915 5% 부동산 관련 법 6,055 4% 형사 형법 38,320 25% 형사소송법 32,255 21% 특별형법 8,860 6% 근로기준법 1,540 1% 가사 친족법 6,605 4% 조세 종합소득세 15,500 10% 합계 151,025 100% · 서브 라벨링 데이터
- 초거대 AI 말뭉치 대상 과제에 해당하여 국내 법률문서 (판결문, 결정문, 조서)에 대해 법률 분야 9종으로 구분하여 원문을 텍스트화하여 서브라벨링데이터 16,600건 구축서브 라벨링 데이터 서브라벨링 (.JSON) 구분 수량 비율 비고 민사 일반민법 3,400 20% 근로기준법 500 3% 부동산 관련 법 1,000 6% 형사 형법 3,400 20% 형사소송법 3,000 18% 특별형법 1,050 6% 근로기준법 150 1% 가사 친족법 1,100 7% 조세 종합소득세 3,000 18% 합계 16,600 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 활용 모델
□ 모델 학습
- 번역데이터를 활용한 BLEU Score을 추출하기 위한 Transformer기반의 mbart 학습 알고리즘 사용모델 학습 학습(Train) 검증(Validation) 시험(Test) 개요 - Transformer 기반의 mbart모델에 텍스트 기반 학습 - Transformer 기반의 mbart모델에 텍스트 기반 학습 - Transformer 기반의 mbart모델에 텍스트 기반 학습 비율 80% 10% 10% 학습 알고리즘 구조 학습 알고리즘 구조 mbart □ 서비스 활용 시나리오
- 법률 정보에 대한 적절한 다국어 번역 정보 제공
· 인공지능 학습용 데이터는 이후 법률 정보 제공 시에 정확하고 자연스러운 외국어 정보 제공에 활용
· 인공지능이 새로운 법률 설명에 기존 데이터 번역데이터를 응용함으로써 학습용 데이터에서 연관 되어지는 새로운 정보, 다양한 상황에 맞는 적절한 번역을 제공
- 외국인 관점의 한국 법령 이해 및 활용 증대
· 학습데이터의 구축은 향후 인공지능을 이용한 법률 교육, 법률 정보 제공 등의 외국인 관점 국내 법에 대한 정보를 얻는 분야에서도 적극적으로 활용에 기여
· 인공지능 번역 정보의 경우는 외국인의 능력의 향상과 함께 한국어와 외국어에 대한 이해, 인공지능의 자연어 처리에 대한 이해 등으로 이어질 수 있어 법률 분야의 전문가의 양성에도 도움
· 실제로 사용 가능한 외국어 법률 정보 및 용어 실현
· 정보에 대한 이해도 향상을 통해 외국인 관점 한국어 법률(법령)에 대한 이해도 향상 도모 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 원천데이터 구성
ㅇ 원천데이터 포맷
- 판결문 및 결정문은 고유 일련번호가 존재하여, 문서종류 및 클래스번호와 일련번호로 파일명을 구성하고, 각 파일은 연번으로 구분됨원천데이터 구성 - 원천데이터 포맷 원천데이터 종류 포맷 파일명 텍스트 데이터 CSV 데이터
번호_문서종류_클래스번호_일련번호_연번(4자리)
ex) 90-1_se_23843_0001.csv원천데이터 구성 - 문서종류 문서종류 네이밍 클래스명 클래스번호 판결문/결정문/조서 se(판결)
de(결정)
re(조서)민사 일반민법 1 근로
기준법2 부동산 관련
법3 형사 형법 4 형사
소송법5 특별
형법6 근로
기준법7 가사 친족법 8 조세 종합
소득세9 원천데이터 구성2 원천데이터 종류 포맷 수량(단위) 설명 텍스트 데이터 CSV 30,205 (건)
(421,019 문장)한국어 원문의 원천데이터를
CSV 포맷으로 구축ㅇ 원천데이터 예시
- 원시데이터에 대해 정의한 추출항목(판시사항, 판결요지, 이유)에 따라 문장단위 추출 및 개인정보 비식별화 후, CSV 포맷으로 저장- 라벨링데이터 구성
ㅇ 가공 타입
- 법률 문서인 원천데이터(.csv)를 통해 가공 타입인 ‘번역’을 수행 후 JSON 포맷으로 저장
- ‘번역’의 경우 5개 언어(영어, 중국어, 힌디어, 베트남어, 러시아어)로 기계번역
ㅇ 어노테이션 포맷
- 데이터셋 이름 및 메타 정보, 어노테이션 항목 및 값에 대한 범위와 예시어노테이션 포맷 No. 항목명 항목 설명 타입 필수
구분예시 1 Dataset Object 1-1 DataSetNum 데이터셋번호 string Y "90-1" 1-2 original_lang 원어 국가 string Y “KOR” 1-3 trans_lang 번역어 국가 string Y “eng” 1-4 Sentence_cnt 문서 내 문장 갯수 Num Y 20 2 info Object 2-1 DocType 판결유형 string Y "판례" 2-2 Sentencing 법률 카테고리 Object Y “국세징수법” 2-3 Precedent Object 2-3-1 PrecedentID 일련번호(판례) Num Y 234397 2-3-2 PrecedentNum 사건번호 string Y “2021다223368” 2-3-3 PrecedentLevel 심 string Y 2-3-4 PrecedentDate 선고일자 Date Y YYYYMMDD 2-3-5 PrecedentName 사건명 string Y “대여금”, ... 2-3-6 PrecedentKinds 소송유형 string Y "민사" 2-3-7 PrecedentCourt 법원명 string Y “고등법원” 2-3-8 PrecedentPlaintiff 원고, 상고인 string “원고 (소송대리인
법무법인 담당변호사 외
2인)”, ...2-3-9 PrecedentDefendant 피고, 피상고 string “피고 (소송대리인 변호사)”, ... 3 Annotations 어노테이션 정보 Array 3-1 Annotation_type 어노테이션 유형 string Y “판시사항”, “판결요지”,
“판결이유”, “조서”3-2 Unique_num 고유 문장 번호 Num Y 1 3-3 Origin_Sentence 판시사항 원어 내용 Str Y “국세징수법...” 3-4 Trans_Sentence 판시사항 번역어 내용 Str Y “Whether the head of...” 3-5 WordCnt 어절 수 Num Y 24 4 Legal_info 법률용어정보 Array 4-1 Legal_num 법률용어번호 Num Y 1 4-2 Origin_term 법률용어 단어 Str Y “추징” 4-3 Trans_term 법률용어 번역어 단어 Str Y “Chargebacks” ㅇ 라벨링데이터 예시
- 한국어 원문에 대해 5개 언어별 번역 문장 구축ㅇ 서브라벨링데이터 예시
- 국내 법률문서 원문 전체 텍스트화. 온점(.) 기준 ‘∖n’ 입력하여 문장단위 구분 -
데이터셋 구축 담당자
수행기관(주관) : ㈜타임게이트
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김민관 02-575-0409 aidiv@time-gate.com 품질관리 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜엠티데이타 수집, 모델링 아이티에스노아 정제 디그랩 가공 아이삭 품질관리 법률사무소 진선 데이터 설계, 법률 자문 법무법인 율촌 데이터 설계, 법률 자문 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 이정기 02-575-0409 aidiv@time-gate.com 김민관 02-575-0409 aidiv@time-gate.com AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 구균모 070-4280-5403 kmgu@mtdata.co.kr 이승주 070-4280-5403 sjlee@mtdata.co.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 이승주 070-4280-5403 sjlee@mtdata.co.kr 구균모 070-4280-5403 kmgu@mtdata.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.