AI-Hub

#의료 # 법률 # 말뭉치 데이터 # 자연어처리 # 인공지능

의료, 법률 전문 서적 말뭉치

분야법률
유형 텍스트

구축년도 : 2022 갱신년월 : 2023-09 조회수 : 71,245 다운로드 : 1,234 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용
1.1	2023-11-24	데이터 최종 개방
1.1	2023-09-14	데이터 재연결
1.0	2023-06-28	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2023-11-27	데이터 최종 개방

소개

저작재산권 이용허락을 확보한 의료 및 법률 분야 핵심 전문 도서와 분야 전문성과 최신성을 갖춘 특허(의료), 판결문(법률)을 기반으로 1억 어절의 데이터셋을 구축

구축목적

전문 분야 한국어 말뭉치 표본을 제공하고 자연어처리 산업 활성화와 의료 및 법률 분야 인공지능 솔루션 개발 확대에 기여하고자 함

메타데이터 구조표
데이터 영역	법률	데이터 유형	텍스트
데이터 형식	txt	데이터 출처	도서, 특허, 판결문
라벨링 유형	텍스트	라벨링 형식	JSON
데이터 활용 서비스	의료 및 법률 분야에 대한 질의응답 및 상담 서비스, 의료 분야에 대한 진료과 추천 서비스, 법률 분야에 대한 판례 요약 서비스	데이터 구축년도/ 데이터 구축량	2022년/102,300,332어절

Ⅰ. 데이터 구축 규모
- 원천데이터 : 저작재산권 이용허락을 확보한 의료 및 법률 전문 도서와 특허(의료), 판결문(법률)을 기반으로 126,513건 원천데이터 구축
- 라벨링데이터 : 확보된 원천데이터로 총 102,300,332어절 구축

Ⅰ. 데이터 구축 규모
언어	구분	원천데이터	라벨링데이터
한국어	의료	46,883건	49,217,568어절
	법률	79,630건	53,082,764어절
	합	126,513건	102,300,332어절

Ⅱ. 데이터 분포
1. 문장 어절 수 분포

Ⅱ. 데이터 분포 1. 문장 어절 수 분포
어절 구간	원천데이터 수	비율
10 어절 미만	1	0.00%
10 어절 ~ 20 어절	10	0.01%
21 어절 ~ 30 어절	27	0.02%
31 어절 ~ 40 어절	33	0.03%
41 어절 ~ 50 어절	61	0.05%
51 어절 ~	126,381	99.90%
합계	126,513	100%

2. 도서 출판 기간 분포

Ⅱ. 데이터 분포 2. 도서 출판 기간 분포
출판 기간	원천데이터 수	비율
2010년 미만	7,710	6.09%
2010년 ~ 2011년	6,017	4.76%
2012년 ~ 2013년	9,059	7.16%
2014년 ~ 2015년	13,202	10.44%
2016년 ~ 2017년	15,050	11.90%
2018년 ~ 2019년	23,637	18.68%
2020년 ~	51,838	40.97%
합계	126,513	100%

3. 전문 용어 분포

Ⅱ. 데이터 분포 3. 전문 용어 분포
대분류	중분류	전문 용어	건수	비율
의료	STUDY_FIELD	FD_MEDICINE	44,230	0.65%
	THEORY	TR_MED_PROCEDURE	398,906	5.86%
		TR_MED_MEASURE	169,416	2.49%
		TR_MED_OBSERVATION	12,193	0.18%
	ARTIFACTS	AFW_MED_DEVICE	180,709	2.66%
	ORGANIZATION	OGG_MEDICINE	11,397	0.17%
	ANIMAL	AM_PART	268,171	3.94%
	TERM	TMM_DISEASE	685,799	10.08%
		TMM_SYMPTOM	305,514	4.49%
		TMM_DRUG	238,190	3.50%
		TM_CELL_TISSUE_ORGAN	1,018,956	14.98%
법률	ORGANIZATION	OGG_LAW	374,884	5.51%
	CIVILIZATION	CV_LAW	1,352,497	19.88%
	CIVILIZATION	CV_TAX	32,807	0.48%
	EVENT	EV_OTHERS	12,405	0.18%
	TERM	TML_PARTY	470,796	6.92%
		TML_PROCEDURAL_ACTS	208,849	3.07%
		TML_LITIGATION	165,950	2.44%
		TML_PROVISION	508,108	7.47%
		TML_CASE	187,276	2.75%
		TML_JUDGMENT	155,177	2.28%
합계			6,802,230	100%

4. 분류(독해 난이도) 분포

Ⅱ. 데이터 분포 4. 분류(독해 난이도) 분포
난이도 수준	원천데이터 수	비율
하(일반인이 쉽게 이해)	18,911	14.95%
중(일반인이 어느 정도 이해)	55,643	43.98%
상(일반인이 이해하기 어려움)	51,959	41.07%
합계	126,513	100%

5. 문서 표준 분류 분포
5.1 분야 구성비

Ⅱ. 데이터 분포 5. 문서 표준 분류 분포 5.1 분야 구성비
분야	원천데이터 수	어절 수	비율(어절 수 기준)
의료	46,883	49,217,568	48.11%
법률	79,630	53,082,764	51.89%
합계	126,513	102,300,332	100%

5.2 분야별 카테고리 구성비

Ⅱ. 데이터 분포 5. 문서 표준 분류 분포 5.2 분야별 카테고리 구성비
분야	카테고리	원천데이터 수	비율
의료	가정의학	431	0.34%
	간호학	7	0.01%
	내과학	6,963	5.50%
	마취과학	434	0.34%
	면역학/병리학/임상병리학	2,461	1.95%
	미생물학/기생충학	1,370	1.08%
	방사선과학	3,864	3.05%
	비뇨기과학	1,110	0.88%
	산부인과학	1,630	1.29%
	생리학	391	0.31%
	생화학	679	0.54%
	성형외과학	640	0.51%
	소아과학	936	0.74%
	신경과학	763	0.60%
	신경외과학	1,658	1.31%
	안과학/임상안광학	821	0.65%
	약학/약리학	3,817	3.02%
	예방의학/직업환경의학	1,453	1.15%
	응급의학	2,299	1.82%
	이비인후과학	2,100	1.66%
	일반외과학	1,573	1.24%
	재활의학/물리치료학/작업치료학	5,767	4.56%
	정신과학	496	0.39%
	정형외과학	1,873	1.48%
	치의학	2,003	1.58%
	피부과학	298	0.24%
	해부학	620	0.49%
	흉부외과학	426	0.34%
법률	경제법	1,547	1.08%
	교육법	150	0.12%
	국제법(공법)	305	0.24%
	국제법(사법)	1,252	0.99%
	노동법등	704	0.56%
	민법일반	12,941	10.23%
	민사소송법	4,548	3.59%
	법학일반	4,208	3.33%
	상사법등	11,102	8.78%
	소비자/보호법	555	0.44%
	의료/보건법	1,231	0.97%
	인권/국제인권법	10	0.01%
	조세/세법	1,006	0.80%
	중재법	6	0.00%
	지방자치법	395	0.31%
	지적재산권법	3,223	2.55%
	친족/상속법	695	0.55%
	토지/부동산/주택/농지법	1,328	1.05%
	해사/해상/해상운송/해상보험법	690	0.55%
	행정법	9,473	7.49%
	헌법	12,196	9.64%
	형법/형사소송법등	11,676	9.23%
	환경/교통법	389	0.31%
합계		126,513	100%

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	KM-BERT NER fine-tuning 성능 비교	Text Generation	BERT	F1-Score	0.775 점	0.78 점
2	KL-BERT NER fine-tuning 성능 비교	Text Generation	BERT	F1-Score	0.885 점	0.89 점
3	KM-BERT 언어 모델 성능	Text Generation	BERT	Perplexity	%	153.72 %
4	KL-BERT 언어 모델 성능	Text Generation	BERT	Perplexity	%	87.11 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

1. 데이터포맷

1. 데이터포맷
구분	획득(수집) 단계	정제 단계	가공(라벨링) 단계
데이터 구분	원시데이터	원천데이터	최종데이터
데이터 형태	디지털 파일	디지털 파일	디지털 파일
데이터 포맷	pdf, hwp, MS-Word	txt	JSON

2. 원시데이터(도서) 메타정보

2. 원시데이터(도서) 메타정보
No.	속성명	필수여부	속성 및 내용
1	BOOK ID	Y	도서 ID
2	Book.name	Y	도서명
3	Authors	Y	저자명
4	Translators	N	번역자명
5	Year	Y	도서 출판일
6	Page	Y	총 페이지수
7	Publisher	Y	출판사명
8	Category	Y	도서 카테고리

3. 어노테이션 포맷

3. 어노테이션 포맷
No.			속성명	필수여부	Type	항목 설명	예시
1			totalcount	Y	number	카운트
2			data	Y	object	데이터셋
	2-1		data[].book_id	Y	string	도서식별 ID	MTB000001
	2-1		data[].book_id	Y	string	도서식별 ID	LTB000001
	2-2		data[].category	Y	string	카테고리	외과, 헌법 등 도서의 카테고리
	2-3		data[].popularity	Y	number	라벨링 난이도	1(하), 2(중), 3(상)
	2-4		data[].keyword	N	array	키워드	[“포도당”, “포도당신합성”, “단백질 이화작용”]
	2-5		data[].text	Y	string	텍스트 본문	한국의 동물 보호법은 1991년 단 12개의..
	2-6		data[].word_segment	Y	number	텍스트 어절 수
	2-7		data[].publication_ymd	Y	string	도서 출판일	예시) 20201020
						특허 출원일
						판결문 선고일
	2-8		data[].NE	N	object	라벨링 오브젝트
		2-8-1	data[].NE[].id	N	number	라벨링 순번
		2-8-2	data[].NE[].entity	N	string	라벨링 대상 텍스트	동물 보호법
		2-8-3	data[].NE[].type	N	string	카테고리 타입	CV_LAW,AM_PART..
		2-8-4	data[].NE[].begin	N	number	Target 시작 위치
		2-8-5	data[].NE[].end	N	number	Target 끝 위치

4. 라벨링데이터 예시

{
"book_id": "MTB001487",
"category": "소아과학",
"popularity": 3,
"keyword": [
"신중론",
"손상",
"물리치료",
"뇌성마비",
"근거중심의 진단과 예후"
],
"text": "이를 위해 해리스(Harris, 1996)와 골든(Golden, 1980)은 임상의사 결정에 따른 중재의 과학적 근거를 분석할 때...(중략)...평가의 필요성을 설명하면서 신중론을 얘기했다.",
"word_segment": 571,
"publication_ymd": "20220302",
"NE": [
{
"id": 1,
"entity": "물리치료",
"type": "TR_MED_PROCEDURE",
"begin": 847,
"end": 850
},
{
"id": 2,
"entity": "뇌성마비",
"type": "TMM_DISEASE",
"begin": 1216,
"end": 1219
},
{
"id": 3,
"entity": "소아물리치료",
"type": "TR_MED_PROCEDURE",
"begin": 1365,
"end": 1370
},
{
"id": 4,
"entity": "의학",
"type": "FD_MEDICINE",
"begin": 1390,
"end": 1391
},
{
"book_id": "LTB063045",
"category": "상사법등",
"popularity": 2,
"keyword": [
"파산선고",
"보험금청구권",
"고지의무",
"보험금청구",
"상법"
],
"text": "하지만 보험계약자의 권리가 일정한 범위 이내에서 제한을 받는다. ...(중략)...비로소 보험계약을 해지 또는 해제할 수 있다(제650조 제3항).",
"word_segment": 567,
"publication_ymd": "20210720",
"NE": [
{
"id": 1,
"entity": "계약해지권",
"type": "CV_LAW",
"begin": 49,
"end": 53
},
{
"id": 2,
"entity": "보험금청구권",
"type": "CV_LAW",
"begin": 167,
"end": 172
},
{
"id": 3,
"entity": "제639조 제2항",
"type": "TML_PROVISION",
"begin": 348,
"end": 356
},
{
"id": 4,
"entity": "보험금청구권",
"type": "CV_LAW",
"begin": 423,
"end": 428
},
...(중략)

데이터셋 구축 담당자

수행기관(주관) : 고려대학교산학협력단

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
김종호	02-919-8565	mecey@naver.com	데이터 정제/가공 및 레이블

수행기관(참여)

수행기관(참여)
기관명	담당업무
군자출판사(주)	의료 말뭉치 원천 데이터 수집
㈜나라지식정보	데이터 품질 검수
㈜박영사	법률 말뭉치 원천 데이터 수집
㈜범문에듀케이션	의료 말뭉치 원천 데이터 수집
법문사	법률 말뭉치 원천 데이터 수집
한양대학교산학협력단	모델 개발 및 검증

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
김종호	02-919-8565	mecey@naver.com

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의