콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#전문 분야 # 구조화 데이터 # 정보 추출 # 전문 용어 # 말뭉치

전문분야 말뭉치

전문분야 말뭉치
  • 분야한국어
  • 유형 텍스트
구축년도 : 2020 갱신년월 : 2022-01 조회수 : 11,835 다운로드 : 1,319 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2022-01-14 데이터 추가 개방
    1.0 2021-06-18 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-01-19 AI 모델 수정 도커이미지 추가

    소개

    상대적으로 성능 확보가 어려운 전문 분야에 대한 자연어 처리(Natural Language Processing) 학습용 말뭉치 데이터 구축

    구축목적

    전문분야 데이터셋을 활용한 기술 및 연관 연구 검색, 통역/번역과 특허, 의료, 행정 서비스, 법률, 조례, 금융업 등의 산업 분야 활용
  • 구축 내용 및 제공 데이터량

    • 말뭉치 학습용 데이터 셋은 아래의 기준으로 150만 건을 생성
      - 학술(논문) 자료 : 초록의 문장 단위를 기준으로 함
      - 법령 : 조문 기준
      - 판결문 : 문장 단위이며 문장이 지나치게 길 경우 5~100개 어휘로 이루어진 문장을 한 개의 말뭉치로 생성하며 전문용어의 추출 병행
      - 특허자료 : 요약문(초록) 문장단위, 청구항

       

      구축 내용 및 제공 데이터량
        문서건수 말뭉치건수 개체명건수 문서당 평균 개체명 말뭉치당 평균 개체명
      법령 6,356 217,592 3,358,788 528 15
      판례 6,396 445,308 2,208,034 345 5
      특허 71,796 780,580 9,442,396 132 12
      논문 19,217 131,179 766,545 40 6

       

    • 전문 문서 단위 말뭉치 150만 건 태깅
      전문 문서 단위 말뭉치 150만 건 태깅
      종류 수량 내역
      특허 자료 830,000 특허 데이터를 구매하여 이를 말뭉치 원본 데이터로 활용
      의안 자료 70,000 의안정보시스템을 크롤링하여 말뭉치 원본 데이터로 활용
      법령, 자치법규, 행정규칙 300,000 법령 및 법령 제・개정문, 행정규칙 및 제개정문, 자치법규를 api를 사용하거나 크롤링하여 말뭉치 원본 데이터로 활용
      논문 초록 300,000 논문 초록을 크롤링하여 말뭉치 원본 데이터로 활용
      합계 1,500,000
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 다운로드
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 전문분야 문장분류모델 유효성 Text Classification BERT F1-Score 0.9 0.93
    2 개체유형 식별모델 유효성 (학술(논문)) Text Classification BERT F1-Score 0.85 0.9
    3 개체유형 식별모델 유효성 (법령) Text Classification BERT F1-Score 0.85 0.99
    4 개체유형 식별모델 유효성 (판례) Text Classification BERT F1-Score 0.85 0.99
    5 개체유형 식별모델 유효성 (특허) Text Classification BERT F1-Score 0.85 0.85

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2022.01.14 데이터 추가 개방  
    1.0 2021.06.18 데이터 최초 개방  

    구축 목적

    • 디지털 데이터의 확산과 기술의 발전으로 각 기술과 분야별 전문용어가 폭발적 증가로 상대적으로 성능 확보가 어려운 전문분야에 대한 자연어 처리(Natural Language Processing)용 말뭉치 데이터 구축

    활용 분야

    • 전문분야 데이터셋을 활용한 기술 및 연관 연구 검색, 통역/번역과 특허, 의료, 행정 서비스, 법률, 조례, 금융업 등의 산업 분야 활용

    주요 키워드

    • 한국어 텍스트, 말뭉치, 전문분야, 개체명, 개체인식

    소개

    • 본 과제에서 구축하는 전문문서는 학술 논문, 법령, 판례(판결문), 특허 자료 등으로 한정하며, 말뭉치 원본 데이터는 어느 정도 구조화된 체계를 갖춘 비정형 텍스트라고 할 수 있음
    • 예를 들어, 특허의 경우 발명 명칭, 요약, 청구항 등과 논문의 경우 제목, 초록, 본문 등의 구분이 가능하며, 해당 구분 내에서의 비정형 텍스트를 말뭉치 대상으로 삼음
    • AI를 활용한 기술 및 연관 연구 검색과 통역ㆍ번역 연구에의 활용을 위해 전문용어의 별도 식별 및 번역ㆍ통역 AI 학습을 위한 병렬 말뭉치로의 확대가 가능한 말뭉치 구조의 적용
    • 전문 데이터의 분야와 문서 구분(특허, 논문, 보고서 등)에 따른 용어 구현 특성이 반영되어 분야별 학습이 가능한 말뭉치의 구축
       

    전문분야 말뭉치 소개 프로세스 예시 이미지

    구축 내용 및 제공 데이터량

    • 말뭉치 학습용 데이터 셋은 아래의 기준으로 150만 건을 생성
      - 학술(논문) 자료 : 초록의 문장 단위를 기준으로 함
      - 법령 : 조문 기준
      - 판결문 : 문장 단위이며 문장이 지나치게 길 경우 5~100개 어휘로 이루어진 문장을 한 개의 말뭉치로 생성하며 전문용어의 추출 병행
      - 특허자료 : 요약문(초록) 문장단위, 청구항

       

      구축 내용 및 제공 데이터량
        문서건수 말뭉치건수 개체명건수 문서당 평균 개체명 말뭉치당 평균 개체명
      법령 6,356 217,592 3,358,788 528 15
      판례 6,396 445,308 2,208,034 345 5
      특허 71,796 780,580 9,442,396 132 12
      논문 19,217 131,179 766,545 40 6

       

    • 전문 문서 단위 말뭉치 150만 건 태깅
      전문 문서 단위 말뭉치 150만 건 태깅
      종류 수량 내역
      특허 자료 830,000 특허 데이터를 구매하여 이를 말뭉치 원본 데이터로 활용
      의안 자료 70,000 의안정보시스템을 크롤링하여 말뭉치 원본 데이터로 활용
      법령, 자치법규, 행정규칙 300,000 법령 및 법령 제・개정문, 행정규칙 및 제개정문, 자치법규를 api를 사용하거나 크롤링하여 말뭉치 원본 데이터로 활용
      논문 초록 300,000 논문 초록을 크롤링하여 말뭉치 원본 데이터로 활용
      합계 1,500,000

    대표도면

    전문분야 말뭉치 대표도면 예시
    유형 예시 데이터 항목 JSON 형식
    특허
    (초록/청구항)
    텍스트
    전문분야 말뭉치 대표도면 특허(초롱/청구항) 텍스트 예시 이미지 15가지 유형의 개체명 분류 태그 {
    "1": {
    "doc_type": "판례",
    "doc_id": "LB88A005",
    "title": "재산분할",,
    "date": "2018. 6. 22.",
    "reg_no": "2018스18",
    "issued_by": "대법원",
    "author": "",
    "ipc": ""
    "attr": "",
    "claim_no": "",
    "sentno": 3,
    "text": "민법 제839조의2 제3항, 제843조에 따라 2년 제척기간 내에 재산의 일부에 대해서만 재산분할을 청구하고 제척기간이 지난 경우, 그때까지 청구 목적물로 하지 않은 재산에 대한 청구권이 소멸하는지 여부(적극)",
    "NE": [
    {"id": 0, "entity": "민법 제839조의2 제3항", "type": "CV", "begin": 1, "end": 14},
    {"id": 1, "entity": "제843조", "type": "CV", "begin": 17, "end": 21}
    {"id": 2, "entity": "2년", "type": "DT", "begin": 26, "end": 28},
    {"id": 1, "entity": "제척기간", "type": "CV", "begin": 29, "end": 33},
    {"id": 1, "entity": "재산분할", "type": "CV", "begin": 50, "end": 54},
    {"id": 1, "entity": "제척기간", "type": "CV", "begin": 61, "end": 65},
    {"id": 3, "entity": "청구권", "type": "CV", "begin": 100, "end": 103}
    ]
    },
    {
    "2": {
    "doc_type": "논문",
    "doc_id": "ART002057337",
    "title": "디지털 신호처리를 위한 고정소수점 하드웨어 설계자동화 시스템",
    "date": "1996",
    "reg_no": "",
    "issued_by": "Telecommunications Review",
    "author": "최정일; 황선영; 전홍신",
    "ipc": "",
    "attr": "",
    "claim_no": "",
    "sentno": 1,
    "text": "본 논문은 디지털 신호처리용 VLSI의 자동설계를 위한 SODAS-DSP(SOgang Design Automation System-DSP) 시스템의 설계와 개발 결과에 대하여 기술한다",
    "NE": [
    { "id": 1, "entity": "디지털 신호처리용 VLSI", "type": "TM", "begin": 6, "end": 20},
    { "id": 2, "entity": "자동설계", "type": "TM", "begin": 22, "end": 26},
    { "id": 3, "entity": "SODAS-DSP", "type": "TM", "begin": 31, "end": 40},
    { "id": 4, "entity": "SOgang Design Automation System-DSP", "type": "TM", "begin": 41, "end": 76}
    ]
    }
    }
    학술자료
    텍스트
    전문분야 말뭉치 대표도면 학술자료텍스트 예시 이미지
    판결문
    텍스트
    전문분야 말뭉치 대표도면 판결문텍스트 예시 이미지
    법령정보
    텍스트
    전문분야 말뭉치 대표도면 법령정보텍스트 예시 이미지
    메타데이터
    (특허/학술/법령/판결문)

    전문분야 말뭉치 대표도면 메타데이터(특허/학술/법령/판결문) 예시 이미지-1

    전문분야 말뭉치 대표도면 메타데이터(특허/학술/법령/판결문) 예시 이미지-2

    자료별 메타데이터

    필요성

    • 국내 AI 요약기술 개발과 관련된 다수의 연구들에서는 해당 텍스트의 제목을 본문의 요약문으로 가정하거나 뉴스 기사의 제목 혹은 첫 문장을 전체 기사의 요약문으로 가정하여 AI 요약기술을 위한 학습 데이터로 활용 중
    • 이러한 조작적 정의는 본문 전체의 핵심 내용이나 의무 전달을 온전히 포함하지 못하는 한계점을 내포
    • 선진국에서는 AI 요약기술 개발을 위한 다양한 문서요약 텍스트 데이터를 공개하고 있음
    • 이에 한국어를 이해하고 지식을 추출하여 새로운 가치를 창출할 수 있는 문서요약 AI 기술개발을 위하여 검증된 학습용 데이터를 구축하고자 함

    데이터 구조

    • 데이터 구성
       

    전문분야 말뭉치 데이터 구조 1. 데이터 구성 예시 이미지

     

    • 어노테이션 포맷
      어노테이션 포맷 표
      구분 요소명 예시 유형


      한글 영문명
      메타
      데이터
      문서종류 doc_type 학술, 특허, 법령, 판례 string Y
      문서ID doc_id ART002057337 string Y
      자료 제목 title 재산분할 string Y
      일자 date 2018. 6. 22. string Y
      등록번호 reg_no 법령공포일, 특허등록일, 논문게재연도,
      판례사건번호
      string Y
      발행자 issued_by 기계공학회(논문), 대법원(판례) string N
      저자 author 최정일; 황선영 string N
      IPC코드 ipc B25J string N
      본문 문장속성 attr 특허: 요약, 청구항
      법령: 2 (제2조)
      string N
      청구항번호 claim_no 1, 2, 3, ... int N
      문장번호 sentno 1, 2, 3, ... int Y
      말뭉치 본문 text 본 논문은 디지털 신호처리용 VLSI의
      자동설계를 위한 SOCAS-DSP 시스템의
      설계와 개발 결과에 대하여 기술한다
      string Y
      개체명 번호 id 1, 2, 3, ... int Y
      개체명 entity 자동회피방법 string Y
      개체명 속성 type TM, QT (TTA개체명 태그 세트 및 태깅
      말뭉치 표준 적용)
      string Y
      개체명 시작 begin 0, 1, 2, ... int Y
      개체명 종료 end 3, 10, ... int Y
      개체명
      분류
      인물 PERSON(PS) 인명 string 1개







      지역 LOCATION(LC) 지역, 국가, 도시, 수도, 바다 등 string
      기관 단체 ORGANIZATION(OG) 경제, 교육, 군사 등의 기관 string
      인공물 ARTIFACTS(AF) 문화재, 건축물, 도로, 작품명 등 string
      날짜 DATE(DT) 날짜 기간, 절기, 달(월), 계절 등 string
      시간 TIME(TI) 시간, 기간, 시각, 분, 초 등 string
      제도 CIVILIZATION(CV) 민족, 종족, 제도, 언어, 직업 등 string
      동물 ANIMAL(AM) 포유류, 조류, 파충류, 양서류 등 string
      식물 PLANT(PT) 과일, 꽃, 나무, 풀 등 string
      수량 QUANTITY(QT) 무게, 길이, 넓이, 개수, 온 string
      학문 분야 STUDY_FIELD(FD) 철학, 의학, 예술, 사회과학 학파 string
      이론 THEORY(TR) 철학 이론/사상, 예술 이론/양식 string
      사건 EVENT(EV) 전쟁, 혁명, 스포츠 행사, 축제 string
      물질 MATERIAL(MT) 금속, 암석, 화학물, 원소 string
      용어 TERM(TM) 색, 방향, 질병, 이메일주소 string
  • 데이터셋 구축 담당자

    수행기관(주관) : 포티투마루
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김동환 02-6952-9201 bd@42maru.ai · 사업 총괄 관리
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    나라지식정보 · 데이터 정제
    · 전문분야 말뭉치 라벨링(크라우드소싱 활용)
    · 결과물 검수 및 검증
    단아코퍼레이션 · 데이터 정제
    · 전문분야 말뭉치 라벨링(크라우드소싱 활용)
    · 결과물 검수 및 검증
    이지메타 · 원문데이터 확보 및 제공
    · 데이터 정제
    · 전문분야 말뭉치 라벨링(크라우드소싱 활용)
    · 온라인 작업도구(어노테이션 도구) 개발 및 운용
    유클리드소프트 · AI 요약모델 및 활용 서비스 개발
    · 결과물 검수 및 검증
    연세대학교 산학협력단 · 품질검수 품질평가 서비스
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    정규상(나라지식정보) 02-3141-7644 nara@narainformation.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.