-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-01 데이터 최종 개방 1.0 2023-07-31 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-15 산출물 전체 공개 소개
테이블이 포함된 일반 문서 내에서 표 내의 특정 값을 탐색하기 위한 기계학습용 질의어와 정답 세트 데이터
구축목적
정형화된 문서가 아닌 다양한 형태의 표 문서를 통해 질의응답을 할 수 있는 기계학습 모델을 위한 활용 기반 마련
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 TXT 데이터 출처 한국학술정보㈜, 국가통계포털, 한국지능정보사회진흥원 등 라벨링 유형 질의응답(자연어) 라벨링 형식 JSON 데이터 활용 서비스 챗봇 서비스, KMS, 검색서비스 등 데이터 구축년도/
데이터 구축량2022년/1,000,000건 -
데이터 구축 규모
데이터 구축 규모 데이터 종류 데이터 형태 원문 규모 Q/A유형 원천 데이터 규모 최종 어노테이션 규모 한국학술정보㈜,국가통계포털,서울소통광장 등 일반 표 문서 HWP, PDF 약100만 건 정답 추출형 160,000 800,000 응답 불가형 40,000 200,000 데이터 분포
- 질의응답 유형 분포데이터 분포 - 질의응답 유형 분포 질의응답 유형 분포 유형 구축목표 건수 가공실적 건수 정답 추출형 800,000 800,000 응답 불가형 200,000 200,000 합계 1,000,000 1,000,000 - 카테고리별 분포
데이터 분포 - 카테고리별 분포 카테고리별 분포 카테고리 가공실적 건수 비율 건축 200,470 20.04 공공행정 63,595 6.35 과학기술 198,950 19.89 교육 110,525 11.05 금융 59,100 5.91 기타 11,576 5.78 농수산 57,880 5.35 문화·스포츠 117,570 11.75 보건·의료 53,805 5.38 환경 84,595 8.45 합계 1,000,000 100 - 행의 개수 분포
데이터 분포 - 행의 개수 분포 행의 개수 분포 행의 수 가공실적 건수 비율(%) 5 ~ 7행 370,755 37.07 8~ 11행 282,040 28.2 12 ~ 16행 171,495 17.14 17행 이상 175,710 17.57 합계 1,000,000 100 - 머리글 수준 분포
데이터 분포 - 머리글 수준 분포 머리글 수준 분포 머리글 수준 가공실적 건수 비율(%) 행 depth1 752,080 75.2 열 depth1 행 depth1 153,910 15.39 열 depth2 행 depth2 73,020 7.3 열 depth1 행 depth2 20,990 2.09 열 depth2 합계 1,000,000 100 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드■ AI모델 개요
● BART 기반 한국어 기계독해 모델 개발
- BART모델의 한국어 버전인 KoBART를 사용
- BART는 입력 텍스트 일부에 노이즈를 추가하여 이를 다시 원문으로 복구하는 autoencoder 의 형태로 학습
- KoBART는 논문에서 사용된 Text Infilling 노이즈 함수를 사용, 40GB 이상의 한국어 텍스트에 대해서 학습한 한국어 encoder-decoder 언어모델.
- BART 기반 기계독해 모델의 구조 (아래 그림 참조)■ 서비스 활용 시나리오
- 표 정보 기계독해 학습 모델은 KMS나 검색서비스 등 관련 질의응답 서비스에 활용할 수 있음
- 검색 엔진이나 자연어 처리 모델 등과 기계독해 모델을 결합하여 표를 포함하는 문서와 가장 유사한 문서를 탐색하고 답변을 추론하여 다양한 형태로 제시할 수 있음 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 기계독해 질의-응답 정확도 Question Answering Bart F1-Score 0.8 점 0.8732 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드■ 데이터 구성
데이터 구성 Key Description Type Child Type data[].doc_id 문서 번호 string data[].doc_title 문서 제목 string data[].doc_source 문서의 발행기관명 string data[].doc_published 문서의 발행시기
(YYYYMMDD)number data[].created 데이터셋 생성일시
(YYYYMMDDHH24MISS)string data[].doc_class 문서의 분류 정보 object data[].doc_class.code 분류 기준 string data[].paragraphs 분류 기호 string data[].paragraphs[].context_id 지문의 리스트 array data[].paragraphs[].table_title 지문 번호 string data[].paragraphs[].context 표 제목 string data[].paragraphs[].qas 지문 string data[].paragraphs[].qas[].question_id 질의응답set의 리스트 array data[].paragraphs[].qas[].question 질문 번호 string data[].paragraphs[].qas[].is_impossible 질문 string data[].paragraphs[].qas[].answer 질문의 답변 유무 boolean data[].paragraphs[].qas[].answer.answer_start 답변의 시작 위치 number data[].paragraphs[].qas[].answer.text 답변 텍스트 string ■ JSON 형식
■ 어노테이션 포맷- 메타데이터
어노테이션 포맷 - 메타데이터 구분 속성명 필수여부 Type 항목 설명 예시 1 Dataset Y Object 데이터셋 메타데이터 1.1 Dataset.Identifier Y String 데이터셋 식별자 TEXT_QnA_Table_01 1.2 Dataset.name Y String 데이터셋 이름 표 정보 질의응답 데이터 1.3 Dataset.src_path Y String 데이터셋 폴더 위치 /dataSet/text/ 1.4 Dataset.label_path Y String 데이터셋 레이블 폴더 위치 /dataSet/text/ 1.5 Dataset.category Y number 데이터셋 카테고리 2 (2:질의응답) 1.6 Dataset.type Y number 데이터셋 타입 0 (0: 텍스트) - 가공데이터
어노테이션 포맷 - 가공데이터 구분 속성명 필수여부 Type 항목 설명 예시 2 data Y array 레코드의 리스트 2.1 data[]. doc_id Y string 문서 번호 TB000001 2.2 data[]. doc_title Y string 문서 제목 IT전문 인력양성 2.3 data[]. doc_source Y string 문서의 발행기관명 정보통신부 2.4 data[]. doc_published Y number 문서의 발행시기
(YYYYMMDD)20211110 2.5 data[]. created Y string 데이터셋 생성일시
(YYYYMMDDHH24MISS)202203071313 2.6 data[]. doc_class Y object 문서의 분류 정보 2.6.1 data[].doc_class. class Y string 분류 기준 중앙행정기관 기능분류체계 2.6.2 data[].doc_class. code Y string 분류 기호 2.7 data[]. paragraphs Y array 지문의 리스트 2.7.1 data[]. paragraphs[]. context_id Y string 지문 번호 C_000001 2.7.2 data[]. paragraphs[]. table_title Y string 표 제목 2.7.3 data[]. paragraphs[]. context Y string 지문 2.7.4 data[]. paragraphs[]. qas Y array 질의응답 set의 리스트 2.7.4.1 data[]. paragraphs[]. qas[]. question_id Y string 질문 번호 Q_00000001 2.7.4.2 data[]. paragraphs[]. qas[]. question Y string 질문 2.7.4.3 data[]. paragraphs[]. qas[]. is_impossible Y boolean 질문의 답변 유무 true : 응답불가형
false : 정답 있음2.7.4.4 data[]. paragraphs[]. qas[]. answer Y object 답변 2.7.4.4.1 data[]. paragraphs[]. qas[]. answer. answer_start Y number 답변의 시작 위치 2.7.4.4.2 data[]. paragraphs[]. qas[]. answer. text Y string 답변 텍스트 실제 예시
실제 예시 데이터셋 메타데이터 원천데이터 메타데이터 지문 Table 정답 추출형 Table 응답불가형 -
데이터셋 구축 담당자
수행기관(주관) : ㈜유클리드소프트
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 윤은희 070-5165-8524 ehyoon@euclidsoft.co.kr 데이터 수집, 정제, 가공, 품질검사 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈔문화체육진흥원 데이터 정제, 가공 연세대학교 산학협력단 데이터 품질검사 ㈜포티투마루 데이터 설계, AI모델 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 윤은희 070-5165-8524 ehyoon@euclidsoft.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.