AI-Hub

#질의응답 #기계학습

표 정보 질의응답 데이터

분야한국어
유형 텍스트

구축년도 : 2022 갱신년월 : 2023-12 조회수 : 9,076 다운로드 : 408 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2023-12-01	데이터 최종 개방
1.0	2023-07-31	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2023-12-15	산출물 전체 공개

소개

테이블이 포함된 일반 문서 내에서 표 내의 특정 값을 탐색하기 위한 기계학습용 질의어와 정답 세트 데이터

구축목적

정형화된 문서가 아닌 다양한 형태의 표 문서를 통해 질의응답을 할 수 있는 기계학습 모델을 위한 활용 기반 마련

메타데이터 구조표
데이터 영역	한국어	데이터 유형	텍스트
데이터 형식	TXT	데이터 출처	한국학술정보㈜, 국가통계포털, 한국지능정보사회진흥원 등
라벨링 유형	질의응답(자연어)	라벨링 형식	JSON
데이터 활용 서비스	챗봇 서비스, KMS, 검색서비스 등	데이터 구축년도/ 데이터 구축량	2022년/1,000,000건

데이터 구축 규모

데이터 구축 규모
데이터 종류	데이터 형태	원문 규모	Q/A유형	원천 데이터 규모	최종 어노테이션 규모
한국학술정보㈜,국가통계포털,서울소통광장 등 일반 표 문서	HWP, PDF	약100만 건	정답 추출형	160,000	800,000
한국학술정보㈜,국가통계포털,서울소통광장 등 일반 표 문서	HWP, PDF	약100만 건	응답 불가형	40,000	200,000

데이터 분포

- 질의응답 유형 분포

데이터 분포 - 질의응답 유형 분포
질의응답 유형 분포
유형	구축목표 건수	가공실적 건수
정답 추출형	800,000	800,000
응답 불가형	200,000	200,000
합계	1,000,000	1,000,000

- 카테고리별 분포

데이터 분포 - 카테고리별 분포
카테고리별 분포
카테고리	가공실적 건수	비율
건축	200,470	20.04
공공행정	63,595	6.35
과학기술	198,950	19.89
교육	110,525	11.05
금융	59,100	5.91
기타	11,576	5.78
농수산	57,880	5.35
문화·스포츠	117,570	11.75
보건·의료	53,805	5.38
환경	84,595	8.45
합계	1,000,000	100

- 행의 개수 분포

데이터 분포 - 행의 개수 분포
행의 개수 분포
행의 수	가공실적 건수	비율(%)
5 ~ 7행	370,755	37.07
8~ 11행	282,040	28.2
12 ~ 16행	171,495	17.14
17행 이상	175,710	17.57
합계	1,000,000	100

- 머리글 수준 분포

데이터 분포 - 머리글 수준 분포
머리글 수준 분포
머리글 수준	가공실적 건수	비율(%)
행 depth1	752,080	75.2
열 depth1	752,080	75.2
행 depth1	153,910	15.39
열 depth2	153,910	15.39
행 depth2	73,020	7.3
열 depth1	73,020	7.3
행 depth2	20,990	2.09
열 depth2	20,990	2.09
합계	1,000,000	100

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드
■ AI모델 개요

● BART 기반 한국어 기계독해 모델 개발

- BART모델의 한국어 버전인 KoBART를 사용
- BART는 입력 텍스트 일부에 노이즈를 추가하여 이를 다시 원문으로 복구하는 autoencoder 의 형태로 학습
- KoBART는 논문에서 사용된 Text Infilling 노이즈 함수를 사용, 40GB 이상의 한국어 텍스트에 대해서 학습한 한국어 encoder-decoder 언어모델.
- BART 기반 기계독해 모델의 구조 (아래 그림 참조)

■ 서비스 활용 시나리오

- 표 정보 기계독해 학습 모델은 KMS나 검색서비스 등 관련 질의응답 서비스에 활용할 수 있음
- 검색 엔진이나 자연어 처리 모델 등과 기계독해 모델을 결합하여 표를 포함하는 문서와 가장 유사한 문서를 탐색하고 답변을 추론하여 다양한 형태로 제시할 수 있음

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	기계독해 질의-응답 정확도	Question Answering	Bart	F1-Score	0.8 점	0.8732 점

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

■ 데이터 구성

데이터 구성
Key	Description	Type
data[].doc_id	문서 번호	string
data[].doc_title	문서 제목	string
data[].doc_source	문서의 발행기관명	string
data[].doc_published	문서의 발행시기 (YYYYMMDD)	number
data[].created	데이터셋 생성일시 (YYYYMMDDHH24MISS)	string
data[].doc_class	문서의 분류 정보	object
data[].doc_class.code	분류 기준	string
data[].paragraphs	분류 기호	string
data[].paragraphs[].context_id	지문의 리스트	array
data[].paragraphs[].table_title	지문 번호	string
data[].paragraphs[].context	표 제목	string
data[].paragraphs[].qas	지문	string
data[].paragraphs[].qas[].question_id	질의응답set의 리스트	array
data[].paragraphs[].qas[].question	질문 번호	string
data[].paragraphs[].qas[].is_impossible	질문	string
data[].paragraphs[].qas[].answer	질문의 답변 유무	boolean
data[].paragraphs[].qas[].answer.answer_start	답변의 시작 위치	number
data[].paragraphs[].qas[].answer.text	답변 텍스트	string

■ JSON 형식

JSON 형식 이미지

■ 어노테이션 포맷

- 메타데이터

어노테이션 포맷 - 메타데이터
구분		속성명	필수여부	Type	항목 설명	예시
1		Dataset	Y	Object	데이터셋 메타데이터
	1.1	Dataset.Identifier	Y	String	데이터셋 식별자	TEXT_QnA_Table_01
	1.2	Dataset.name	Y	String	데이터셋 이름	표 정보 질의응답 데이터
	1.3	Dataset.src_path	Y	String	데이터셋 폴더 위치	/dataSet/text/
	1.4	Dataset.label_path	Y	String	데이터셋 레이블 폴더 위치	/dataSet/text/
	1.5	Dataset.category	Y	number	데이터셋 카테고리	2 (2:질의응답)
	1.6	Dataset.type	Y	number	데이터셋 타입	0 (0: 텍스트)

- 가공데이터

어노테이션 포맷 - 가공데이터
구분					속성명	필수여부	Type	항목 설명	예시
2					data	Y	array	레코드의 리스트
	2.1				data[]. doc_id	Y	string	문서 번호	TB000001
	2.2				data[]. doc_title	Y	string	문서 제목	IT전문 인력양성
	2.3				data[]. doc_source	Y	string	문서의 발행기관명	정보통신부
	2.4				data[]. doc_published	Y	number	문서의 발행시기 (YYYYMMDD)	20211110
	2.5				data[]. created	Y	string	데이터셋 생성일시 (YYYYMMDDHH24MISS)	202203071313
	2.6				data[]. doc_class	Y	object	문서의 분류 정보
		2.6.1			data[].doc_class. class	Y	string	분류 기준	중앙행정기관 기능분류체계
		2.6.2			data[].doc_class. code	Y	string	분류 기호
	2.7				data[]. paragraphs	Y	array	지문의 리스트
		2.7.1			data[]. paragraphs[]. context_id	Y	string	지문 번호	C_000001
		2.7.2			data[]. paragraphs[]. table_title	Y	string	표 제목
		2.7.3			data[]. paragraphs[]. context	Y	string	지문
		2.7.4			data[]. paragraphs[]. qas	Y	array	질의응답 set의 리스트
			2.7.4.1		data[]. paragraphs[]. qas[]. question_id	Y	string	질문 번호	Q_00000001
			2.7.4.2		data[]. paragraphs[]. qas[]. question	Y	string	질문
			2.7.4.3		data[]. paragraphs[]. qas[]. is_impossible	Y	boolean	질문의 답변 유무	true : 응답불가형 false : 정답 있음
			2.7.4.4		data[]. paragraphs[]. qas[]. answer	Y	object	답변
				2.7.4.4.1	data[]. paragraphs[]. qas[]. answer. answer_start	Y	number	답변의 시작 위치
				2.7.4.4.2	data[]. paragraphs[]. qas[]. answer. text	Y	string	답변 텍스트

실제 예시

실제 예시
		데이터셋 메타데이터
		원천데이터 메타데이터
		지문
		Table 정답 추출형
		Table 응답불가형

데이터셋 구축 담당자

수행기관(주관) : ㈜유클리드소프트

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
윤은희	070-5165-8524	ehyoon@euclidsoft.co.kr	데이터 수집, 정제, 가공, 품질검사

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈔문화체육진흥원	데이터 정제, 가공
연세대학교 산학협력단	데이터 품질검사
㈜포티투마루	데이터 설계, AI모델 개발

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
윤은희	070-5165-8524	ehyoon@euclidsoft.co.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

연관 데이터

화자 인식용 음성 데이터

채용면접 인터뷰 데이터

한국어 아동 음성 데이터

도서자료 기계독해

방송콘텐츠 대화체 음성인식 데이터

초거대 언어모델 신뢰성 벤치마크 데이터

한국어-다국어 번역 말뭉치(기초과학)

인도네시아어 말뭉치 데이터

표 정보 질의응답 데이터

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

데이터 성능 지표

데이터 성능 점수

데이터 성능 지표

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

구축 업체

데이터셋 구축 담당자

수행기관(주관) : ㈜유클리드소프트

수행기관(참여)

데이터 관련 문의처

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

연관 데이터