AI-Hub

#자연어 # 기계독해 # 숫자연산 # 질의응답 # 뉴스 기사 # 스포츠 # 경제

숫자연산 기계독해 데이터

분야한국어
유형 텍스트

구축년도 : 2022 갱신년월 : 2023-12 조회수 : 10,454 다운로드 : 430 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2023-12-22	데이터 최종 개방
1.0	2023-07-31	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2025-05-09	AI모델 소스코드 수정
2024-11-06	산출물 수정	데이터설명서,활용가이드라인,구축업체 정보
2024-03-05	산출물 전체 공개

소개

- 본 데이터는 경제 및 스포츠 분야의 뉴스 기사 지문(324,026건)에 숫자의 가감산, 비율연산, 날짜의 가감산과 추출, 양자 혹은 다자 대상의 수량적 비교 등의 숫자연산이 포함된 질의와 이에 대응하는 응답(414,940쌍)을 라벨링한 인공지능 학습용 데이터임

구축목적

- 숫자연산이 포함된 질의에 대한 응답을 주어진 지문으로부터 도출하는 수리추론 능력을 갖춘 인공지능 기계독해 모델의 학습에 필요한 데이터셋의 구축

메타데이터 구조표
데이터 영역	한국어	데이터 유형	텍스트
데이터 형식	txt	데이터 출처	신문 및 방송
라벨링 유형	질의응답(자연어)	라벨링 형식	JSON
데이터 활용 서비스	질의응답 서비스, 챗봇 서비스 등	데이터 구축년도/ 데이터 구축량	2022년/지문: 324,026건, 질의응답: 414,940쌍

○ 데이터 통계
- 구축 규모

데이터 통계 - 구축 규모
도메인	지문			질의응답쌍
도메인	지문 유형	항목 수	합계	응답 유형	연산 유형	항목 수	합계
경제	1지문 1질의응답	118,428	164,561	Number	가산/감산	50,625	210,694
					비율연산	33,459
					소계	84,084
				Date	날짜가산/감산	11,709
					날짜추출	26,431
	1지문 2질의응답	46,133			소계	38,140
				Spans	양자/다자비교	37,581
					경계추출	25,772
					단서추출	25,117
					소계	88,470
스포츠	1지문 1질의응답	114,684	159,465	Number	가산/감산	49,135	204,246
					비율연산	28,749
					소계	77,884
				Date	날짜가산/감산	11,368
					날짜추출	27,076
	1지문 2질의응답	44,781			소계	38,444
				Spans	양자/다자비교	38,811
					경계추출	25,889
					단서추출	23,218
					소계	87,918
총계	1지문 1질의응답	233,112	324,026	Number	가산/감산	99,760	414,940
					비율연산	62,208
					소계	161,968
				Date	날짜가산/감산	23,077
					날짜추출	53,507
	1지문 2질의응답	90,914			소계	76,584
				Spans	양자/다자비교	76,392
					경계추출	51,661
					단서추출	48,335
					소계	176,388

- 도메인 분포

데이터 통계 - 도메인 분포
도메인	지문
도메인	항목 수	비율
경제	164,561	50.79%
스포츠	159,465	49.21%
합계	324,026	100.00%

도메인 분포표 이미지

- 지문 유형별 분포

데이터 통계 - 지문 유형별 분포
지문 유형	지문
지문 유형	항목 수	비율
1지문 1질의응답	233,112	71.94%
1지문 2질의응답	90,914	28.06%
합계	324,026	100.00%

지문 유형별 분포표 이미지

- 응답 유형별 분포

데이터 통계 - 응답 유형별 분포
응답 유형	질의응답쌍
응답 유형	항목 수	비율
number	161,968	39.03%
date	76,584	18.46%
spans	176,388	42.51%
합계	414,940	100.00%

응답 유형별 분포표 이미지

- 연산 유형별 분포

데이터 통계 - 연산 유형별 분포
응답 유형	연산 유형	질의응답쌍
응답 유형	연산 유형	항목 수	비율
number	가산/감산	99,760	24.04%
number	비율연산	62,208	14.99%
date	날짜가산/감산	23,077	5.56%
date	날짜추출	53,507	12.90%
spans	양자/다자비교	76,392	18.41%
	경계추출	51,661	12.45%
	단서추출	48,335	11.65%
합계		414,940	100.00%

연산 유형별 분포표 이미지

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

○ 활용 모델

- 모델 개요
● 숫자연산 기계독해 AI 모델의 명칭은 한국어 기반 NumNet+ 모델로서 영어 기반 NumNet+ 모델에 기초를 두고 있음
● NumNet+ 모델의 기반 모델인 NumNet은 숫자들의 크기 비교 등을 포함하는 수치추론(numerical reasoning)을 담당하는 숫자 인식 그래프 신경망(NumGNN: Numerically aware Graph Neural Network)을 도입하여 정수뿐 아니라 실수도 다룰 수 있으며, 비율 계산 등의 복잡한 계산을 다룰 수 있는 모델로 영어 이산추론(Discrete Reasoning) 데이터셋인 DROP에 적용하여 67.97%의 F1 점수를 획득함(Ran et al 2019)
● NumNet+(https://github.com/llamazing/numnet_plus)는 NumNet과 유사한 접근을 하나 사전학습 언어모델로 BERT 계열의 RoBERTa를 사용하며, DROP 리더보드에서 F1 84.84를 기록하였음(https://leaderboard.allenai.org/drop/submission/bmfuq9e0v32fq8pskug0)
● 한국어 기반 NumNet+ 모델은 영어 기반 NumNet+ 모델에 기초하며, 사전학습 언어모델로 한국어 RoBERTa 모델인 KLUE-Roberta Large(https://huggingface.co/klue/roberta-large)를 사용함

- 모델 구조
● NumNet+ 모델은 크게 입력층, 인코더, 숫자 인식 그래프 신경망(NumGNN), 그리고 응답 모듈로 구성됨
● 입력층은 토큰화된 질의(question)와 지문(passage)를 이어붙여 구성함
● 인코더는 사전학습 언어모델인 RoBERTa 기반의 인코더임
● 숫자 인식 그래프 신경망은 다층으로 구성되어 지문에 등장한 숫자들의 비교 연산 등의 수치추론을 담당함
● 응답 모듈은 Number, Date, Spans 응답 유형(answer type)을 예측하는 부분(type prediction)과 각 응답 유형에 적합한 응답을 예측하는 부분으로 구성됨
● NumNet+의 구조를 도식화하면 아래 그림과 같음

NumNet+의 구조의 도식화 이미지

- 학습 데이터셋
● 한국어 기반 NumNet+ 모델의 학습(training), 검증(validation), 평가(evaluation)에 사용된 숫자연산 기계독해 데이터의 구성은 다음과 같음

학습 데이터셋
데이터셋	정답 유형						합계
	number		date		spans		합계
	항목수	비율	항목수	비율	항목수	비율	항목수	비율
Training	129,574	80%	61,267	80%	141,110	80%	331,951	80%
Validation	16,196	10%	7,658	10%	17,638	10%	41,492	10%
Test	16,198	10%	7,659	10%	17,640	10%	41,497	10%
합계	161,968	100%	76,584	100%	176,388	100%	414,940	100%
구성비	39.03%		18.46%		42.51%

- 학습 환경
● Ubuntu 18.04.5 LTS (GNU/Linux 4.15.0-162-generic x86_64)
● Python 3.8
● CUDA

- 학습 수행 방법
● AI 모델 설명서 참조

○ 활용 분야

- 숫자연산이 필요한 비대면 대국민 서비스를 제공하는 공공기관 및 단체
● 통계청 등에서 각종 통계 수치 간 연산을 통해 사용자 맞춤형 챗봇 서비스에 활용 가능
● 국세청의 비대면 세무행정 서비스 구축의 일환인 챗봇 서비스 운영
● 부가가치세, 소득세 등의 자동 세무 상담
● 연말정산, 학자금 등의 국세 행정까지 처리 가능한 챗봇 고도화 계획에 부합함

- 금융, 스포츠, 우주과학 등 숫자연산이 필요한 산업 분야
● 특정 분야 중심의 기계독해 데이터셋은 해당 분야에 특화된 인공지능 응용 서비스 개발에 활용
● 고도화된 RPA(Robotic Process Automation) 시스템에 기계독해 기술을 더하여 영업 현장에서 금융 상품 안내의 효율성을 높일 수 있음
● 스포츠 산업에서 각종 스포츠 규정 문서를 읽고 이해하고 경기 결과를 분석해 스포츠 경기 운영의 공정성과 효율성 제고, 심판의 주관적인 해석의 영역 축소 및 판정 근거로 활용

- 핀테크, 리걸테크, 레그테크, AICC 등의 서비스 분야
● 기존 컨택트 센터의 물리적인 한계 극복 및 상담사의 감정노동 강도를 줄이는 방안
● 공공기관, 대기업, 벤처기업, 스타트업, 소상공인까지 고객 응대 서비스 제공에 효과적으로 기여함
● 고객의

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	질의응답 성능	Question Answering	NumNet+ for Korean Dataset	F1-Score	0.55 점	0.5965 점

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

○ 데이터 포맷
- 원시 데이터

데이터 포맷 - 원시 데이터
{ "news_id": "02100311.20190730122326001", "title": "<코>액션스퀘어, 매도잔량 1324% 급증", "content": "오후 12시 21분 현재 액션스퀘어(205500)의 매도잔량이 34,045주로 1분전 매도잔량 2,390주 대비 1324% 급증했다. 거래대금은 177억8,088만이며 거래량은 621만3,439주로 거래량회전율은 23.46%로 나타났다. \n \n \n \n \n이 시각 현재 액션스퀘어는 26.27% 내린 2,835원에 거래되고 있으며, 42(매도):58(매수)의 매수우위를 기록하고 있다. \n \n[이 기사는 증시분석 전문기자 서경뉴스봇(newsbot@sedaily.com)이 실시간으로 작성했습니다.]/서경뉴스봇 newsbot@sedaily.com", "published_at": "2019-07-30T00:00:00.000+09:00", "enveloped_at": "2019-07-30T12:23:26.000+09:00", "dateline": "2019-07-30T12:22:22.000+09:00", "provider": "서울경제", "category": [ "경제>증권_증시", "경제>유통", "경제>부동산" ], "category_incident": [], "byline": "뉴스봇", "provider_link_page": "http://www.sedaily.com/NewsView/1VLW93NDRW" }

- 원천 데이터(정제 이후)

데이터 포맷 - 원천 데이터(정제 이후)
{ "idx":"kpf.02100311.20190730122326001", "mediatype":"뉴스", "medianame":"서울경제", "category":"경제", "source":"http://www.sedaily.com/NewsView/1VLW93NDRW", "date":"2019-07-30", "title":"<코>액션스퀘어, 매도잔량 1324% 급증", "passage":"오후 12시 21분 현재 액션스퀘어(205500)의 매도잔량이 34,045주로 1분전 매도잔량 2,390주 대비 1324% 급증했다. 거래대금은 177억8,088만이며 거래량은 621만3,439주로 거래량회전율은 23.46%로 나타났다.\n이 시각 현재 액션스퀘어는 26.27% 내린 2,835원에 거래되고 있으며, 42(매도):58(매수)의 매수우위를 기록하고 있다." }

- 라벨링 데이터(가공 이후)

데이터 포맷 - 라벨링 데이터(가공 이후)
{ "idx":"kpf.02100311.20190730122326001", "mediatype":"뉴스", "medianame":"서울경제", "category":"경제", "source":"http://www.sedaily.com/NewsView/1VLW93NDRW", "date":"2019-07-30", "title":"<코>액션스퀘어, 매도잔량 1324% 급증", "passage":"오후 12시 21분 현재 액션스퀘어(205500)의 매도잔량이 34,045주로 1분전 매도잔량 2,390주 대비 1324% 급증했다. 거래대금은 177억8,088만이며 거래량은 621만3,439주로 거래량회전율은 23.46%로 나타났다.\n이 시각 현재 액션스퀘어는 26.27% 내린 2,835원에 거래되고 있으며, 42(매도):58(매수)의 매수우위를 기록하고 있다.", "qa_pairs":[ { "query_id":"f91275e3-d051-4e4d-affc-ff38f0258051", "question":"12시 21분 액션스퀘어의 매도 잔량은 1분 전 매도 잔량보다 몇 주 증가했는가?", "answer":{ "number":{ "calculation":"34045-2390", "calculation_type":"가산/감산", "number":"31655", "transcription":"삼만천육백오십오", "unit":"주" }, "date":null, "spans":null } } ] }

○ 데이터 구성

데이터 구성
Key	Description	Type	Child Type
dataset	메타정보 객체	JsonObject
identifier	데이터셋 식별자	String
name	데이터셋 명칭	String
category	데이터셋 범주	String
type	데이터셋 타입	String
data	데이터	JsonArray
[	데이터 배열	JsonArray	JsonObject
idx	데이터 인덱스	String
mediatype	미디어유형	String
medianame	미디어명칭	String
category	기사 범주	String
source	기사 URL	String
date	기사 게재일	String
title	기사 제목	String
passage	지문	String
qa_pairs	질의응답쌍	JsonArray
[	질의응답쌍 배열	JsonArray	JsonObject
{	질의응답쌍	JsonObject
query_id	질의 ID	String
question	질의	String
answer	응답 객체	JsonObject	JsonObject
number	Number 응답	String
calculation	수식	String
calculation_type	연산유형	String
number	응답	String
transcription	숫자 응답 문자 표기	String
unit	단위어	String
date	Date 응답	JsonObject
calculation_type	연산유형	String
year	연	String
month	월	String
day	일	String
spans	Spans 응답	JsonArray
[	Spans 응답 배열	JsonArray	JsonObject
calculation	수식	String
calculation_type	연산유형	String
text	응답문자열	String
start_index	응답 시작 위치	Number
end_index	응답 끝 위치	Number
]
}
]
]

○ 어노테이션 포맷

어노테이션 포맷
번호											항목		길이	타입	필수여부	비고
											국문명	영문명
1											메타정보 객체	dataset		JsonObject
	1-1										데이터셋 식별자	identifier		String	Y	기정의 값
	1-2										데이터셋 명칭	name		String	Y	기정의 값
	1-3										데이터셋 범주	category		String	Y	기정의 값
	1-4										데이터셋 타입	type		String	Y	기정의 값
2											데이터	data		Array	Y
	2-1										데이터 배열	[		Array	Y
		2-1-1									데이터 항목	{		JsonObject	Y
			2-1-1-1								데이터 인덱스	idx		String	Y	기정의 값
			2-1-1-2								미디어유형	mediatype		String	Y	기정의 값
			2-1-1-3								미디어명칭	medianame		String	Y	기정의 값
			2-1-1-4								기사 범주	category		String	Y	기정의 값
			2-1-1-5								기사 URL	source		String	Y	URL
			2-1-1-6								기사 게재일	date		String	Y	YYYY-MM-DD
			2-1-1-7								기사 제목	title		String	Y
			2-1-1-8								지문	passage	[150-1000]	String	Y
			2-1-1-9								질의응답	qa_pairs		Array	Y
				2-1-1-9-1							질의응답쌍배열	[		Array	Y
					2-1-1-9-1-1						질의응답쌍	{		JsonObject	Y
						2-1-1-9-1-1-1					질의 ID	query_id		String	Y	UUID
						2-1-1-9-1-1-2					질의	question	[20-100]	String	Y
						2-1-1-9-1-1-3					응답 객체	answer		JsonObject
							2-1-1-9-1-1-3-1				Number 응답	number		JsonObject
								2-1-1-9-1-1-3-1-1			수식	calculation		String	Y
								2-1-1-9-1-1-3-1-2			연산유형	calculation_type		String	Y	기정의 값
								2-1-1-9-1-1-3-1-3			응답	number		String	Y
								2-1-1-9-1-1-3-1-4			숫자응답문자표기	transcription		String	Y
								2-1-1-9-1-1-3-1-5			단위어	unit		String	Y
							2-1-1-9-1-1-3-2				Date 응답	date		JsonObject		-
								2-1-1-9-1-1-3-2-1			연산유형	calculation_type		String	Y	기정의 값
								2-1-1-9-1-1-3-2-2			연	year	4	String	Y	YYYY
								2-1-1-9-1-1-3-2-3			월	month	2	String	Y	MM
								2-1-1-9-1-1-3-2-4			일	day	2	String	Y	DD
							2-1-1-9-1-1-3-3				Spans 응답	spans		Array	Y
								2-1-1-9-1-1-3-3-1			Spans 응답배열	[		Array	Y
									2-1-1-9-1-1-3-3-1-1		Spans 응답항목	{		JsonObject	Y
										2-1-1-9-1-1-3-3-1-1-1	수식	calculation		String	Y
										2-1-1-9-1-1-3-3-1-1-2	연산유형	calculation_type		String	Y	기정의 값
										2-1-1-9-1-1-3-3-1-1-3	응답문자열	text	[1-999]	String	Y
										2-1-1-9-1-1-3-3-1-1-4	응답 시작 위치	start_index	[0-1000]	Integer	Y
										2-1-1-9-1-1-3-3-1-1-5	응답 끝 위치	end_index	[0-1000]	Integer	Y
												}
												]
												}
												]
												}
												]

- JSON 어노테이션 항목 기정의 값

JSON 어노테이션 항목 기정의 값
번호	항목		유형	값
번호	국문명	영문명	유형	값
1-1	데이터셋 식별자	identifier	문자열	“TEXT_MRC_NO”
1-2	데이터셋 명칭	name	문자열	“숫자연산기계독해데이터”
1-3	데이터셋 범주	category	정수	2
1-4	데이터셋 타입	type	정수	0
2-1-1-1	데이터 인덱스	idx	정규식	“^kpf\.[0-9]{8}.[0-9]{17}(P[0-9]{3}L?)?$\|^skhan\.[0-9]{15}(P[0-9]{3}L?)?$”
2-1-1-2	미디어 유형	mediatype	문자열	“뉴스”
2-1-1-3	미디어 명칭	mediatype	나열형	["KBS", "MBC", "SBS", "YTN", "강원일보", "경기일보", "광주일보", "국민일보", "노컷뉴스", "뉴스핌", "데일리안", "매일신문", "머니투데이", "부산일보", "서울경제", "서울신문", "세계일보", "스포츠>경향", "스포츠서울", "스포츠월드", "아시아경제", "아주경제", "영남일보", "이데일리", "이투데이", "전남일보", "중부일보", "한겨레", "한국일보", "한라일보", "헤럴드경제"]
2-1-1-4	기사 범주	category	나열형	[“경제”, “스포츠”]
2-1-1-0-1-1-3-1-2	연산 유형	calculation_type	나열형	[“가산/감산”, “비율연산”]
2-1-1-0-1-1-3-2-1	연산 유형	calculation_type	나열형	[“날짜가산/감산”, “날짜추출”]
2-1-1-0-1-1-3-3-1-1-5	연산 유형	calculation_type	나열형	[“단서추출”, “경계추출”, “양자/다자비교”]

○ 실제 예시

세부데이터 예시 이미지

데이터셋 구축 담당자

수행기관(주관) : 주식회사 바이브컴퍼니

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
김수경	02-565-0531	ckaskan@vaiv.kr	실무책임자

수행기관(참여)

수행기관(참여)
기관명	담당업무
주식회사 딥네츄럴	데이터 가공 및 검수
주식회사 포티투마루	AI 모델링

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
김수경	02-565-0531	ckaskan@vaiv.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의