AI-Hub

#한국어 # 멀티세션 # 대화 # 챗봇

NEW 한국어 멀티세션 대화

분야한국어
유형 텍스트

구축년도 : 2022 갱신년월 : 2024-01 조회수 : 13,777 다운로드 : 782 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

데이터 토론 문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2024-01-17	데이터 최종개방
1.0	2023-07-31	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2024-01-17	산출물 전체 공개

소개

시간 간격이 있는 여러 개의 세션에서 두 명의 참여자가 부여받은 페르소나와 대화 토픽을 바탕으로 자유로운 일상 대화 텍스트를 수집한 뒤 참여자 정보, 대화 주제, 대화방 정보, 시간 간격, 페르소나 정보, 대화 및 요약에 대한 라벨링을 통해 데이터셋을 구성
데이터의 5%는 주제와 관련된 질문-대답이 추가된 전문대화로 구성됨(2세션으로만 구축)

구축목적

한국어 챗봇을 고도화하기 위해 과거 대화 기억 가능한 멀티세션 대화를 구축
긴 맥락의 연속된 대화를 기억하고 반영하는 챗봇 기술 개발을 위한 멀티세션 대화 구축

메타데이터 구조표
데이터 영역	한국어	데이터 유형	텍스트
데이터 형식	텍스트	데이터 출처	자체 수집
라벨링 유형	텍스트	라벨링 형식	텍스트(JSON)
데이터 활용 서비스	자연어처리 모델 개발, 대화형 인공지능 시스템 연구, 대화형 로봇/앱 개발, 가상의 아바타 응답 패턴 개발 등	데이터 구축년도/ 데이터 구축량	2022년/80,000건

1. 데이터 구축 규모
- 총 8만 건의 멀티세션 대화 구축

구분		총 데이터수집 (건)
구분		2세션	3세션	4세션
데이터	일반대화	36,000	20,000	20,000
수집	전문대화	4,000	-	-
규모	합계	40,000	20,000	20,000

2. 데이터 분포
- 대화 참여자 성별 분포

성별	인원(건)	비율(%)
남성	3,641	46.27
여성	4,228	53.73
합계	7,869	100

- 페르소나 연령대 분포

페르소나 특성 personaFeatures	수량(건)	비율(%)
페르소나 특성 personaFeatures	수량(건)	비율(%)
10대	1,718	4.29
20대	12,155	30.36
30대	12,114	30.26
40대	5,714	14.27
50대	5,298	13.23
60대 이상	3,034	7.58
합계	40,033	100

- 주제 분포: 개인 및 관게, 교육, 교통 등 13개 주제

순서	주제	수량(건)	비율(%)
1	개인 및 관계	12,783	15.98
2	교육	6,288	7.86
3	교통	3,795	4.75
4	기후	3,975	4.97
5	미용과 건강	9,038	11.3
6	상거래전반	4,370	5.47
7	시사/사회	7,328	9.17
8	식음료	4,130	5.15
9	여가와 오락	11,063	13.83
10	예술문화생활	6,508	8.13
11	일과 직업	6,997	8.75
12	주거와 생활	3,489	4.37
13	패션	235	0.29
합계		80,000	100

- 세션별 대화 턴 수 분포

턴 수	수량(건)	비율(%)
7	120,936	54.97%
8	69,069	31.40%
9	22,881	10.40%
10	6,735	3.06%
11	177	0.08%
12	96	0.04%
13	45	0.02%
14	28	0.01%
15	18	0.01%
16	8	0.00%
17	5	0.00%
18	1	0.00%
25	1	0.00%

AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드
1 학습 모델 후보
- 선정 모델: Blenderbot 2.0
- 선정 이유: ETRI에서 pre-train한 한국어 T5 모델을 기반으로 하여 본 과제의 수집 데이터를 통한 Long-term memory 챗봇모델의 fine-tuning을 통해 Blenderbot2.0의 멀티세션모델 제작 가능, ETRI T5는 기존의 transformer 구조를 차용한 모델로, Blenderbotv2에서 사용된 standard transformer 구조와 거의 동일

2 학습 모델 개발
1. 인공지능 기반 대화 모델
- 현재 세션의 대화를 나눌 때, 사용자와 나눴던 과거 세션의 정보를 활용해 답변 생성
- 한국어 데이터로 사전학습된 ETRI T5 모델을 대화 데이터를 이용해 미세 조정함으로써 이전 세션 대화를 활용해 답변을 생성하는 대화 모델을 개발

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	이전 세션 참고 적정성(SSC < MSC)	Text Generation	T5	사용률	17.03 %	31.82 %
2	답변 생성 적정성(SSC < MSC)	Text Generation	T5	생성률	60 %	78.65 %
3	텍스트 생성 모델 평가 점수(SSC < MSC)	Text Generation	T5	Likert scale	3.3 점	4.09 점

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

1. 데이터셋 구성
- 3가지 데이터 분류 카테고리(2세션, 3세션, 4세션), 이 중 2세션 대화의 일부는 전문대화(질문-답변 추가)로 구성

2. 데이터 분류 체계 정의
- 2세션: 2개의 세션으로 구성된 멀티세션
- 3세션: 3개의 세션으로 구성된 멀티세션
- 4세션: 4개의 세션으로 구성된 멀티세션

3. 데이터 출처
- 크라우드 워커를 모집하여 자유대화 직접 구축

4. 라벨링 데이터 구성

구 분			속성명	타입	필수여부	설명	범위	비고
1			FileInfo			파일 정보
	1-1		filename	string	y	파일명
	1-2		sessionLevel	string	y	세션 수	2~4
2			participantsInfo			참여자 정보
	2-1		numberOfParticipants	string	y	참여자 수	2
	2-2		speaker1			참여자1 정보
		2-2-1	participantID	string	y	참여자 ID	4-5자리
		2-2-2	gender	string	y	대화 참여자 성별	남성/여성
		2-2-3	age	string	y	나이	10대~60대 이상	연령대
		2-2-4	occupation	string		직업
		2-2-5	bPlace	string		출생지
		2-2-6	gPlace	string		성장지
		2-2-7	rPlace	string		현 거주지
		2-2-8	educationLevel	string		학력
	2-3		speaker2			참여자 2정보
		2-3-1	participantID	string	y	참여자 ID	4-5자리
		2-3-2	gender	string	y	대화 참여자 성별	남성/여성
		2-3-3	age	string	y	나이	10대~60대 이상	연령대
		2-3-4	occupation	string		직업
		2-3-5	bPlace	string		출생지
		2-3-6	gPlace	string		성장지
		2-3-7	rPlace	string		현 거주지
		2-3-8	educationLevel	string		학력
3			multisessionInfo			멀티세션 정보
	3-1		multisessionID	string	y	멀티세션 ID	세션수-5자리
	3-1		multisessionID	string	y	멀티세션 ID	(전문대화 5-로 시작)
4			personaInfo	string		페르소나 정보
	4-1		clInfo			CL의 정보
		4-1-1	personaID	string	y	페르소나 ID	5자리
		4-1-2	personaFeatures	string	y	페르소나 특징
		4-1-3	speakerType	string	y	화자유형	speaker1
	4-2		cpInfo			CP의 정보
		4-2-1	personaID	string	y	페르소나 ID	5자리
		4-2-2	personaFeatures	string	y	페르소나 특징
		4-2-3	speakerType	string	y	화자유형	speaker2
5			topicInfo			토픽 정보
	5-1		topicID	string	y	주제 ID
	5-2		topicType	string	y	토픽 유형	21개
	5-3		topicTitle	string	y	토픽 타이틀	235개
6			sessionInfo			세션 정보		*세션 수만큼 반복
	6-1		prevSessionID	string	y	이전 세션 ID		대화방ID + 몇 번째 세션(1/2/3/4)
	6-2		prevTimeInfo			이전 시간 정보
		6-2-1	timeNum	string	y	이전 세션 이후	*1~48시간
						흐른 가상의 시간	*1~10일
							*1~7주
		6-2-2	timeUnit	string	y	가상 시간 단위	시간/일/주
	6-3		nthSession	string	y	몇 번째 세션	1~4
	6-4		numberOfUtterances	string	y	발화 수
	6-5		numberOfTurns	string	y	말차례 수
	6-6		sessionID	string	y	세션 ID		대화방ID + 몇 번째 세션(1/2/3/4)
	6-7		dialog			대화
		6-7-1	speaker	string	y	화자 순서		speaker1 = CL, speaker2 = CP
		6-7-2	personaID	string	y	페르소나 ID	00001 ~ 99999
		6-7-3	participantID	string	y	참여자 ID	0001~9999
		6-7-4	utterance	string	y	발화
		6-7-5	summary	string	y	세션 내용 요약
		6-7-6	date	string	y	발화 일시	연-월-일
		6-7-7	time	string	y	발화 시간	시간:분:초
		6-7-8	terminate	string	y	대화 종료	false /true
	6-8		sessionPersonaSummary			세션 내
	6-8		sessionPersonaSummary			페르소나 요약
		6-8-1	speaker1	string	y	세션 내 첫 번째 화자
		6-8-1	speaker1	string	y	페르소나 요약
		6-8-2	speaker2	string	y	세션 내 두 번째 화자
		6-8-2	speaker2	string	y	페르소나 요약
	6-9		prevAggregatedpersonaSummary			이전 세션의 페르소나 요약
		6-9-1	speaker1	string	y	이전 세션의 첫 번째 화자
		6-9-1	speaker1	string	y	페르소나 총 요약
		6-9-2	speaker2	string	y	이전 세션의 두 번째 화자
		6-9-2	speaker2	string	y	페르소나 총 요약

● 전문대화의 경우, 상기 라벨링 데이터의 구조와 동일하되, “sessionInfo”에 “searchWord, linkAddress, searchMethod” 항목이 추가됨

6			sessionInfo			세션 정보
	6-1		prevSessionID	string	y	이전 세션 ID
	6-2		prevTimeInfo			이전 시간 정보
		6-2-1	timeNum	string	y	이전 세션 이후
		6-2-1	timeNum	string	y	흐른 가상의 시간
		6-2-2	timeUnit	string	y	가상 시간 단위
	6-3		nthSession	string	y	몇 번째 세션
	6-4		numberOfUtterances	string	y	발화 수
	6-5		numberOfTurns	string	y	말차례 수
	6-6		sessionID	string	y	세션 ID
	6-7		dialog			대화
		6-7-1	speaker	string	y	화자 순서
		6-7-2	personaID	string	y	페르소나 ID
		6-7-3	participantID	string	y	참여자 ID
		6-7-4	utterance	string	y	발화
		6-7-5	searchWord	string	y	검색어
		6-7-6	linkAddress	string	y	링크주소
		6-7-7	searchMethod	string	y	검색방법
		6-7-8	summary	string	y	세션 내용 요약
		6-7-9	date	string	y	발화 일시
		6-7-10	time	string	y	발화 시간
		6-7-11	terminate	string	y	대화 종료
	6-8		sessionPersonaSummary			세션 내
	6-8		sessionPersonaSummary			페르소나 요약
		6-8-1	speaker1	string	y	세션 내 첫 번째 화자
		6-8-1	speaker1	string	y	페르소나 요약
		6-8-2	speaker2	string	y	세션 내 두 번째 화자
		6-8-2	speaker2	string	y	페르소나 요약
	6-9		prevAggregatedpersonaSummary			이전 세션의 페르소나 요약
		6-9-1	speaker1	string	y	이전 세션의 첫 번째 화자
		6-9-1	speaker1	string	y	페르소나 총 요약
		6-9-2	speaker2	string	y	이전 세션의 두 번째 화자
		6-9-2	speaker2	string	y	페르소나 총 요약

데이터셋 구축 담당자

수행기관(주관) : 미디어젠

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
윤종성	02-6429-7144	jsyoon@mediazen.co.kr	설계 분석 및 개발

수행기관(참여)

수행기관(참여)
기관명	담당업무
비디	시스템 구축
메트릭스	크라우드소싱

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
윤종성	02-6429-7144	jsyoon@mediazen.co.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의