NEW 생성형AI 한국어 SNS 멀티턴 대화 데이터
- 분야한국어
- 유형 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 한국어 SNS 대화처리 모델링 기술 연구 및 응용 서비스 개발 등에 활용하기 위한 한국어 SNS 대화의 문체와 내용을 반영하는 2인 또는 3인 화자의 멀티턴 대화 데이터
구축목적
- 한국어 SNS 멀티턴 대화의 대화 상태 예측 모델 연구 및 개발에 활용할 수 있는 학습용 데이터 구축 - 한국어 SNS 어휘, 표현, 문체를 반영한 대화 생성 모델 연구 및 개발에 활용할 수 있는 학습용 데이터 구축 - 한국어 SNS 문체를 구사하는 사용자 친화적 정보성 문답 챗봇 응용 서비스 연구 및 개발에 활용할 수 있는 학습용 데이터 구축
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 원천 데이터:csv, 학습 데이터:json 데이터 출처 자체 제작을 통한 획득 라벨링 유형 질의응답(자연어) 라벨링 형식 json 데이터 활용 서비스 한국어 SNS 멀티턴 대화의 어투 및 맥락과 흐름을 이해하는 DST(Dialogue State Tracking) 및 대화 인터페이스, 챗봇 서비스에 활용 데이터 구축년도/
데이터 구축량2023년/원천 데이터 3,246,886 발화 / 라벨링 데이터 3,246,886 발화 -
- 데이터 구축 규모
데이터 구축 규모 항목 내용 대화 세션 196,235 발화 3,246,886 대화 주제별 구축 규모 주제 수량 구축 비율 (대화 세션) 건강 및 식음료 20,576 10.49% 경제 및 사회 42,540 21.68% 과학 기술 19,681 10.03% 문화 생활 및 여가 21,348 10.88% 미용과 패션 21,997 11.21% 스포츠 및 e 스포츠 21,688 11.05% 여행, 관광 및 명소 24,276 12.37% 정치 3,603 1.84% 콘텐츠 소비 20,526 10.46% 합계 196,235 100.00% 화자별
구축 규모화자 수량 구축 비율 (발화) 2인 2,953,371 90.96% 3인 293,515 9.04% 합계 3,246,902 100.00% - 데이터 분포
(1) 발화 내 문장 수 분포
발화 내 문장 수는 발화 내 한 문장으로 이루어진 발화가 전체의 43.66%, 두 문장으로 이루어진 발화가 전체의 24.82%, 세 문장으로 이루어진 발화가 전체의 1.95%를 차지하며, 기타 네 문장으로 이루어진 발화가 전체의 0.21%를 차지한다.
(2) 대화 내 발화 수 분포
대화 내 발화는 최소 14발화를 기준으로 하며, 16발화가 전체의 90.26%, 24발화가 전체의 6.08%를 차지한다.
(3) 화자 성별 분포
대화의 화자의 성별 분포는 남성 50.43%, 여성 49.57%로 이루어져 있다.
(4) 화자 연령대 분포
대화의 화자 연령 분포는 10대 4.65%, 20대 50.15%, 30대 42.22%, 40대 2.80%, 50대(이상) 0.18%로 이루어져 있다. -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 모든 도메인(건강 및 식음료/여행, 관광 및 명소/문화생활 및 여가/미용과 패션/스포츠 및 e스포츠/콘텐츠 소비/정치/경제 및 사회/과학 기술)에서 사용되는 사전 학습 언어모델은 같으나, 도메인별 라벨링이 다르기 때문에 총 9개, 각 1개씩 Dialogue State Tracking 모델을 구현
- 사전 학습 언어모델은 Kconvo-RoBERTa를 사용하였으며, [CLS] 토큰을 통해 special state(ex. 가격대, 평가/후기/감상)을 예측하고, Text 토큰을 통해 standard state(ex. 장소/지역/조직, 인물 등)을 예측
- 모델의 입력값은 주고받는 발화 쌍을 하나로 묶어서 Kconvo-RoBERTa에 입력됨
- Kconvo-RoBERTa에서 추출되는 [CLS] 토큰을 통해 special state(slot-key: 가격대, 평가/후기/감상)을 분류하며, special state을 예측할 시, 예측된 special state에 대한 values(slot-value: yes, no, dontcare, soso) 중 하나를 예측
- Kconvo-RoBERTa에서 추출되는 text 토큰들에서 BIO 태깅을 통해 standard state(slot-key: 장소/지역/조직, 시간 등)를 예측하며, 예측된 standard state의 시작점과 종료점(B-tag를 시작으로 마지막 I-tag까지)를 values(slot-value: 한국, 오전 10시 등)로 정의
- 1개의 입력 발화 쌍에 special state와 standard state 모두 존재할 수 있기 때문에, 동시에 학습을 진행 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 어노테이션 포맷
어노테이션 포맷 No 속성명 타입 필수 속성 설명 예시 여부 1 info Object Y 대화 메타정보 2 info.category String Y 데이터셋 종류 한국어SNS 멀티턴 대화 3 info.id String Y 데이터셋 식별자 79 4 info.topic String Y 대화 주제 건강 및 식음료 5 info.keyword String Y 대화 키워드 밀키스 제로 출시 6 info.speaker Object Y 발화자 정보 7 info.speaker.speakerAId String Y 발화자 A의 ID 39 8 info.speaker.speakerASex String Y 발화자 A의 성별 여자 9 info.speaker.speakerAAge String Y 발화자 A의 연령대 20 10 info.speaker.speakerBId String Y 발화자 B의 ID 104 11 info.speaker.speakerBSex String Y 발화자 B의 성별 남자 12 info.speaker.speakerBAge String Y 발화자 B의 연령대 20 13 info.speaker.speaerCId String 발화자 C의 ID 77 14 info.speaker.speakerCSex String 발화자 C의 성별 남자 15 info.speaker.speakerCAge String 발화자 C의 연령대 30 16 utterances Object Y 발화 정보 17 utterances.terminate Boolean Y 대화 종료 표시 True / False 18 utterances.speaker String Y 발화자 speakerA 19 utterances.text String Y 발화 text 너 제로 칼로리 탄산음료 좋아함? 20 utterances.new_words String 사용된 신조어 레알 21 utterances.speech_act String Y 발화의 화행 class 정보 요청 / 정보 제공 22 utterances.slot Object Y 발화의 slot 정보 23 utterances.slot.key String 발화의 slot 항목 class 제품/서비스 24 utterances.slot.value String slot 항목의 값 밀키스 25 utterances.turn_id String Y 턴 id 000079-2 26 utterances.utterance_id String Y 발화 id 79.4 - 데이터 포맷
(1) 대화 메타 정보대화 메타 정보 대화 ID 화자A
ID화자A
성별화자A
연령대화자B
ID화자B
성별화자B
연령대주제 키워드 79 39 여자 20 104 남자 20 건강 및 식음료 밀키스 제로 출시 (2) 발화 데이터
발화 데이터 발화
번호발화자 발화 신조어 화행 slot_data 1 A 야! 바쁘냐~. 오늘의 저메추 부탁할게. 저메추 친교 및 잡담 {"날짜/기간/계절":"오늘"} 2 B 왜 너 먹는걸 맨날 나한테 물어봐ㅋㅋ. 나는 귀찮아서 냉동실에 있는 치즈 돈까스 에프에 돌려 먹을란다. 에프 친교 및 잡담 {"제품/서비스":"치즈 돈까스"} 3 A 야. 너 저번부터 왜 자꾸 냉동 식품만 먹어? 친교 및 잡담 {"제품/서비스":"냉동 식품"} 4 B 뭐 어때서 그래. 1인 가구가 매번 재료 사서 요리하기 얼마나 귀찮은줄 알아? 재료 남는 것도 많고. 냉동 간편식이 대세라구. 친교 및 잡담 {"제품/서비스":"냉동 간편식","평가/후기/감상":"yes"} 5 A 아. 그래? 주로 어디서 구매하는데? 정보 요청 6 B 나는 낮에 회사에 있으나 장보러갈 시간이 없어서 주로 마켓컬리나 이마트 새벽 배송으로 주문해서 받아. 정보 제공 {"제품/서비스":"새벽 배송","장소/조직":"마켓컬리; 이마트","시간":"낮"} 7 A 마켓컬리는 나도 몇 번 이용해 보기는 했어. 뭐 추천할 만한거 있어? 정보 요청 {"장소/조직":"마켓컬리"} 8 B 응. 빵 좋아하면 리치몬드 과자점이나 우드앤브릭, 메종엠오 같은 오프라인 맛집 빵도 냉동으로 얼려서 배송해줘. 정보 제공 {"제품/서비스":"빵; 오프라인 맛집 빵","장소/조직":"리치몬드 과자점; 우드앤브릭; 메종엠오"} 9 A 오 진짜 유명한 베이커리들이잖아? 그리고 또? 정보 요청 {"제품/서비스":"베이커리"} 10 B 아니면 오프라인 맛집이라고 따로 모아둔 카테고리가 있는데, 거기 가면 이연복의 목란 짜장면도 있고 전주의 유명 맛집 베테랑 칼국수 등등 다 냉동 간편식으로 온다구. 정보 제공 {"인물":"이연복","제품/서비스":"오프라인 맛집; 목란 짜장면; 베테랑 칼국수; 냉동 간편식","지역":"전주"} 11 A 냉동 식품은 뭔가 신선하지 않은 느낌인데 맛이 좀 다르지 않아? 정보 요청 {"제품/서비스":"냉동 식품"} 12 B 보통은 급속 냉동 기술을 사용해서 얼리니까 해동하고 조리하면 방금 요리한 것 처럼 맛있던데? 정보 제공 {"평가/후기/감상":"yes"} 13 A 맛나겠다. 근데 나 다이어트도 해야하는데? 정보 요청 14 B 응. 탄단지 잘 맞춘 냉동 다이어트 도시락들도 있으니 쟁여두는걸 추천해. 탄단지 정보 제공 {"제품/서비스":"냉동 다이어트 도시락","평가/후기/감상":"yes"} 15 A 꿀팁 감사감사. 역시 너는 아는 게 많구나. 친교 및 잡담 16 B 응! 더운 여름에 특히 걍 전자레인지나 에어프라이어로 끝나는 냉동 간편식이 최고니까 꼭 도전해봐. 친교 및 잡담 {"제품/서비스":"냉동 간편식; 에어프라이어; 전자레인지","날짜/기간/계절":"여름"} (3) JSON 형식 예시
{
"info": {
"category": "한국어SNS 멀티턴 대화",
"id": "000079",
"topic": "건강 및 식음료",
"keyword": "밀키스 제로 출시",
"speaker": {
"speakerAId": "0039",
"speakerASex": "여자",
"speakerAAge": "20",
"speakerBId": "0104",
"speakerBSex": "남자",
"speakerBAge": "20",
"speakerCId": null,
"speakerCSex": null,
"speakerCAge": null
}
},
"utterances": [
{
"speaker": "speakerA",
"text": "너 제로 칼로리 탄산음료 좋아함?",
"new_word": "",
"speech_act": "친교 및 잡담",
"slot": [
{
"key": "제품/서비스",
"value": "제로 칼로리 탄산음료"
}
],
"turn_id": "000079-1",
"utterance_id": "000079.1"
},
{
"speaker": "speakerB",
"text": "ㅇㅇ. 일반 탄산음료보다 칼로리 부담이 덜해서 자주 마시는데 그건 왜?",
"new_word": "",
"speech_act": "친교 및 잡담",
"slot": [
{
"key": "제품/서비스",
"value": "일반 탄산음료"
},
{
"key": "영양소/성분",
"value": "칼로리"
}
],
"turn_id": "000079-1",
"utterance_id": "000079.2"
},
{
"speaker": "speakerA",
"text": "그럼 너 밀키스 제로도 마셔봄? 최근에 새로 출시됐다고 하던데.",
"new_word": "",
"speech_act": "정보 제공",
"slot": [
{
"key": "제품/서비스",
"value": "밀키스 제로"
}
],
"turn_id": "000079-2",
"utterance_id": "000079.3"
},
{
"speaker": "speakerB",
"text": "레알? 밀키스도 제로 칼로리로 나왔다고?",
"new_word": "레알",
"speech_act": "정보 요청",
"slot": [
{
"key": "제품/서비스",
"value": "밀키스"
},
{
"key": "영양소/성분",
"value": "제로 칼로리"
}
],
"turn_id": "000079-2",
"utterance_id": "000079.4"
},
{
"speaker": "speakerA",
"text": "출시된 지 꽤 된 거 같던데 나도 얼마 전에 먹방 유튜버 영상 보고 알았음!",
"new_word": "먹방",
"speech_act": "정보 제공",
"slot": [],
"turn_id": "000079-3",
"utterance_id": "000079.5"
},
{
"speaker": "speakerB",
"text": "오, 대박.. 그럼 너는 밀키스 제로 먹어봤어?",
"new_word": "대박",
"speech_act": "친교 및 잡담",
"slot": [
{
"key": "제품/서비스",
"value": "밀키스 제로"
},
{
"key": "평가/후기/감상",
"value": "yes"
}
],
"turn_id": "000079-3",
"utterance_id": "000079.6"
},
{
"speaker": "speakerA",
"text": "당연하지. 제로 칼로리인데 일반 밀키스 맛이랑 거의 똑같더라ㅋㅋ",
"new_word": "",
"speech_act": "정보 제공",
"slot": [
{
"key": "영양소/성분",
"value": "제로 칼로리"
},
{
"key": "제품/서비스",
"value": "밀키스"
}
],
"turn_id": "000079-4",
"utterance_id": "000079.7"
},
{
"speaker": "speakerB",
"text": "나도 조만간 사먹어봐야겠다. 근데 그건 어디서 살 수 있음?",
"new_word": "",
"speech_act": "정보 요청",
"slot": [],
"turn_id": "000079-4",
"utterance_id": "000079.8"
},
{
"speaker": "speakerA",
"text": "편의점이나 마트에서도 팔고, 온라인 칠성몰 사이트에서도 살 수 있다고 함!",
"new_word": "",
"speech_act": "정보 제공",
"slot": [
{
"key": "장소/조직",
"value": "온라인 칠성몰 사이트"
}
],
"turn_id": "000079-5",
"utterance_id": "000079.9"
},
{
"speaker": "speakerB",
"text": "그렇구만. 밀키스 제로는 그럼 캔으로만 출시된 거야?",
"new_word": "",
"speech_act": "정보 요청",
"slot": [
{
"key": "제품/서비스",
"value": "밀키스 제로"
}
],
"turn_id": "000079-5",
"utterance_id": "000079.10"
},
{
"speaker": "speakerA",
"text": "ㄴㄴ. 250mL 캔이랑 300mL, 500mL 페트병으로도 출시됨!",
"new_word": "",
"speech_act": "정보 제공",
"slot": [
{
"key": "제품/서비스",
"value": "페트병"
}
],
"turn_id": "000079-6",
"utterance_id": "000079.11"
},
{
"speaker": "speakerB",
"text": "페트병으로도 나왔다니 박박이네. 밀키스 팬들 엄청 좋아하겠다ㅋㅋ",
"new_word": "박박",
"speech_act": "친교 및 잡담",
"slot": [
{
"key": "제품/서비스",
"value": "밀키스; 페트병"
},
{
"key": "평가/후기/감상",
"value": "yes"
}
],
"turn_id": "000079-6",
"utterance_id": "000079.12"
},
{
"speaker": "speakerA",
"text": "그러니까ㅋㅋ 요즘 제로 칼로리 음료가 대세이긴 한가봄.",
"new_word": "",
"speech_act": "친교 및 잡담",
"slot": [
{
"key": "제품/서비스",
"value": "제로 칼로리 음료"
},
{
"key": "평가/후기/감상",
"value": "yes"
}
],
"turn_id": "000079-7",
"utterance_id": "000079.13"
},
{
"speaker": "speakerB",
"text": "니 이야기 들으니까 맛이 더 궁금해지네. 내일 당장 편의점 가서 사와야겠다ㅋㅋ",
"new_word": "",
"speech_act": "친교 및 잡담",
"slot": [
{
"key": "날짜/기간/계절",
"value": "내일"
},
{
"key": "평가/후기/감상",
"value": "yes"
}
],
"turn_id": "000079-7",
"utterance_id": "000079.14"
},
{
"speaker": "speakerA",
"text": "편의점에 캔 음료 원 플러스 원 행사도 종종 하니까 사서 먹어봐ㅋㅋ 완전 추천함!",
"new_word": "",
"speech_act": "정보 제공",
"slot": [
{
"key": "사건",
"value": "캔 음료 원 플러스 원 행사"
},
{
"key": "평가/후기/감상",
"value": "yes"
}
],
"turn_id": "000079-8",
"utterance_id": "000079.15"
},
{
"speaker": "speakerB",
"text": "오키! 먹어보고 나서 후기 말해줄게.",
"new_word": "",
"speech_act": "친교 및 잡담",
"slot": [],
"turn_id": "000079-8",
"utterance_id": "000079.16"
}
]
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜엔에이치엔다이퀘스트
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 이주환 070-4658-4427 juhwanlee@diquest.com 데이터 검수, AI학습모델 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜미디어 코퍼스 데이터 수집, 가공 심심이(주) 데이터 정제, 워크벤치 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 박일섭 02)881-5758 is.park@mediacorpus.net AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 이주환 070-4658-4427 juhwanlee@diquest.com 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 최정회 02-562-5332 sijay@simsimi.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.