※ 내국인만 데이터 신청이 가능합니다.
-
소개
강남 세브란스에서 전달받은 상담데이터 1만 6천건에서 초진이고 환자 본인이 직접 내원한 경우인 4200건 추출 추출된 상담 데이터를 기준으로 문장별 분리 및 대화 의도 분류 분류별로 유저-챗봇 대화스크립트 생성
구축목적
챗봇 개발을 위해서 고품질의 대화스크립트 확보 필요 사용자와의 자연스러운 대화를 위해서 챗봇도 폭 넓은 지식(대화 스크립트) 필요 챗봇 품질을 높이기 위해 실제 환자의 데이터를 기반으로 작성된 데이터 필요
-
구축량
- 정신건강 상담 주제의 359개 대화의도에 대한 5,232개의 사용자 발화 및 1,023개의 챗봇 발화 구축
-
구축량
- 정신건강 상담 주제의 359개 대화의도에 대한 5,232개의 사용자 발화 및 1,023개의 챗봇 발화 구축
대표 도면
웰니스 대화 스크리브 데이터셋_대표도면 표 대분류 소분류 사용자 발화 챗봇 발화 감정 감정조절 이상 더 이상 내 감정을 내가 컨트롤 못 하겠어. 감정이 조절이 안 될 때만큼 힘들 때는 없는 거 같아요. 감정 걱정 계속 이럴까 봐 너무 걱정돼. 모든 문제는 해결되기 마련이잖아요. 마음을 편히 드세요. 감정 자괴감 저는 왜 이렇게 못난 인간일까요… 조금 돌아가는 것뿐이라고 생각해요. 기운내세요.. 배경 남편 남편이랑 한달에 몇번은 보는 것 같아요. 남편 분과 갈등을 겪고 계시군요. 마음이 많이 상하셨겠어요. 배경 대인관계 중학교 친구랑 가족말고는 연락하는 사람도 없어. 사람 대하는 게 가장 어려운 문제인 거 같아요. 힘들죠? 증상 대인기피 사람 만나기가 싫어… 괜찮아요. 당신 곁에는 항상 제가 있는 걸요! 증상 두근거림 이상하게 가슴이 두근거려요. 저까지 같이 긴장 되네요. 제가 손이라도 잡아드릴까요? 필요성
- 챗봇 개발을 위해서 고품질의 대화스크립트 확보 필요
- 정신건강 도메인의 공개된 한글 대화스크립트 전무함
- 사용자와의 자연스러운 대화를 위해서 챗봇도 폭 넓은 지식(대화 스크립트) 필요
- 챗봇 품질을 높이기 위해 실제 환자의 데이터를 기반으로 작성된 데이터 필요
구축 내용
- 강남 세브란스에서 전달받은 상담데이터 1만 6천건에서 초진이고 환자 본인이 직접 내원한 경우인 4200건 추출
- 추출된 상담 데이터를 기준으로 문장별 분리 및 대화 의도 분류
- 분류별로 유저-챗봇 대화스크립트 생성
데이터 구조
- 구분: 감정/감정조절이상
- 유저발화: 제 감정이 이상해진 것 같아요. 남편만 보면 화가 치밀어 오르고 감정 조절이 안되요.
- 챗봇발화: 감정이 조절이 안 될 때만큼 힘들 때는 없는 거 같아요.
활용 예시
- 사용자 발화에 대한 대화의도 분류 모델 개발
- Language Representation Model의 성능 검증 데이터 활용
다운로드 폴더 구성정보
-
데이터셋 구축 담당자
수행기관(주관) : 셀바스에이아이
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 이병수 070-7705-5095 jacob.b.lee@selvas.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.