BETA 심리상담 데이터
- 분야헬스케어
- 유형 텍스트
- 생성 방식LLM
※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-04-30 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-04-30 산출물 전체 공개 소개
우울증, 불안장애, 중독 등 정신질환자를 대상으로 구조화된 심리상담 프로토콜을 활용해 수집된 1,661시간의 음성데이터와 이를 전사한 40만 토큰 이상의 텍스트로 구성된 학습용 데이터셋
구축목적
우울증, 불안장애, 중독 등 정신질환을 판별하고 관리할 수 있는 학습용 심리상담 데이터 구축을 목적으로함
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 텍스트 데이터 형식 mp3, txt 데이터 출처 자체 수집 라벨링 유형 내용평가(텍스트) 라벨링 형식 json 데이터 활용 서비스 심리상담 지원 툴 제공 (심리상담 결과를 활용한 내담자의 정신질환 분류, 상담 대화 분석 및 요약 서비스 제공) 데이터 구축년도/
데이터 구축량2024년/1,661건 -
1. 데이터 구축 규모 및 데이터 분포
데이터 구축 규모 및 데이터 분포 정신질환 유형 원천데이터 규모 라벨링 데이터 규모 파일포맷 수량 비율 파일포맷 수량 비율 우울증 mp3/txt 484 29.14 json 137,196 29.47 불안장애 487 29.32 130,349 28 중독 448 26.97 127,905 27.48 일반군 242 14.57 70,024 15.04 합계 1,661 100 465,474 100 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 모델 학습
1) 대화 분석을 통한 심리 질환의 판별
● 임무 유형: 분류
● 학습모델: KlueBERT (Korean Language Understanding Evaluation BERT)
● 모델 설명: Kluebert 모델을 기반으로 상담기록 (string) 에 대하여 우울/중독/불안 정신질환에 대한 0/1의 예측 값을 도출하는 모델
● Input and Output
- Input : (string) 상담자와 내담자의 발화자 구분 표시가 되어 있는 상담내용 스크립트
- Output : (int) 0 또는 1의 예측값으로서, 정신질환의 유무를 나타냄
● Task: 상담 후 녹취된 스크립트 데이터를 바탕으로 우울/중독/불안 정신질환의 위험도를 자동으로 예측하는 분류 작업을 수행2) 대화 분석을 통한 심리상담 요약보고서 생성
● 임무 유형: 생성
● 학습모델: Koalpaca 4bit 모델 ("EleutherAI/polyglot-ko-12.8b") 기반으로 추가 학습 진행
● 모델 설명: Koalpaca 4bit 모델 ("EleutherAI/polyglot-ko-12.8b")을 기반으로 상담기록 (string) 에 대하여 요약보고서를 생성하는 모델
● Input and Output
- Input : (string) 상담자와 내담자의 발화자 구분 표시가 되어 있는 상담내용 스크립트
- Output : (string) 요약보고서 텍스트
● Task: 상담 후 녹취된 스크립트 데이터를 바탕으로 주요 증상, 위험요인, 개선 요인, 상담사의 개입 요인 등을 담은 요약보고서를 생성2. LLM 의 Hallucination 방지를 위한 보완 조치
● koaplaca 를 이용한 상담데이터 요약문 작성 모델에서 Hallucination (환각, 엉뚱한 말의 생성) 을 방지하기 위해 아래와 같이 조치함1) 일관되며 정형화된 (사람이 만든) 요약문 데이터의 활용
● 심리상담 분야에 자격을 갖춘 데이터 메이커들이 상담데이터에 대해서 일관되며 정형화된 규칙과 구조의 요약문을 생성하였고, 그 텍스트를 기반으로 output 을 내도록 학습을 설계함. 500 step 을 거치며 해당 데이터를 학습한 AI가 생성한 텍스트도 이에 따라 "주요 증상, 위험 요인, 개선 요인, 개입요인"으로 구조화 되어 관련 내용을 정확히 담을 수 있도록 학습 수행.2) prompt 변경 실험 수행
● 학습된 텍스트는 명령어, 맥락, 답변으로 구성되어 있으며 이 중에서 명령어 프롬프트를 정확하고 명료한 텍스트로 구성하기 위해 여러가지 실험 수행. "다음과 같은 상담기록을 보고 요약서를 작성해주세요." 로 결정되었음.3) 생성된 텍스트의 후가공 조치 (post processing) 를 통한 최종 텍스트 도출
● <|endoftext|>, <|sep|> 등의 분리 기능을 수행하는 인자를 포함하여 텍스트를 학습하였으며, 생성되는 1차적인 텍스트에서 후가공을 통해 추가적인 환각 텍스트를 더 생성하지 않도록 조정함.4) 비식별화 조치
● 텍스트 내에서 민감 정보나 이름, 주소 등이 노출되지 않도록 데이터 제작 과정에서부터 철저한 비식별화조치가 수행되었고, 이에 따라 AI 가 생성한 텍스트에서도 이름 등이 @NAME 으로 대체 표기 되어 요약문을 만든 것을 확인할 수 있음.3. 서비스 활용 시나리오
● 구축한 모델은 내담자의 정신질환 분류, 상담 대화 분석 및 요약서비스 등 심리상담 지원 툴 개발에 활용할 수 있음
● 심리상담 내담자의 정신질환 분류 활용
- 심리상담의 효과를 모니터링 하기위해, 정신질환 분류 모델을 활용하여 매 회기 내담자의 상태를 확인하거나, 종결 평가시 내담자의 상태를 확인하여 정신질환이 탐지되는지 확인할 수 있음
● 심리상담 회기 요약 활용
- 상담사는 진행한 심리상담에 대해 핵심 정보를 요약문으로 확인할 수 있어 내담자의 상태에 따른 상담 진행 관리 및 다음 회기 계획 수립에 활용할 수 있음 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 구성
1) 원천데이터 구성원천데이터 구성 1차 경로 2차 경로 3차 경로 파일 포맷 001.우울증 0001.1회기 00001.원천 음성 .mp3/.txt 00002.원천 텍스트 0002.2회기 00001.원천 음성 00002.원천 텍스트 … 002.불안장애 0001.1회기 00001.원천 음성 .mp3/.txt 00002.원천 텍스트 0002.2회기 00001.원천 음성 00002.원천 텍스트 … 003.중독 0001.1회기 00001.원천 음성 .mp3/.txt 00002.원천 텍스트 0002.2회기 00001.원천 음성 00002.원천 텍스트 … 004.일반군(대조군) 0001.1회기 00001.원천 음성 .mp3/.txt 00002.원천 텍스트 0002.2회기 00001.원천 음성 00002.원천 텍스트 … 2) 라벨링데이터 구성
라벨링데이터 구성 1차 경로 2차 경로 파일 포맷 001.우울증 0001.1회기 .json 0002.2회기 … 002.불안장애 0001.1회기 .json 0002.2회기 … 003.중독 0001.1회기 .json 0002.2회기 … 004.일반군(대조군) 0001.1회기 .json 0002.2회기 … 3) 폴더명 구성 정보
폴더명 구성 정보 경로 구분 정보 구분자 정보 1차 경로 질환 유형 구분 - depression - anxiety - addiction - normal 2차 경로 상담 회기 수 1 ~ 12 3차 경로 음성, 텍스트 구분 - mp3 - txt 4) 파일명 구성 정보
파일명 구성 정보 예시 세부 구성 설명 origin_anxiety_2_raw_X016.mp3 데이터종류_질환유형_상담회기_검수유무_내담자ID.확장자 label_anxiety_2_raw_X016.json 5) 클래스 분류
클래스 분류 1차 분류 2차 분류 질환군 우울증(depression) 불안장애(anxiety) 중독(addiction) 정상군 정상(normal) 2. 어노테이션 포맷
어노테이션 포맷 구분 속성명 타입 필수여부 설명 1 info Object 데이터셋 정보 1-1 filename string Y 데이터 파일명 1-2 id string Y 고유 식별 ID 1-3 age number Y 내담자 만 나이 1-4 gender string Y 내담자 성별 1-5 depression number Y 우울 정도 1-6 anxiety number Y 불안 정도 1-7 addiction number Y 중독 정도 1-8 class string Y 질환군 분류 정보 1-9 summary string N 요약문 1-10 silence number Y 침묵구간 총합 1-11 total_time number Y 총 상담시간 2 paragraph array 발화 문단 정보 2-1 index string Y 토큰 고유 ID 2-2 start_point string Y 토큰 시작시점 2-3 end_point string Y 토큰 종료시점 2-4 character_count string Y 토큰의 글자수 2-5 cps number Y 초당 글자 수 2-6 paragraph_speaker string Y 발화자 2-7 paragraph_text string Y 발화 내용 3 symptom_factor Object 증상요인 정보 3-1 depressive_mood number N 우울한 기분 3-2 worthlessness number N 무가치감 3-3 guilt number N 죄책감 3-4 impaired_cognition number N 사고력저하 3-5 suicidal number N 자살생각 3-6 anhedonia number N 흥미감소 3-7 psychomotor_changes number N 정신운동변화 3-8 weight_appetite number N 체중/식욕변화 3-9 sleep_disturbance number N 수면문제 3-10 fatigue number N 피로감 3-11 anxiety_mood number N 불안감 3-12 derealization number N 비현실감 3-13 perceived_loss_of_control number N 통제력상실감 3-14 anxiety_control number N 불안조절곤란 3-15 concentration number N 집중력저하 3-16 avoidance number N 사회적상황회피 3-17 physical_symptoms number N 신체증상 3-18 irritability number N 과민성 3-19 loss_of_control number N 조절실패 3-20 craving number N 갈망 3-21 lying number N 거짓말 3-22 tolerance number N 내성 3-23 withdrawal number N 금단 3-24 salience number N 현저성 3-25 resource_investment number N 자원투자 3-26 daily_functioning number N 자기관리(필수) 3-27 social_problems number N 사회적문제발생 3-28 negative_consequences number N 부정적 결과 4 risk_factor Object 위험요인 정보 4-1 trauma_experience number N 트라우마 경험 4-2 negative_self-image number N 부정적 자아상 4-3 emotional_regulation number N 정서조절능력 4-4 motivation_for_change number N 변화 동기 4-5 irrational_beliefs number N 비합리적 신념 4-6 unrealistic_recovery_expectations number N 비현실적 회복 기대 4-7 external_attribution number N 외부귀인 4-8 coping number N 대처전략 4-9 lifestyle number N 생활습관 4-10 family_history number N 가족력 4-11 underlying_physical_condition number N 기저질환 4-12 history_of_mental_illness number N 과거정신질환 4-13 stressful_event number N 스트레스 사건 4-14 social_support number N 사회적지지부족 4-15 social_resources number N 자원부족 4-16 reward_sensitivity number N 보상 민감 4-17 self_management number N 자기관리 4-18 social_norms number N 사회적 규범 4-19 accepting_attitude number N 수용적 태도 4-20 opportunity number N 중독 기회 5 symptom_change Object 개선요인 정보 5-1 emotional_change number N 정서적 변화 5-2 cognitive_change number N 인지적 변화 5-3 behavioral_change number N 행동적 변화 5-4 acceptance_change number N 수용적 변화 5-5 enhancement_of_motivation number N 변화동기증진 6 intervention_factor Object 개입요인 정보 6-1 sympathy_support number N 공감/지지 6-2 clarification_reflection number N 명료화/반영 6-3 cognitive_restructuring number N 인지 재구성 6-4 information_provision number N 정보제공 6-5 goal_setting number N 목표/계획 수립 6-6 process_feedback number N 과정 피드백 제공 6-7 behavioral_intervention number N 행동적 개입 6-8 task_assignment number N 과제부여 및 점검 6-9 training_of_coping_skills number N 대처기술 탐색,교육 6-10 emotional_regulation_education_training number N 정서조절 교육/훈련 6-11 structuring number N 구조화 3. 데이터 포맷
파일명 label_anxiety_2_check_X032 내담자ID X032 내담자 연령 47 내담자 성별 여 정신질환 유형 불안 문제 수준 중(2) 침묵시간 0초 전체 상담시간 3,932초 요약문 주요 증상: 내담자는 "초조하거나 불안하거나 조마조마하게 느낀다", "걱정하는 것을 멈추거나 조절할 수가 없다", "편하게 있기가 어렵다" 등의 발화에서 불안과 관련된 증상을 호소하고 있다. 또한, "잠들기가 어렵다", "자다가 자주 깬다"와 같은 발화에서 수면문제를 언급하며, "쉽게 짜증이 나거나 쉽게 성을 내게 된다"는 과민성을 나타내고 있다. 위험요인: 내담자는 "남편은 너무 태평하게 지내는 거예요", "이 사람은 정말 10원도 안 갖고 결혼을 했어요"와 같은 발화에서 남편의 무책임함과 경제적 어려움을 언급하며, "남편이 이직을 잘해서 남편이 벌어다 주는 걸로 그냥 저는 공부만 하고 싶은 거예요"라는 발화에서 경제적 자원 부족을 드러내고 있다. 개선요인: 내담자가 변화 동기 증진과 정서적 변화의 가능성을 보이고 있다. 내담자는 "저도 좀 마음의 여유를 갖고 사고의 좀 유연성도 좀 갖고"라는 발화에서 자신의 정서적 변화를 원하고 있으며, 변화 동기를 나타내고 있다. 이러한 발화들은 내담자가 자신의 상황을 개선하려는 의지를 가지고 있음을 보여준다. 상담사의 개입요인: 상담사는 "이런 상황에 더군다나 집까지 내놓을 정도면 좀 재정 상황에 좀 몰리는 듯한 느낌이 아닐까라는 생각이 들면 초조하고 불안한 게 당연한 정서죠"라는 발화에서 공감/지지 반응을 보이며, "책임"에 대한 내담자의 비합리적 신념과 관련한 인지 재구성을 시도하고 있다. Index 13 발화자 상담사 시작시간 42초 끝시간 64초 발화 글자 수 142 발화내용 그렇구나. 네. 혹시 이거부터 이번 점검을 한번 해 볼게요. 기준을 지난 상담 이후에 당신은 당신의 문제들로 인해서 얼마나 자주 방해를 받았습니까? 지난 상담 이후 기준으로 체크를 하시면 되고요. 지난번처럼 읽으면서 몇 점 이렇게 체크를 해 주시면 돼요. 4. 실제 예시
{ "filename": "label_anxiety_5_check_X003",
"id": "X003",
"age": 50,
"gender": "남",
"depression": 0,
"anxiety": 2,
"addiction": 0,
"class": "ANXIETY",
"summary": "주요 증상: 내담자는 아들의 미래에 대한 걱정으로 인해 잠을 잘 이루지 못하고, 사소한 일에도 짜증이 나며, 불안한 마음이 있다고 표현했다. 이러한 증상들은 내담자가 일상생활에서 느끼는 불안과 스트레스를 반영하고 있다.\n\n위험 요인: 내담자는 아들의 행동에 대한 불안과 분노를 표현하며, 자신의 감정을 조절하는 데 어려움을 겪고 있다. 또한, 집안일을 하면서 짜증이 나고, 아들의 미래에 대한 걱정으로 스트레스를 받고 있다.\n\n개선 요인: 내담자는 아들과의 관계에서 내려놓을 것은 내려놓고, 아들을 응원하고 지지하려는 태도를 보이며, 자신의 감정을 인지하고 조절하려고 노력하고 있다. 또한, 상담을 통해 자신의 감정을 표현하고, 불안을 해소하려고 하는 모습을 보인다.\n\n상담사의 개입 요인: 상담사는 내담자의 감정을 이해하고 지지하며, 내담자가 자신의 감정을 인지하고 조절할 수 있도록 돕고 있다. 또한, 내담자가 아들과의 관계에서 긍정적인 변화를 이끌어낼 수 있도록 변화 동기를 촉진하고, 구체적인 목표와 계획을 수립하도록 지원하고 있다.",
"silence": 42.18,
"total_time": 4241,
"paragraph": [
{
"start_point": 0,
"end_point": 40,
"character_count": 233,
"cps": 6,
"paragraph_speaker": "상담사",
"paragraph_text": "오늘 저희 다섯 번째 맞죠? 다섯 번째 시간 상담을 시작해 보려고 합니다. 사전 검사지에 오늘 2번, 3번, 5번에 1점을 주셨네요. 요 며칠 동안 이런 생각들이 드셨다는 건데 좀 계속 같은 생각들이 머물고 계신다는 의미겠죠? 2번에 걱정하는 것을 멈추거나 조절할 수가 없다에 1점을 주셨고 이 부분은 혹시 특히 많이 생각나는 부분들이 뭘까요? 지난번에 말씀하셨던 아드님에 관한 일일까요? 다른 부분이 또 있으실까요?",
"anxiety_mood": 0,
"derealization": 0,
"perceived_loss_of_control": 0,
"anxiety_control": 0,
"concentration": 0,
"avoidance": 0,
"physical_symptoms": 0,
"fatigue": 0,
"irritability": 0,
"sleep_disturbance": 0,
"trauma_experience": 0, -
데이터셋 구축 담당자
수행기관(주관) : ㈜안드레이아
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김성훈 02-2039-8273 contact@andreia.kr 사업 총괄, 데이터 수집, 검수 수행기관(참여)
수행기관(참여) 기관명 담당업무 가톨릭대학교 산학협력단 품질 검수 ㈜소리를보는통로 데이터 가공, AI 학습모델 개발 ㈜코리아리서치인터내셔널 데이터 수집관리 한국침례신학대학교 데이터 가공, 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김성훈 02-2039-8273 shkim@andreia.kr 김에스더 02-2039-8273 estkim@andreia.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 김에스더 02-2039-8273 estkim@andreia.kr 윤지현 02-1600-3713 jhyoon@sovoro.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 김성훈 02-2039-8273 shkim@andreia.kr 김에스더 02-2039-8273 estkim@andreia.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.