AI-Hub

#자연어 #음성 #헬스케어 건강서비스

BETA 심리상담 데이터

분야헬스케어
유형 텍스트
생성 방식LLM

구축년도 : 2024 갱신년월 : 2025-04 조회수 : 59 다운로드 : 3 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2025-04-30	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2025-04-30	산출물 전체 공개

소개

우울증, 불안장애, 중독 등 정신질환자를 대상으로 구조화된 심리상담 프로토콜을 활용해 수집된 1,661시간의 음성데이터와 이를 전사한 40만 토큰 이상의 텍스트로 구성된 학습용 데이터셋

구축목적

우울증, 불안장애, 중독 등 정신질환을 판별하고 관리할 수 있는 학습용 심리상담 데이터 구축을 목적으로함

메타데이터 구조표
데이터 영역	헬스케어	데이터 유형	텍스트
데이터 형식	mp3, txt	데이터 출처	자체 수집
라벨링 유형	내용평가(텍스트)	라벨링 형식	json
데이터 활용 서비스	심리상담 지원 툴 제공 (심리상담 결과를 활용한 내담자의 정신질환 분류, 상담 대화 분석 및 요약 서비스 제공)	데이터 구축년도/ 데이터 구축량	2024년/1,661건

1. 데이터 구축 규모 및 데이터 분포

데이터 구축 규모 및 데이터 분포
정신질환 유형	원천데이터 규모			라벨링 데이터 규모
정신질환 유형	파일포맷	수량	비율	파일포맷	수량	비율
우울증	mp3/txt	484	29.14	json	137,196	29.47
불안장애		487	29.32		130,349	28
중독		448	26.97		127,905	27.48
일반군		242	14.57		70,024	15.04
합계		1,661	100		465,474	100

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드
1. 모델 학습

1) 대화 분석을 통한 심리 질환의 판별
● 임무 유형: 분류
● 학습모델: KlueBERT (Korean Language Understanding Evaluation BERT)
● 모델 설명: Kluebert 모델을 기반으로 상담기록 (string) 에 대하여 우울/중독/불안 정신질환에 대한 0/1의 예측 값을 도출하는 모델
● Input and Output
- Input : (string) 상담자와 내담자의 발화자 구분 표시가 되어 있는 상담내용 스크립트
  - Output : (int) 0 또는 1의 예측값으로서, 정신질환의 유무를 나타냄
● Task: 상담 후 녹취된 스크립트 데이터를 바탕으로 우울/중독/불안 정신질환의 위험도를 자동으로 예측하는 분류 작업을 수행

2) 대화 분석을 통한 심리상담 요약보고서 생성
● 임무 유형: 생성
● 학습모델: Koalpaca 4bit 모델 ("EleutherAI/polyglot-ko-12.8b") 기반으로 추가 학습 진행
● 모델 설명: Koalpaca 4bit 모델 ("EleutherAI/polyglot-ko-12.8b")을 기반으로 상담기록 (string) 에 대하여 요약보고서를 생성하는 모델
● Input and Output
  - Input : (string) 상담자와 내담자의 발화자 구분 표시가 되어 있는 상담내용 스크립트
  - Output : (string) 요약보고서 텍스트
● Task: 상담 후 녹취된 스크립트 데이터를 바탕으로 주요 증상, 위험요인, 개선 요인, 상담사의 개입 요인 등을 담은 요약보고서를 생성

2. LLM 의 Hallucination 방지를 위한 보완 조치
● koaplaca 를 이용한 상담데이터 요약문 작성 모델에서 Hallucination (환각, 엉뚱한 말의 생성) 을 방지하기 위해 아래와 같이 조치함

1) 일관되며 정형화된 (사람이 만든) 요약문 데이터의 활용
● 심리상담 분야에 자격을 갖춘 데이터 메이커들이 상담데이터에 대해서 일관되며 정형화된 규칙과 구조의 요약문을 생성하였고, 그 텍스트를 기반으로 output 을 내도록 학습을 설계함. 500 step 을 거치며 해당 데이터를 학습한 AI가 생성한 텍스트도 이에 따라 "주요 증상, 위험 요인, 개선 요인, 개입요인"으로 구조화 되어 관련 내용을 정확히 담을 수 있도록 학습 수행.

2) prompt 변경 실험 수행
● 학습된 텍스트는 명령어, 맥락, 답변으로 구성되어 있으며 이 중에서 명령어 프롬프트를 정확하고 명료한 텍스트로 구성하기 위해 여러가지 실험 수행. "다음과 같은 상담기록을 보고 요약서를 작성해주세요." 로 결정되었음.

3) 생성된 텍스트의 후가공 조치 (post processing) 를 통한 최종 텍스트 도출
● <|endoftext|>, <|sep|> 등의 분리 기능을 수행하는 인자를 포함하여 텍스트를 학습하였으며, 생성되는 1차적인 텍스트에서 후가공을 통해 추가적인 환각 텍스트를 더 생성하지 않도록 조정함.

4) 비식별화 조치
● 텍스트 내에서 민감 정보나 이름, 주소 등이 노출되지 않도록 데이터 제작 과정에서부터 철저한 비식별화조치가 수행되었고, 이에 따라 AI 가 생성한 텍스트에서도 이름 등이 @NAME 으로 대체 표기 되어 요약문을 만든 것을 확인할 수 있음.

3. 서비스 활용 시나리오
● 구축한 모델은 내담자의 정신질환 분류, 상담 대화 분석 및 요약서비스 등 심리상담 지원 툴 개발에 활용할 수 있음
● 심리상담 내담자의 정신질환 분류 활용
  - 심리상담의 효과를 모니터링 하기위해, 정신질환 분류 모델을 활용하여 매 회기 내담자의 상태를 확인하거나, 종결 평가시 내담자의 상태를 확인하여 정신질환이 탐지되는지 확인할 수 있음
● 심리상담 회기 요약 활용
  - 상담사는 진행한 심리상담에 대해 핵심 정보를 요약문으로 확인할 수 있어 내담자의 상태에 따른 상담 진행 관리 및 다음 회기 계획 수립에 활용할 수 있음

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

1. 데이터 구성
1) 원천데이터 구성

원천데이터 구성
1차 경로	2차 경로	3차 경로	파일 포맷
001.우울증	0001.1회기	00001.원천 음성	.mp3/.txt
	0001.1회기	00002.원천 텍스트
	0002.2회기	00001.원천 음성
	0002.2회기	00002.원천 텍스트
	…
002.불안장애	0001.1회기	00001.원천 음성	.mp3/.txt
	0001.1회기	00002.원천 텍스트
	0002.2회기	00001.원천 음성
	0002.2회기	00002.원천 텍스트
	…
003.중독	0001.1회기	00001.원천 음성	.mp3/.txt
	0001.1회기	00002.원천 텍스트
	0002.2회기	00001.원천 음성
	0002.2회기	00002.원천 텍스트
	…
004.일반군(대조군)	0001.1회기	00001.원천 음성	.mp3/.txt
	0001.1회기	00002.원천 텍스트
	0002.2회기	00001.원천 음성
	0002.2회기	00002.원천 텍스트
	…

2) 라벨링데이터 구성

라벨링데이터 구성
1차 경로	2차 경로	파일 포맷
001.우울증	0001.1회기	.json
	0002.2회기
	…
002.불안장애	0001.1회기	.json
	0002.2회기
	…
003.중독	0001.1회기	.json
	0002.2회기
	…
004.일반군(대조군)	0001.1회기	.json
	0002.2회기
	…

3) 폴더명 구성 정보

폴더명 구성 정보
경로 구분 정보		구분자 정보
1차 경로	질환 유형 구분	- depression
		- anxiety
		- addiction
		- normal
2차 경로	상담 회기 수	1 ~ 12
3차 경로	음성, 텍스트 구분	- mp3
3차 경로	음성, 텍스트 구분	- txt

4) 파일명 구성 정보

파일명 구성 정보
예시	세부 구성 설명
origin_anxiety_2_raw_X016.mp3	데이터종류_질환유형_상담회기_검수유무_내담자ID.확장자
label_anxiety_2_raw_X016.json	데이터종류_질환유형_상담회기_검수유무_내담자ID.확장자

5) 클래스 분류

클래스 분류
1차 분류	2차 분류
질환군	우울증(depression)
	불안장애(anxiety)
	중독(addiction)
정상군	정상(normal)

2. 어노테이션 포맷

어노테이션 포맷
구분		속성명	타입	필수여부	설명
1		info	Object		데이터셋 정보
	1-1	filename	string	Y	데이터 파일명
	1-2	id	string	Y	고유 식별 ID
	1-3	age	number	Y	내담자 만 나이
	1-4	gender	string	Y	내담자 성별
	1-5	depression	number	Y	우울 정도
	1-6	anxiety	number	Y	불안 정도
	1-7	addiction	number	Y	중독 정도
	1-8	class	string	Y	질환군 분류 정보
	1-9	summary	string	N	요약문
	1-10	silence	number	Y	침묵구간 총합
	1-11	total_time	number	Y	총 상담시간
2		paragraph	array		발화 문단 정보
	2-1	index	string	Y	토큰 고유 ID
	2-2	start_point	string	Y	토큰 시작시점
	2-3	end_point	string	Y	토큰 종료시점
	2-4	character_count	string	Y	토큰의 글자수
	2-5	cps	number	Y	초당 글자 수
	2-6	paragraph_speaker	string	Y	발화자
	2-7	paragraph_text	string	Y	발화 내용
3		symptom_factor	Object		증상요인 정보
	3-1	depressive_mood	number	N	우울한 기분
	3-2	worthlessness	number	N	무가치감
	3-3	guilt	number	N	죄책감
	3-4	impaired_cognition	number	N	사고력저하
	3-5	suicidal	number	N	자살생각
	3-6	anhedonia	number	N	흥미감소
	3-7	psychomotor_changes	number	N	정신운동변화
	3-8	weight_appetite	number	N	체중/식욕변화
	3-9	sleep_disturbance	number	N	수면문제
	3-10	fatigue	number	N	피로감
	3-11	anxiety_mood	number	N	불안감
	3-12	derealization	number	N	비현실감
	3-13	perceived_loss_of_control	number	N	통제력상실감
	3-14	anxiety_control	number	N	불안조절곤란
	3-15	concentration	number	N	집중력저하
	3-16	avoidance	number	N	사회적상황회피
	3-17	physical_symptoms	number	N	신체증상
	3-18	irritability	number	N	과민성
	3-19	loss_of_control	number	N	조절실패
	3-20	craving	number	N	갈망
	3-21	lying	number	N	거짓말
	3-22	tolerance	number	N	내성
	3-23	withdrawal	number	N	금단
	3-24	salience	number	N	현저성
	3-25	resource_investment	number	N	자원투자
	3-26	daily_functioning	number	N	자기관리(필수)
	3-27	social_problems	number	N	사회적문제발생
	3-28	negative_consequences	number	N	부정적 결과
4		risk_factor	Object		위험요인 정보
	4-1	trauma_experience	number	N	트라우마 경험
	4-2	negative_self-image	number	N	부정적 자아상
	4-3	emotional_regulation	number	N	정서조절능력
	4-4	motivation_for_change	number	N	변화 동기
	4-5	irrational_beliefs	number	N	비합리적 신념
	4-6	unrealistic_recovery_expectations	number	N	비현실적 회복 기대
	4-7	external_attribution	number	N	외부귀인
	4-8	coping	number	N	대처전략
	4-9	lifestyle	number	N	생활습관
	4-10	family_history	number	N	가족력
	4-11	underlying_physical_condition	number	N	기저질환
	4-12	history_of_mental_illness	number	N	과거정신질환
	4-13	stressful_event	number	N	스트레스 사건
	4-14	social_support	number	N	사회적지지부족
	4-15	social_resources	number	N	자원부족
	4-16	reward_sensitivity	number	N	보상 민감
	4-17	self_management	number	N	자기관리
	4-18	social_norms	number	N	사회적 규범
	4-19	accepting_attitude	number	N	수용적 태도
	4-20	opportunity	number	N	중독 기회
5		symptom_change	Object		개선요인 정보
	5-1	emotional_change	number	N	정서적 변화
	5-2	cognitive_change	number	N	인지적 변화
	5-3	behavioral_change	number	N	행동적 변화
	5-4	acceptance_change	number	N	수용적 변화
	5-5	enhancement_of_motivation	number	N	변화동기증진
6		intervention_factor	Object		개입요인 정보
	6-1	sympathy_support	number	N	공감/지지
	6-2	clarification_reflection	number	N	명료화/반영
	6-3	cognitive_restructuring	number	N	인지 재구성
	6-4	information_provision	number	N	정보제공
	6-5	goal_setting	number	N	목표/계획 수립
	6-6	process_feedback	number	N	과정 피드백 제공
	6-7	behavioral_intervention	number	N	행동적 개입
	6-8	task_assignment	number	N	과제부여 및 점검
	6-9	training_of_coping_skills	number	N	대처기술 탐색,교육
	6-10	emotional_regulation_education_training	number	N	정서조절 교육/훈련
	6-11	structuring	number	N	구조화

3. 데이터 포맷

파일명
label_anxiety_2_check_X032
내담자ID	X032
내담자 연령	47
내담자 성별	여
정신질환 유형	불안
문제 수준	중(2)
침묵시간	0초
전체 상담시간	3,932초
요약문
주요 증상: 내담자는 "초조하거나 불안하거나 조마조마하게 느낀다", "걱정하는 것을 멈추거나 조절할 수가 없다", "편하게 있기가 어렵다" 등의 발화에서 불안과 관련된 증상을 호소하고 있다. 또한, "잠들기가 어렵다", "자다가 자주 깬다"와 같은 발화에서 수면문제를 언급하며, "쉽게 짜증이 나거나 쉽게 성을 내게 된다"는 과민성을 나타내고 있다.
위험요인: 내담자는 "남편은 너무 태평하게 지내는 거예요", "이 사람은 정말 10원도 안 갖고 결혼을 했어요"와 같은 발화에서 남편의 무책임함과 경제적 어려움을 언급하며, "남편이 이직을 잘해서 남편이 벌어다 주는 걸로 그냥 저는 공부만 하고 싶은 거예요"라는 발화에서 경제적 자원 부족을 드러내고 있다.
개선요인: 내담자가 변화 동기 증진과 정서적 변화의 가능성을 보이고 있다. 내담자는 "저도 좀 마음의 여유를 갖고 사고의 좀 유연성도 좀 갖고"라는 발화에서 자신의 정서적 변화를 원하고 있으며, 변화 동기를 나타내고 있다. 이러한 발화들은 내담자가 자신의 상황을 개선하려는 의지를 가지고 있음을 보여준다.
상담사의 개입요인: 상담사는 "이런 상황에 더군다나 집까지 내놓을 정도면 좀 재정 상황에 좀 몰리는 듯한 느낌이 아닐까라는 생각이 들면 초조하고 불안한 게 당연한 정서죠"라는 발화에서 공감/지지 반응을 보이며, "책임"에 대한 내담자의 비합리적 신념과 관련한 인지 재구성을 시도하고 있다.
Index	13
발화자	상담사
시작시간	42초
끝시간	64초
발화 글자 수	142
발화내용
그렇구나. 네. 혹시 이거부터 이번 점검을 한번 해 볼게요. 기준을 지난 상담 이후에 당신은 당신의 문제들로 인해서 얼마나 자주 방해를 받았습니까? 지난 상담 이후 기준으로 체크를 하시면 되고요. 지난번처럼 읽으면서 몇 점 이렇게 체크를 해 주시면 돼요.

4. 실제 예시

{ "filename": "label_anxiety_5_check_X003",
"id": "X003",
"age": 50,
"gender": "남",
"depression": 0,
"anxiety": 2,
"addiction": 0,
"class": "ANXIETY",
"summary": "주요 증상: 내담자는 아들의 미래에 대한 걱정으로 인해 잠을 잘 이루지 못하고, 사소한 일에도 짜증이 나며, 불안한 마음이 있다고 표현했다. 이러한 증상들은 내담자가 일상생활에서 느끼는 불안과 스트레스를 반영하고 있다.\n\n위험 요인: 내담자는 아들의 행동에 대한 불안과 분노를 표현하며, 자신의 감정을 조절하는 데 어려움을 겪고 있다. 또한, 집안일을 하면서 짜증이 나고, 아들의 미래에 대한 걱정으로 스트레스를 받고 있다.\n\n개선 요인: 내담자는 아들과의 관계에서 내려놓을 것은 내려놓고, 아들을 응원하고 지지하려는 태도를 보이며, 자신의 감정을 인지하고 조절하려고 노력하고 있다. 또한, 상담을 통해 자신의 감정을 표현하고, 불안을 해소하려고 하는 모습을 보인다.\n\n상담사의 개입 요인: 상담사는 내담자의 감정을 이해하고 지지하며, 내담자가 자신의 감정을 인지하고 조절할 수 있도록 돕고 있다. 또한, 내담자가 아들과의 관계에서 긍정적인 변화를 이끌어낼 수 있도록 변화 동기를 촉진하고, 구체적인 목표와 계획을 수립하도록 지원하고 있다.",
"silence": 42.18,
"total_time": 4241,
"paragraph": [
{
"start_point": 0,
"end_point": 40,
"character_count": 233,
"cps": 6,
"paragraph_speaker": "상담사",
"paragraph_text": "오늘 저희 다섯 번째 맞죠? 다섯 번째 시간 상담을 시작해 보려고 합니다. 사전 검사지에 오늘 2번, 3번, 5번에 1점을 주셨네요. 요 며칠 동안 이런 생각들이 드셨다는 건데 좀 계속 같은 생각들이 머물고 계신다는 의미겠죠? 2번에 걱정하는 것을 멈추거나 조절할 수가 없다에 1점을 주셨고 이 부분은 혹시 특히 많이 생각나는 부분들이 뭘까요? 지난번에 말씀하셨던 아드님에 관한 일일까요? 다른 부분이 또 있으실까요?",
"anxiety_mood": 0,
"derealization": 0,
"perceived_loss_of_control": 0,
"anxiety_control": 0,
"concentration": 0,
"avoidance": 0,
"physical_symptoms": 0,
"fatigue": 0,
"irritability": 0,
"sleep_disturbance": 0,
"trauma_experience": 0,

데이터셋 구축 담당자

수행기관(주관) : ㈜안드레이아

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
김성훈	02-2039-8273	contact@andreia.kr	사업 총괄, 데이터 수집, 검수

수행기관(참여)

수행기관(참여)
기관명	담당업무
가톨릭대학교 산학협력단	품질 검수
㈜소리를보는통로	데이터 가공, AI 학습모델 개발
㈜코리아리서치인터내셔널	데이터 수집관리
한국침례신학대학교	데이터 가공, 검수

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
김성훈	02-2039-8273	shkim@andreia.kr
김에스더	02-2039-8273	estkim@andreia.kr

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
김에스더	02-2039-8273	estkim@andreia.kr
윤지현	02-1600-3713	jhyoon@sovoro.kr

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
김성훈	02-2039-8273	shkim@andreia.kr
김에스더	02-2039-8273	estkim@andreia.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의