AI-Hub

본 데이터는

온라인 안심존 데이터

※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석

입니다.

#의료용 AI학습데이터 # 대학 # 병원 # 의료상담

의료 분야 음성 데이터

분야헬스케어
구분 안심존(온라인)
유형 오디오 , 텍스트

구축년도 : 2021 갱신년월 : 2022-07 조회수 : 8,353 다운로드 : 30

소개 이용신청

※ 내국인만 데이터 신청이 가능합니다.

데이터 토론 문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2022-07-29	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2022-07-29	콘텐츠 최초 등록

소개

의료분야 음성 데이터는 환자 진료 및 의료상담 실데이터를 진료분야, 상담 내용 등의 세분화 및 라벨링 작업을 통하여 구축

구축목적

충청북도 스마트 시티 챌린지 사업 중 의료분야 스마트화 실현화를 위하여 응급의료시스템과 비대면 의료 및 초기 의료 상담시스템에 AI 도입을 위한 학습용 의학 음성 데이터 구축

메타데이터 구조표
데이터 영역	헬스케어	데이터 유형	오디오 , 텍스트
데이터 형식	TXT, WAV, M4A	데이터 출처	전화 통화 및 의료 상담 녹음
라벨링 유형	진료 주제/ 화자 구성/ 크기(글자 수, 단어 수)/형태소 분석 데이터(자연어)/ 화행/ 등	라벨링 형식	JSON
데이터 활용 서비스	챗봇	데이터 구축년도/ 데이터 구축량	2021년/74,943개

데이터 통계

데이터 통계
데이터 도메인	수집 시간	파일개수(예상)	제공 방식
환자 진료 데이터	100시간	약 1,200개 (회당 약 1분 분량)	wav 음원 txt 전사파일 json 메타파일


119 응급센터 데이터	300시간	10만 문장	txt 전사파일 json 메타파일
콜센터 상담 데이터	600시간


총 합계	1,000시간

A. 진료 음성 데이터

분류	주제	데이터구축량 (시간)
내과	내분비내과	100시간
	심장내과
	알레르기내과
	호흡기내과
	류마티스내과
외과	간담췌외과
	흉부외과
기타	재활의학과

B. 상담 텍스트 데이터

분류	주제	데이터구축량 (시간)

119	신경학적 응급	900시간 (10만 문장)
	심혈관계 응급
	중독 및 대사장애
	외과적 응급증상
	출혈
콜센터	기타
	예약
	변경
	일반상담
	기타

의료 분야 음성 데이터-데이터 통계_1

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드
활용 모델
- AI 챗봇 서비스
  - Built-in ML 알고리즘, 3RD Party 알고리즘과 프레임워크를 제공하여 고객의 적용 업무에 따라 다양하게 활용할 수 있도록 지원함. 특히 청각 장애인 경우 채팅을 메신저를 통한 서비스에 활용 가능
  
  [AI서비스 스택 및 ML 프레임워크]
  - AI 엔진은 자연어 처리(NLP)를 위한 형태소 분석, 용어사전, Woed2Vec 등의 요소기술을 통하여 이용자의 질문의도를 파악하고 서비스하기 위한 기술적인 구조(Architecture)를 가지고 있으며 Pnp 아키텍처 기반으로 필요한 채팅 서비스를 확장하여 활용 가능
  
  [AI서비스 모델링을 위한 아키텍쳐]
  - 상담사 지원 서비스로 의료 서비스 상담시 자동으로 상담내용 분석을 통한 상담사 질의답변 대응을 위한 상담사 지원 서비스에 활용 가능
  
  [상담사 지원 서비스 예]

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	진료 음성 STT 변환 모델	Speech Recognition	Seq2Seq & LSTM 기반 Transformer	CER	20 %	15.41 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

1. 데이터셋 구성

2. 데이터셋 계층 구조

3. 메타데이터 포맷

1. 데이터셋 구성
구분				항목명	타입	필수여부	설명	범위	비고
1				dataset			데이터셋 라벨 정보
	1-1			identifier	number	M	데이터셋 식별자
	1-2			name	string	O	데이터셋 명
	1-3			src_path	string	M	데이터셋 폴더 위치
	1-4			label_path	string	M	데이터셋 레이블 폴더 위치
	1-5			category	number	O	데이터셋 분류
	1-6			type	number	O	데이터셋 타입
2				licenses			라이선스 라벨 정보
	2-1			name	string	M	라이선스명
	2-2			url	string	M	문서 식별자
3				info[]			원시 데이터 라벨 정보
	3-1			id	number	M	원시 데이터 고유번호
	3-2			filename	string	M	원시 데이터 파일명	작업파일명.확장자	파일명규칙
	3-3			title	string	O	원시 데이터 제목	작업 파일명
	3-4			mediatype	string	O	매체유형
	3-5			medianame	string	M	데이터 매체(수집)	진료실, 전화상담, 기타
	3-6			category	string	M	원시 데이터 카테고리	진료상담	주제별
	3-7			date	string	M	수집일자	YYYY-MM-DD
	3-8			size	number	M	원시 데이터 크기(글자수)
	3-9			annotations[]			원천데이터별 라벨링정보
		3-9-1		subject	string	M	진료 주제	내분비내과, 심장내과, 알레르기내과, 호흡기내과, 류마티스내과, 간담췌외과, 흉부외과, 재활의학과, 신경학적 응급, 심혈관계 응급, 중독 및 대사장애, 외과적 응급증상, 출혈, 기타, 예약, 변경, 일반 상담, 기타
		3-9-2		speaker_type	string	M	화자 구성	1명, 2명, 3명, 4명, N명
		3-9-3		size	number	M	크기(글자수)
		3-9-4		word_size	number	M	크기(단어수)
		3-9-5		lines[]			문장별 정보
			3-9-5-1	id	number	M	문장 번호
			3-9-5-2	text	string	M	문장 내용
			3-9-5-3	norm_text	string	M	정제된 문장내용
			3-9-5-4	speaker			화자 정보
			3-9-5-4-1	id	number	O	화자 식별정보
				sex	string	O	화자의 성별	남, 녀, 모름
				age	string	O	화자의 연령대	소아, 청소년, 청년, 중년, 장년, 노령
			3-9-5-5	speechAct	string	O	화행	단언 질문하기, 단언 주장하기, 단언 진술하기, 단언 반박하기, 지시 설명하기, 지시 충고/제안하기, 지시 명령/요구하기, 지시 부탁하기, 언약 약속하기, 언약 위협하기, 언약 거절하기, 표현 인사하기, 표현 감사하기, 표현 사과하기, 표현 울움/슬퍼하기, 표현 웃음/즐거워하기, 표현 긍정 표현하기, 표현 부정 표현하기, 기타 관습적 표현, 기타 미정의












			3-9-5-6	morpheme	string	M	형태소 분석데이터

4. 샘플

의료 분야 음성 데이터-샘플_1

데이터셋 구축 담당자

수행기관(주관) : 충북대학교 산학협력단

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
엽경은	043-262-9030	gy10060624@gmail.com	· 데이터 수집 및 과제관리 총괄

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜제너럴이노베이션즈	· 데이터 설계 및 가공
㈜퀀텀웨이브	· 데이터 설계 및 AI학습모델 구현
남서울대학교	· 데이터 설계 및 데이터 검수 등
충청북도청	· 데이터 설계

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
엽경은	043-262-9030	gy10060624@gmail.com

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

연관 데이터

전립선암 진단 의료 영상

캡슐내시경 AI데이터

구강악 2D·3D 이미지

구강 질환 진단 의료 영상

뇌혈관 질환 진단 의료 영상

갑상선암 진단 의료 영상

6개암 최소침습수술 AI학습데이터

흉부 청진음 데이터

의료 분야 음성 데이터

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

데이터 성능 지표

데이터 성능 점수

데이터 성능 지표

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

구축 업체

데이터셋 구축 담당자

수행기관(주관) : 충북대학교 산학협력단

수행기관(참여)

데이터 관련 문의처

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

연관 데이터