AI-Hub

#연령대별 특징적 발화 # 은어 # 속어 # 신조어 # 줄임말 # 음성 #음성

연령대별 특징적 발화(은어·속어 등) 음성 데이터

분야한국어
유형 오디오

구축년도 : 2022 갱신년월 : 2024-03 조회수 : 12,782 다운로드 : 3,668 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2024-03-12	데이터 최종 개방
1.0	2023-07-31	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2025-05-08	구축업체정보 수정
2024-01-10	산출물 전체 공개
2024-01-05	Sample 파일 공개
2023-11-10	데이터설명서, 구축활용가이드, 교육활용동영상 공개

소개

문맥 이해 및 인식 성능개선을 위해 다양한 연령대별 특징적 발화(은어·속어 등) 음성 데이터를 수집/정제/가공하여 인공지능(AI) 학습용 데이터셋 구축
이때 학습 데이터셋은 녹음한 음성 파일이며, 전사데이터는 txt 기반의 데이터 셋 목록 및 메타 정보로 구성됨.

구축목적

다양한 연령대별 은어, 속어의 음성 인공지능의 성능 개선 및 특징적 단어(은어, 속어 등)의 이해를 통한 음성인식 성능 향상 기술 개발을 목표로 하며, 다양한 산업 분야에서 인공지능 비서, 녹취록 작성, 통역 등 음성 인식이 활용될 수 있는 다양한 분야에서 활용하도록 함

메타데이터 구조표
데이터 영역	한국어	데이터 유형	오디오
데이터 형식	*.wav	데이터 출처	자체 수집
라벨링 유형	전사(음성)	라벨링 형식	JSON, SRT
데이터 활용 서비스	구어체 음성 인식서비스, 상담 서비스, 디지털 휴먼 챗본 서비스	데이터 구축년도/ 데이터 구축량	2022년/3,000시간 이상의 특징적 발화(은어·속어 등) 음성데이터 구축

<데이터 구축 규모>
총 3000 시간 구축

데이터 구축 규모
클래스 분류		총구축 시간	비율
10대	게임	61.5	20.50%	10%
	SNS	82.5	27.50%
	교육	70.5	23.40%
	일상	85.5	28.50%
20대	군대	149.8	12.80%	39%
	연애결혼	165	14.10%
	직장	105.3	9.00%
	SNS	200.1	17.10%
	음식	131	11.20%
	일상	418.9	35.80%
30대	직장	134.2	17.20%	26%
	주거	93.6	12.00%
	경제	88.1	11.40%
	연애결혼	107.6	13.80%
	일상	356.5	45.70%
40대	가족	94.6	20.90%	15%
	주거	76.5	17.00%
	경제	87.3	19.40%
	일상	191.6	42.60%
50대이상	여가	122.1	40.70%	10%
50대이상	일상	177.9	59.30%	10%
합계		3,000	100%

<데이터 분포>
특징적 발화 분포 : 은어, 속어 , 유행어, 줄임말

데이터 분포
단어유형	비율
은어	27.24%
속어	16.12%
유행어	12.28%
줄임말	44.36%
소계	100%

화자의 지역 분포 : 수도권, 강원 , 충청, 전라, 경상

화자의 지역 분포
지역	비율
수도권	58.64%
강원	8.21%
충청	9.40%
전라	8.11%
경상	15.64%
소계	100%

감정 분포 : 긍정, 부정, 중립

감정 분포
감정	비율
긍정	21.32%
부정	26.76%
중립	51.92%
소계	100%

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드

<모델학습>
음성인식 모델 및 문장정확도 모델 학습을 위한 데이터는 전체 3000시간에 해당하며 각각 연령대별, 주제별로 분류되어 있으며 단어 150시간(5%), 문장 900시간(30%), 대화 1,950시간(65%)으로 구성하였다. 학습 시 검증용 음성데이터 및 말뭉치와 시험용 음성데이터 및 말뭉치를 모두 전체의 10%로 제시한다.

<서비스 활용 시나리오>
· 구축한 모델은 은어·속어 이해가 필요한 업무에 활용할 수 있다.
- 은어/속어 필터링 챗봇에 활용
- 은어/속어 순화어 변경 서비스에 활용

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	문장정확도	Machine Translation	mBART	BLEU	0.6 점	0.869 점
2	음성인식	Speech Recognition	wav2vec 2.0	CER	20 %	13 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

<데이터 설명>
2000명 이상의 성별, 연령대별, 화자 모집으로 다양한 원시데이터로 부터 정제작업 하여 적합 원천 데이터를을 추출하여 저작도구를 활용하여 정제된 원천데이터를 전사(음성)작업 및 메타데이터를 적용한 데이터셋으로, 데이터의 다양성을 추구하며 정제 작업시 음량, 발음의 정확성, 소음 및 잡음, 개인정보, 저작권, 그 밖의 데이터 구축 목적 부합성 등의 요소 문제를 완전히 해결한 데이터
데이터 설명

<데이터 포맷>

데이터 포맷

데이터 포맷
공정구분	파일 종류	파일 설명	비고
수집	*.wav	음성 데이터 파일	원시데이터
	*.txt	전사텍스트 파일
	*.txt	환경정보(플랫폼등록)
정제	*.wav	음성 데이터 파일	원천데이터
	*.txt	전사텍스트 파일
	DB	환경정보파일
가공	*.wav	음성 데이터 파일	가공데이터
	*.srt	전사텍스트 파일
	*.Json	속성정보파일
학습	*.wav	음성 데이터 파일	학습데이터
학습	*.Json	속성정보파일	학습데이터

<어노테이션 포맷>

어노테이션 포맷
No	항목명		길이	타입	필수
No	한글명	영문명	길이	타입	여부
1	데이터셋	DataSet	100	String	Y
2	데이터셋 버전	Version	3	String	Y
3	녹음날짜	Date	8	String	Y
4	녹취된 음원의URL	MediaUrl	1000	String	Y
5	연령대분류	Category	100	String	Y
6	주제별 분류	Subcategory	100	String	Y
7	발화장소	DialogPlace	100	String	Y
8	대화방식	DialogVoiceType	100	String	Y
9	화자수	SpeakerNumber	1	String	Y
10	녹음장비	RecDevice	100	String	Y
11	전체 녹음시간(초)	RecLen	600	number	Y
12	오디오레졸류션	AudioResolution	2	Object	Y
12-1	비트심도	BitDepth	100	String	Y
12-2	샘플속도	SampleRate	100	String	Y
13	화자 정보 (화자 목록)	Speakers		Array	Y
13	화자 정보 (화자 목록)	Speakers		Array	Y
13-1	화자코드	Speaker	4	String	Y
13-2	성별	Gender	4	String	Y
13-3	지역	Locate	100	String	Y
13-4	화자연령대	Agegroup	10	String	Y
14	전사 데이터 목록 (대화 목록)	Dialogs		Array	Y
14	전사 데이터 목록 (대화 목록)	Dialogs		Array	Y
14-1	화자코드	Speaker	4	String	Y
14-2	은어 속어가 포함된 발화문장	Speakertext	65535	String	Y
14-3	은어 속어를 풀어쓴 발화문장	TextConvert	65535	String	Y
14-4	발화 시작 시간	StartTime	600	number	Y
14-5	발화 종료 시간	EndTime	600	number	Y
14-6	화자 발화한 발성시간(초)	SpeakTime	600	number	Y
14-7	특정적단어에 대한 세부정보	WordInfo		Array	Y
14-7-1	특징적 발화 단어	Word	100	String	Y
14-7-2	단어유형분류	WordType	100	String	Y
14-7-3	단어구조분류	WordStructure	100	String	Y
14-7-4	특정단어의 뜻풀이	WordDefine	65535	String	Y
14-7-5	감정의 반응을 표시	WordFell	100	String	Y
14-7-6	감정의 세부 항목 (의도 분류)	WordMean	100	String	Y
14-7-6	감정의 세부 항목 (의도 분류)	WordMean	100	String	Y

<어노테이션 예시>

어노테이션 예시 1

어노테이션 예시 2

데이터셋 구축 담당자

수행기관(주관) : ㈜딥로딩

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
오승묵	02-568-2035	smoh@deeploading.com	총괄 사업관리/데이터 검수/AI 모델개발

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜인사이트정보	수집/데이터정제/데이터가공/데이터검수

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
박준철	055-372-2035	scspjc@insightinfo.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의