NEW 방송콘텐츠 한국어-아시아어 통·번역 음성 데이터
- 분야한국어
- 유형 오디오 , 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-06 데이터 최종 개방 1.0 2023-07-05 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-07-15 데이터 설명서, 구축업체정보 수정 2023-12-15 산출물 전체 공개 2023-07-21 세부데이터 및 데이터통계 수정 소개
방송콘텐츠의 인공신경망기계번역기(Neural Machin Translation;NMT) 성능향상을 위하여 학습데이터로 활용하기 위한 한국어-아시아어 음성 및 말뭉치 데이터
구축목적
한국어 방송콘텐츠 분야의 아시아어 통·번역 성능 향상 및 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달 가능한 인공신경망기계번역(Neural Machin Translation;NMT) 인공지능 학습모델 개발
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 오디오 , 텍스트 데이터 형식 wav, txt 데이터 출처 방송콘텐츠(KBS 등) 라벨링 유형 번역(자연어) 라벨링 형식 JSON 데이터 활용 서비스 인공신경망기계번역(NMT) 데이터 구축년도/
데이터 구축량2022년/음성 3,000시간 -
▪ 데이터 구축 규모
- 음성데이터 3000시간분류 북경어 일본어 대만어 몽골어 힌디어 합계 음성 데이터(시간) 700 700 700 700 200 3,000 ▪ 데이터 분포
- 언어별 분포 : 북경어, 일본어, 대만어, 몽골어, 힌디어
- 카테고리별 분포 : 연예/공연, 영화/드라마. 다큐멘터리. 오락/예능, 교양○ 1-11-035 방송콘텐츠 한국어-아시아어 통·번역 데이터
▪ 방송콘텐츠 카테고리 분포항목명 측정지표 목표 성과 방송콘텐츠
카테고리분포구성비 중첩률 구성비 중첩률 50% 결과 구성비 목표 구성비 연예/공연 20% 연예/공연 17% 영화/드라마 20% 영화/드라마 19% 다큐멘터리 20% 다큐멘터리 12% 오락/예능 20% 오락/예능 30% 교양 20% 교양 22% 언어별 수량 수량 목표 수량 결과 수량 한국어 700시간 이상 한국어 893.83시간 북경어 700시간 이상 북경어 700.77시간 일본어 700시간 이상 일본어 700.95시간 대만어 700시간 이상 대만어 700.96시간 몽골어 700시간 이상 몽골어 701.18시간 힌디어 200시간 이상 힌디어 200.34시간 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드▪ 활용모델
가. 인공지능 학습용 데이터 활용모델 개발 방안
1) 구축 데이터 품질을 위한 방송콘텐츠용 한국어 음성인식 학습모델 선정, 개발
○ 방송콘텐츠용 한국어 음성인식 모델
- 본 과제를 통하여 구축된 3,000시간 이상의 ‘방송콘텐츠 한국어-아시아어 통번역 음성데이터’의 한국어 음성데이터 및 전사 텍스트데이터에 대한 데이터 품질 검토를 위하여 방송콘텐츠용 한국어 음성인식 학습모델을 선정함
○ 오픈소스 툴킷 이용한 방송콘텐츠용 한국어 음성인식 학습모델 구축
- 학습도구: 오픈소스툴인 ESPnet을 사용함
- 학습방식: ESPnet의 학습스크립트를 바탕으로 수정하여 사용함
○ 최신 종단형 방송콘텐츠용 한국어 음성인식 학습모델 학습
- 구축데이터의 80%에 해당하는 학습용 데이터셋과 10%에 해당하는 개발용 데이터셋을 이용하여 인공지능 음성인식 모델을 학습함
- 최신 알고리즘인 Transformer, Conformer 등 학습모델을 생성함
○ 방송콘텐츠용 한국어-아시아어 음성인식 학습모델 평가
- 구축데이터의 10%에 해당하는 평가용 데이터셋을 이용하여 학습된 인공지능 음성인식 모델을 평가함
- 한국어 음성인식 분야에서의 평가척도인 CER을 측정 및 목표성능 충족 여부를 판단함
- 목표 성능은 다음과 같음AI 모델 모델 성능 지표 Transformer, Conformer 등 한국어 음성인식 모델 CER 10 이하 2) 구축 데이터 품질을 위한 방송콘텐츠용 한국어-아시아어 자동통역 학습모델 선정, 개발
○ 방송콘텐츠용 한국어-아시아어 자동통역 모델
- 본 과제를 통하여 구축된 2,000시간 이상의 ‘방송콘텐츠 한국어-아시아어 통번역 음성데이터’의 한국어 음성데이터 및 번역 텍스트데이터에 대한 데이터 품질 검토를 위하여 방송콘텐츠용 한국어-아시아어 자동통역 학습모델을 선정함
○ 오픈소스 툴킷 이용한 방송콘텐츠용 한국어-아시아어 자동통역 학습모델 구축
- 학습도구: 오픈소스툴킷인 ESPnet을 사용함
- 학습방식: ESPnet의 학습스크립트를 바탕으로 수정하여 사용함
○ 최신 종단형 방송콘텐츠용 한국어-아시아어 자동통역 학습모델 학습
- 구축데이터의 80%에 해당하는 학습용 데이터셋과 10%에 해당하는 개발용 데이터셋을 이용하여 인공지능 자동통역 모델을 학습함
- 최신 알고리즘인 Transformer, Conformer 등 학습모델을 생성함
○ 방송콘텐츠용 한국어-아시아어 자동통역 학습모델 평가
- 구축데이터의 10%에 해당하는 평가용 데이터셋을 이용하여 학습된 인공지능 자동통역 모델을 평가함
- 자동통역 분야에서의 주요 평가척도인 BLEU를 측정 및 목표성능 충족 여부를 판단함
- 목표 성능은 다음과 같음AI 모델 모델 성능 지표 Transformer, Conformer 등 한국어-아시아어 자동통역 모델 중국어, 일본어 BLEU 20 이상 기타 BLEU 15 이상 나. 인공지능 모델을 적용한 기술혁신 지원 방안
1) 국가적 측면
○ 인공지능 기술의 국가 경쟁력 제고를 위하여 고품질의 통번역 데이터를 공유, 개방
- 인공지능 기술력의 선진국과의 격차 극복을 도모
- 개방적인 데이터 유통 과정으로 누구나 자유롭게 고품질의 데이터 활용할 수 있는 환경 조성
- 높은 자료의 접근성 및 연구의 다양성 확보를 통한 인공지능 기술력에 대한 국가경쟁력 제고 및 경제 성장 도모
○ 방송콘텐츠에 대한 디지털 산업 혁신 및 시장 확대를 위하여 데이터 활용 서비스 개발 가이드를 제공함
- 지속적인 선순환 체계 구축을 위한 데이터 활용 서비스 개발 가이드를 제공함
- ESPnet과 연계하여 연구, 개발할 수 있는 데이터 처리 가이드 제공
2) 연구, 개발적 측면
○ 한국어-아시아어 자동통역 학습모델 공개
- 주관기관 및 참여기관이 영위하는 유관 사업의 저작권, 영업권 등에 상충하지 않는 범위에서 한국어-아시아어 자동통역 학습모델 공개함
● 공개하는 한국어-아시아어 자동통역 학습모델은 ESPnet 툴킷에서 동작 가능함
● 품질 평가를 위해 사용되는 학습모델과는 다를 수 있음 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 기계번역(중국어) Machine Translation Transformer for NLP BLEU 0.4 점 0.4514 점 2 기계번역(일본어) Machine Translation Transformer for NLP BLEU 0.4 점 0.4814 점 3 기계번역(대만어) Machine Translation Transformer for NLP BLEU 0.2 점 0.4085 점 4 기계번역(몽골어) Machine Translation Transformer for NLP BLEU 0.15 점 0.210599999999999 점 5 기계번역(힌디어) Machine Translation Transformer for NLP BLEU 0.15 점 0.1689 점 6 기계번역 성능(중국어) Machine Translation Transformer for NLP BLEU 0.4 점 0.4499 점 7 기계번역 성능(일본어) Machine Translation Transformer for NLP BLEU 0.4 점 0.5119 점 8 기계번역 성능(대만어) Machine Translation Transformer for NLP BLEU 0.2 점 0.4013 점 9 기계번역 성능(몽골어) Machine Translation Transformer for NLP BLEU 0.15 점 0.276 점 10 기계번역 성능(힌디어) Machine Translation Transformer for NLP BLEU 0.15 점 0.1788 점 11 한국어 음성인식 Speech Recognition Conformer for ASR CER 10 % 9.6 % 12 음성인식 성능(중국어) Speech Recognition Conformer for ASR ERR 5 % 10.81 % 13 음성인식 성능(일본어) Speech Recognition Conformer for ASR ERR 5 % 18.5 % 14 음성인식 성능(대만어) Speech Recognition Conformer for ASR ERR 5 % 5.26 % 15 음성인식 성능(몽골어) Speech Recognition Conformer for ASR ERR 2 % 2.47 % 16 음성인식 성능(힌디어) Speech Recognition Conformer for ASR ERR 2 % 42.86 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드▪ 데이터 포맷
콘텐츠명 생로병사의 비밀(816회) 카테고리 다큐멘터리 언어 일본어 발화시간 5.23초 성별 남 나이 50대 원문 20년 전을 보면 통념성이라고 해서 1년 내내 지속되면서 전처리 후 20年前を見ると、通念性といって、1年中に続いて。 ▪ 어노테이션 포맷 설명
"01_dataset" : {
"1_identifier" : "2022-1-11-035",
"2_name" : "방송콘텐츠 한국어-아시아어 통번역 음성데이터",
"3_src_path" : "11-1/source/L01/C03/C01625/U0180534.wav",
"4_label_path" : "11-1/labels/L01_L03/C03/C01625/U0180534.json",
"5_category" : "C03",
"6_type" : "음성",
"7_copyright" : "Y",
"8_src_length" : "5.18"
},
"02_srcinfo" : {
"1_id" : "C01625",
"2_title" : "생로병사의 비밀(816회)",
"3_video_duration" : "2877",
"4_language" : "한국어"
},
"04_contentinfo" : {
"4_storyline" : "코로나 19가 장기화 하면서 야외 운동으로 주목받고 있는 등산! 하지만 가벼운 마음으로 준비 없이 나섰다간 부상을 당할 수 있다. 등산 인구 증가의 시대, 부상 위험을 줄이고 운동 효과를 높이는 새로운 등산법, 둘레길 걷기! 2021년 등산·트래킹 실태조사에 따르면, 3년 사이 트래킹 인구가 9.3% 증가한 것으로 나타났다. 산 정상을 향해 오르는 등산보다 둘레길을 따라 걷는 운동 인구가 크게 늘고 있는 것이다. 높은 산을 찾아 멀리 떠나지 않아도 집 근처에서 쉽게 도전할 수 있는 둘레길 걷기! KBS1TV <생/로/병/사/의 비밀>에서는 장노년을 위한, 안전하고 건강한 둘레길 걷기의 효과를 다양한 실험을 통해 분석해 보고, 둘레길 걷기로 건강을 회복한 사람들을 만나본다."
},
"05_sceneinfo" : {
"1_place" : "N",
"2_echo" : "N",
"3_crowd" : "N",
"4_speakers" : "1",
"5_dialect" : "N",
"6_noise" : "N",
"7_background" : "N",
"8_naration" : "N"
},
"06_speakerinfo" : {
"1_id" : "S16250008",
"2_gender" : "남",
"3_age" : "50"
},
"07_nativesrcinfo" : {
"1_src_path" : "11-1/labels/L01_L03/C03/C01625/U0180534.wav",
"4_duration" : "5.23"
},
"08_nativespeakerinfo" : {
"1_id" : "55816",
"2_country_birth" : "일본"
},
"09_transcription" : {
"1_text" : "20년 전을 보면 통념성이라고 해서 1년 내내 지속되면서"
},
"10_translation" : {
"1_text" : "20年前を見ると、通念性といって、1年中に続いて。",
"2_language" : "일본어" -
데이터셋 구축 담당자
수행기관(주관) : ㈜아키아카
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 이동훈 070-5226-1346 ldh@akiaka 사업 관리, 데이터 가공 수행기관(참여)
수행기관(참여) 기관명 담당업무 스피치랩스 데이터 설계 및 AI모델 개발 쿠버릭스 정제 및 가공 밍크엔터테인먼트 원천데이터 수집 이랜서 크라우드워커 채용 한국국가기록연구원 품질관리 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 이동훈 070-5226-1346 ldh@akiaka
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.