-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-10-30 데이터 최종 개방 1.0 2023-06-14 데이터 개방 (Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-11-27 산출물 전체 공개 2023-09-12 메타데이터 수정 소개
- 방송 콘텐츠 분야의 유럽어 통·번역 성능 향상을 통해 한국 문화 확산 및 콘텐츠 산업 활성화를 위한 한국어 방송 콘텐츠의 인공지능 학습용 유럽어 통·번역 말뭉치 데이터 - 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달할 수 있는 인공신경망기계번역(Neural Machine Translation; NMT)용 한-유럽어 통·번역 음성 및 텍스트 pair 데이터
구축목적
ㅇ 분야 특화 번역모델을 이용한 번역서비스 제공 - 전문 번역사 중심의 번역공정으로는 지속적으로 늘어나게 될 K-콘텐츠의 수출을 지원하기에는 어려움이 있고, 문화적/언어적 특성을 잘 처리할 수 있는 특화 번역모델 기술의 개발로 품질이 우수하고 신속한 번역 서비스의 제공이 가능 ㅇ 범용성 높은 인공지능 데이터 구축 및 공개 - 활용성 높은 분야를 선정하고 원본 데이터 확보 가능성 확인 - 인공지능 학습에 적합한 콘텐츠(문장) 선정 - 정확도 높은 학습 데이터 구축 ㅇ 고품질 인공지능 학습 데이터 확보 - 고품질 학습용 한국어 유럽어 양방향 데이터 구축 - 분야 특화가 가능한 번역모델 학습 데이터 구축 ㅇ 인공지능 데이터를 통한 일자리 창출 및 기술 향상 기여 - 크라우드소싱으로 작업 - 공개 데이터를 활용한 다국어 인공지능 번역의 성능 향상 - 활용 사례 및 수정/구축 결과 공유
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 txt 데이터 출처 방송사와 저작권 계약을 통해 콘텐츠 수집 라벨링 유형 번역(자연어) 라벨링 형식 json 데이터 활용 서비스 다국어 통역기, 다국어 영상 자막 자동 생성 서비스 데이터 구축년도/
데이터 구축량2022년/1) 원천데이터 방송콘텐츠 한국어-유럽어 번역 원문 데이터 1,960,139개 문장(JSON, 0.46GB) - 한국어-독일어/프랑스어/이태리어 번역 원문 데이터 1,507,987개 문장(JSON, 0.36GB) - 독일어/프랑스어/이태리어-한국어 번역 원문 데이터 452,152개 문장(JSON, 0.10GB) 2) 라벨링데이터 방송콘텐츠 한국어-유럽어 번역 말뭉치 데이터 1,960,139개 문장(JSON, 1.13GB) - 한국어-독일어/프랑스어/이태리어 번역 말뭉치 데이터 1,507,987개 문장(JSON, 0.86GB) - 독일어/프랑스어/이태리어-한국어 번역 말뭉치 데이터 452,152개 문장(JSON, 0.27GB) -
1. 데이터 구축 규모
(1-010-034) 방송컨텐츠 한국어-유럽어 번역 말뭉치 데이터
방송콘텐츠 원천 문장 데이터 약 195만개 및 라벨링 말뭉치 데이터 약 195만개구분 종류 형태 포맷 언어 규모 원천 데이터 방송콘텐츠 텍스트 json 한국어 약 150만개 문장 텍스트 json 독일어, 프랑스어, 이탈리아어 약 45만개 문장 번역 말뭉치 텍스트 json 한국어-> 약 150만개 문장 독일어/프랑스어/이탈리아어 텍스트 json 독일어/프랑스어/이탈리아어->한국어 약 45만개 문장 2. 데이터 분포
- 방송콘텐츠 대분류 5개 이상으로 데이터 편향 없이 균등하게 설계 구축
- 다양한 화자, 발화 스타일, 다양한 주제, 분야가 반영될 수 있는 카테고리 등 데이터 전체 구성 방안 및 균형적인 분포(1-010-034) 방송콘텐츠 한국어-유럽어 번역 말뭉치
분류 언어방향 구축문장쌍 언어방향 구축문장쌍 다큐 한국어- 100,000문장 독일어/프랑스어/이태리어 50,000문장 교양 독일어/프랑스어/이태리어 100,000문장 -한국어 연예, 공연 (각 50만) 100,000문장 (각 15만) 영화, 드라마 50,000문장 50,000문장 오락, 예능 100,000문장 인터뷰/기타 50,000문장 50,000문장 합계 500,000문장 150,000문장 대분류 중분류 소분류 문장수 다큐 KBS, MBN 다큐인사이드, 리얼다큐숨, 사노라면, 생생정보마당등 100,000 (20%) 교양 KBS, MBN, CJENM 천사의 컬렉션, 질문하는 기자들Q, 같이 삽시다, 생생정보마당, 썬킴의한국사 완전정복 등 100,000 (20%) 연예/공연 KBS, MBN, CJENM 연예가중계, 옥탑방의 문제아들, 연애 DNA 연구소, 알토란, 이연LEEYEON 등 100,000 (20%) 드라마/영화 KBS, CJENM, TVN, SHOWBOX, KPSFF 영혼수선공,경찰수업, 하트털이, 나의 아저씨, 머니게임, 반의반, 보이스4, 터널 등 50,000 -10% 예능/오락 KBS, MBN, CJENM 배틀트립, 님과함께, 모던패밀리, 알토란, IT's okay 잇츠오케이, Korean Studio 등 100,000 (20%) 인터뷰 MBN, CJENM 토요포커스, sellev(셀레브),Skim On West 등 50,000 -10% 대분류 중분류 소분류 문장수 다큐/교양 ELDA 해당없음 50,000(33.3%) 드라마/영화 ELDA 해당없음 50,000(33.3%) 기타 CJENM DKDKTV, joanday, Blimey, ConCoreaTV, TyJloveEcukor, Ariana Bonita 아리아나 보니따, Love Korea, 토기모치KOREA, 나도나도DoDo 50,000(33.3%) -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 학습 AI모델
- 특화 번역모델의 번역품질 평가 방안으로 BLEU 평가 활용
- 구축한 데이터의 유효성을 검증하기 위하여 가공이 완료된 본 데이터를 인공지능 학습 모델을 통해 검증
- 다국어로 번역하여 구축한 통번역 데이터의 유효성 검증을 입증하기 위해 Attention 기반의 Transformer 알고리즘을 통해 번역 모델을 구성
- 학습된 번역 모델로 실제 구축한 데이터를 검증하기 위해 BLEU라고 하는 범용적인 자동 평가 도구를 사용- 모델 구축은 언어별로 진행하였으며, 그 중 한영 병렬 말뭉치가 가장 많은 63만 문장쌍이며, 가장 적은 언어는 한불 47만 문장쌍임
- 언어별 학습을 통해 BLEU를 평가한 결과 한영 번역 모델이 가장 높은 50.27로 나왔고 가장 낮은 언어셋은 한러 38.41로 나옴
- 이러한 결과는 사업 제안서에서 제시한 BLEU 평가 점수 38을 모두 넘는 수치로 이는 구축한 다국어 번역 말뭉치 데이터 역시 그 품질이 우수함을 입증함2. 데이터 활용
활용 분야 및 요구사항
- 연구분야: 구어체 텍스트 데이터를 활용하는 한국어-영어/유럽어 인공지능 번역 연구
- 산업분야: 구어체 방송콘텐츠 한국어-영어/유럽어 자막 및 번역 생성 서비스. 데이터 활용
3. 응용서비스 개발
ㅇ다국어 통역기
- 한국어 음성을 인식해서 다국어로 통번역하는 웹서비스
- 인공지능 음성인식과 자동번역 학습모델을 활용하여 개발
- 도메인 특화 성능 고도화를 통해 고객 맞춤형 통번역 서비스 제공 가능ㅇ다국어 영상 자막 자동 생성 서비스
- 방송 및 유튜브 영상의 한국어 음성을 자동 인식
- 한국어 텍스트를 사용자가 선택한 다국어로 번역하여 자막을 자동으로 생성
- 정확도가 높을 경우 1시간 영상 기준으로 기존 자막화 시간 29시간에서 10분 이내로 단축할 수 있는 효율적인 서비스임
- 자막은 “srt” 또는 “vtt”형태로 다운로드 가능
- 영상 음성에 대한 인식 결과 또는 자동번역 오류가 있을 경우 이를 수정할 수 있는 편집 기능도 함께 제공 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 방송콘텐츠 자동 번역(한>독) Machine Translation transformer (Attension 기반) BLEU 0.38 점 0.3892 점 2 방송콘텐츠 자동 번역(한>불) Machine Translation transformer (Attension 기반) BLEU 0.38 점 0.4459 점 3 방송콘텐츠 자동 번역(한>이) Machine Translation transformer (Attension 기반) BLEU 0.32 점 0.4142 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 포맷
- 원천 문장 데이터 (한국어-다국어)No Field name Length Meaning a 대분류 2 rf(교양), dc(다큐), et(연예공연), md(영화드라마), vr(예능오락), iv(인터뷰) b 중분류 1 k(KBS), m(MBN), c(CJENM), t(tvN), s(ShowBox) c 순서 6 언어별 문장 순서로 매긴 번호 d 언어방향 4 koen(한-영), koes(한-스), koru(한-러), kode(한-독), kofr(한-프), koit(한-이) num file name 16 ex) rf_c_330676_koen.json - 원천 문장 데이터 (다국어-한국어)
No Field name Length Meaning a 대분류 2 or 5 dc-rf(다큐교양), md(영화드라마), ot(기타) b 순서 6 언어별 문장 순서로 매긴 번호 c 언어방향 4 enko(영-한), esko(스-한), ruko(러-한), deko(독-한), frko(프-한), itko(이-한) num file name 13 or 16 ex) dc-rf_000002_enko.json md_100930_enko.json ot_050432_enko.json - 라벨링 번역 말뭉치 데이터 (한국어-다국어)
No Field name Length Meaning a 대분류 2 rf(교양), dc(다큐), et(연예공연), md(영화드라마), vr(예능오락), iv(인터뷰) b 중분류 1 k(KBS), m(MBN), c(CJENM), t(tvN), s(ShowBox) c 순서 6 언어별 문장 순서로 매긴 번호 d 언어방향 4 koen(한-영), koes(한-스), koru(한-러), kode(한-독), kofr(한-프), koit(한-이) num file name 16 ex) rf_c_330676_koen.json - 라벨링 번역 말뭉치 데이터 (다국어-한국어)
No Field name Length Meaning a 대분류 2 or 5 dc-rf(다큐교양), md(영화드라마), ot(기타) b 순서 6 언어별 문장 순서로 매긴 번호 c 언어방향 4 enko(영-한), esko(스-한), ruko(러-한), deko(독-한), frko(프-한), itko(이-한) num file name 13 or 16 ex) dc-rf_000002_enko.json md_100930_enko.json ot_050432_enko.json 2. 데이터 구성
분류 언어 카테고리 구축문장수 원천데이터 한국어-다국어 한국어-독일어 교양 101,486 다큐 100,114 연예, 공연 103,217 영화, 드라마 50,067 오락, 예능 100,429 인터뷰 50,455 한국어-프랑스어 교양 100,649 다큐 99,115 연예, 공연 100,156 영화, 드라마 50,138 오락, 예능 100,419 인터뷰 50,467 한국어-이탈리아어 교양 101,234 다큐 100,173 연예, 공연 101,257 영화, 드라마 50,678 오락, 예능 97,459 인터뷰 50,474 다국어-한국어 독일어-한국어 기타 50,013 다큐교양 50,489 영화드라마 50,122 프랑스어-한국어 기타 50,046 다큐교양 50,498 영화드라마 50,497 이탈리아어-한국어 기타 50,169 다큐교양 49,995 영화드라마 50,323 라벨링데이터 한국어-다국어 한국어-독일어 교양 101,486 다큐 100,114 연예, 공연 103,217 영화, 드라마 50,067 오락, 예능 100,429 인터뷰 50,455 한국어-프랑스어 교양 100,649 다큐 99,115 연예, 공연 100,156 영화, 드라마 50,138 오락, 예능 100,419 인터뷰 50,467 한국어-이탈리아어 교양 101,234 다큐 100,173 연예, 공연 101,257 영화, 드라마 50,678 오락, 예능 97,459 인터뷰 50,474 다국어-한국어 독일어-한국어 기타 50,013 다큐교양 50,489 영화드라마 50,122 프랑스어-한국어 기타 50,046 다큐교양 50,498 영화드라마 50,497 이탈리아어-한국어 기타 50,169 다큐교양 49,995 영화드라마 50,323 3. 어노테이션 포맷
- 원천 문장 구성요소구분 속성명 타입 필수여부 설명 범위 비고 1 대분류 string Y 대분류 2 중분류 string Y 중분류(방송사) 3 소분류 string N 프로그램명 4 ID string Y 문장 아이디 5 S-Code string Y 원시언어 코드 6 T-Code string Y 도착언어 코드 7 S-Length number Y 원시언어 문장 길이 8 원문 string Y 원시어 문장 - 번역 말뭉치 라벨 구성요소
구분 속성명 타입 필수여부 설명 범위 비고 1 대분류 string Y 대분류 2 중분류 string Y 중분류(방송사) 3 소분류 string N 프로그램명 4 ID string Y 문장 아이디 5 S-Code string Y 원시언어 코드 6 T-Code string Y 도착언어 코드 7 S-Length number Y 원시언어 문장 길이 8 T-Length number Y 도착언어 문장 길이 9 Ratio number Y 원시어 및 도착어 문장 비율 10 특수표현 string Y 특수표현 11 원문 string Y 원시어 문장 12 MT string Y 자동번역문 13 1차수정 string N 번역기 후처리 번역 14 2차수정 string N 번역문 전수 검사 15 최종번역문 string Y 최종 번역문 4. 데이터 예시(영화드라마 분야)
[원문 – 한국어] “한강 근처 마포대교에서 막걸리 어때?”
[번역문 – 독일어] Wie wäre es mit Makgeolli an der Mapo-Brücke (Mapo Bridge) in der Nähe des Han-Flusses (Han River)?
[번역문 – 프랑스어] Que diriez-vous de makgeolli au pont Mapo près (Mapo Bridge) de la rivière Han (Han River)?
[번역문 – 이탈리아어] Che ne dici di makgeolli al ponte Mapo vicino (Mapo Bridge) al fiume Han (Han River)?[원문 – 독일어] “Ein Tornado hat ein Haus in Paderborn, Nordrhein-Westfalen, Deutschland getroffen.”
[번역문 – 한국어] 토네이도가 독일 노르트라인베스트팔렌(North Rhine-Westphalia)주 파더보른(Paderborn)의 주택을 강타했습니다.[원문 – 프랑스] “Le club de football professionnel français Paris Saint-Germain a déclaré aujourd'hui que quatre joueurs avaient été blessés dans un accident près de la Seine.”
[번역문 – 한국어] 프랑스 프로축구 구단 파리 생제르맹(Paris Saint-Germain)은 오늘 세느강(Seine River) 인근에서 발생한 사고로 선수 4명이 다쳤다고 밝혔습니다.[원문 – 이탈리아어] “Silvia Zanon va in Campo San Provolo a Venezia perché lì insegna alle medie.”
[번역문 – 한국어] 실비아재논(Silvia Zanon)은 중학교에서 근무하기에 베니스(Venice)에 있는 깜포산쁘로볼로Campo San Provolo)에 갑니다.구분 JSON 구조 번역
(한독){
"대분류": "영화드라마“
"중분류": "CJENM“
"소분류": "오늘의 타로맨스“
"ID": "TKCM000140“
"S-Code": "ko-KR“
"T-Code": "de-DE"
"S-Length": 21
"T-Length": 72
"Ratio": 0.22371
"특수표현": "N/A“
"원문": "한강 근처 마포대교에서 막걸리 어때요?"
"MT": "Wie wäre es mit Makgeolli an der Mapo-Brücke in der Nähe des Han-Flusses?"
"1차수정”: ”N/A“
"2차수정”: ”N/A"
"최종번역문": "Wie wäre es mit Makgeolli an der Mapo-Brücke (Mapo Bridge) in der Nähe des Han-Flusses (Han River)?"
}번역
(한프){
"대분류": "영화드라마“
"중분류": "CJENM“
"소분류": "오늘의 타로맨스“
"ID": "TKCM000140“
"S-Code": "ko-KR“
"T-Code": "fr-FR"
"S-Length": 21
"T-Length": 91
"Ratio": 0.22371
"특수표현": "N/A“
"원문": "한강 근처 마포대교에서 막걸리 어때요?"
"MT": "Que diriez-vous de makgeolli au pont Mapo près de la rivière Han ?"
"1차수정”: ”N/A“
"2차수정”: ”N/A“
"최종번역문": "Que diriez-vous de makgeolli au pont Mapo près (Mapo Bridge) de la rivière Han (Han River)?"
}번역
(한이){
"대분류": "영화드라마“
"중분류": "CJENM“
"소분류": "오늘의 타로맨스“
"ID": "TKCM000140“
"S-Code": "ko-KR“
"T-Code": "it-IT"
"S-Length": 21
"T-Length": 72
"Ratio": 0.22371
"특수표현": "N/A“
"원문": "한강 근처 마포대교에서 막걸리 어때요?"
"MT": "Che ne dici di arrivare al ponte Marpo vicino al fiume Han?"
"1차수정“: ”Che ne dici di andare a bere Makeolli al ponte Mapo vicino al fiume Han?“
"2차수정“: ”N/A"
"최종번역문": "Che ne dici di andare a bere Makeolli al ponte Map -
데이터셋 구축 담당자
수행기관(주관) : ㈜디엠티랩스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김운 02-794-5333 yunjin@dmtlabs.co.kr 데이터구축 총괄PM 수행기관(참여)
수행기관(참여) 기관명 담당업무 사이버한국외국어대학교 산학협력단 데이터 가공, 검수 ㈜솔트룩스이노베이션 데이터 가공, 검수 ㈜시스트란 데이터 가공, 검수 ㈜아이시글로벌 데이터 가공, 검수 ㈜에버트란 데이터 정제, 가공, 검수 ㈜윤즈정보개발 데이터 정제, 가공, 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김운 02-794-5333 yunjin@dmtlabs.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.