AI 허브 데이터 활용을 위한 기계 번역앱 구축과 번역기 평가 및 신규 말뭉치 구축
- 분야한국어
- 유형 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-15 데이터 최종 개방 1.0 2023-07-31 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-02-28 산출물 전체 공개 소개
• 번역 메모리(TM)로 활용할 AI 허브 공개 데이터의 정제·검수 데이터 • 기계 번역기 성능 향상을 위한 신규 말뭉치를 비롯한 비교 평가 데이터
구축목적
AI 허브에 공개된 말뭉치 데이터를 활용하여 TM 구축 • 기계 번역기 성능 향상을 위한 신규 말뭉치와 비교 평가 데이터 구축
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 txt 데이터 출처 AIHUB / 학술지 라벨링 유형 번역(자연어) 라벨링 형식 json 데이터 활용 서비스 1. 기계번역기 학습 2. TM 제공 3. 기계 번역 결과 비교 애플리케이션 데이터 구축년도/
데이터 구축량2022년/1,090,000 문장 -
데이터 구축 규모
데이터 구축 규모 항목명 지표 규모 구축량 문장수 AIHUB TM 구축 870,022문장 또는 단어 용어 사전 10,000건 NER 데이터 10,000건 신규 말뭉치 데이터(한-영, 한-일, 한-중) 635,110문장 번역기 평가 데이터 600,000문장 유사문장 데이터 729,910문장 MTPE 시험 데이터 101,673문장 주제 분포 비율 15개 세부 분야별 데이터 분포 확인 문장 길이 분포 수량(어절 수) 평균 15어절(최소 2어절~최대 30어절) 데이터 분포
데이터 분포 데이터 셋 대분류 중분류 데이터 구축 수량 1번 구어체-대화체 N/A 21,096 AIHUB TM 구축 뉴스 문어체 N/A 352.414 지자체웹사이트 N/A 35,379 문어체 문화 문어체 N/A 29,427 조례 문어체 N/A 44,923 전문분야 문어체 N/A 383,176 합계 866,415 2번 경제 N/A 1,964 용어 사전 문화 N/A 1,987 법률 N/A 2,088 의학 N/A 2,004 행정 N/A 1,957 합계 10,000 3번 구어체-대화체 N/A 118 NER 학습용 데이터 뉴스 문어체 N/A 4,182 지자체웹사이트 문어체 N/A 700 문화 문어체 N/A 295 조례 문어체 N/A 533 전문분야 문어체 N/A 4,172 합계 10,000 6번 기계 공학 16,115 신규 말뭉치 데이터 재료 재료과학 29,271 (한-영) 정보/통신 컴퓨터과학 11,077 생명과학 환경과 생태학 27,966 생물학 생화학 12,729 미생물학 3,967 농림수산 식품 농학 12,192 보건의료 약리학 독성학 18,165 의약학 5,744 수학 수학 11,438 물리학 물리학 3,746 화학 화학 42,060 사회 사회과학 11,312 합계 205,782 6번 기계 공학 14,538 신규 말뭉치 데이터 재료 재료과학 29,997 (한-일) 정보/통신 컴퓨터과학 10,981 생명과학 환경과 생태학 29,383 생물학 생화학 14,184 미생물학 3,974 농림수산 식품 농학 12,271 보건의료 약리학 독성학 18,407 의약학 5,655 수학 수학 10,947 물리학 물리학 3,756 화학 화학 46,741 사회 사회과학 11,074 합계 211,908 6번 기계 공학 16,234 신규 말뭉치 데이터 재료 재료과학 29,279 (한-중) 정보/통신 컴퓨터과학 11,003 생명과학 환경과 생태학 27,937 생물학 생화학 13,363 미생물학 4,018 농림수산 식품 농학 12,247 보건의료 약리학 독성학 18,590 의약학 6,124 수학 수학 14,582 물리학 물리학 3,669 화학 화학 48,979 사회 사회과학 11,395 합계 217,420 7번 기계 공학 14,264 번역기 평가 데이터 재료 재료과학 28,534 (한-영) 정보/통신 컴퓨터과학 9,658 생명과학 환경과 생태학 26,464 생물학 생화학 14,582 미생물학 3,854 농림수산 식품 농학 10,274 보건의료 약리학 독성학 17,884 의약학 6,614 수학 수학 14,152 물리학 물리학 4,042 화학 화학 37,276 사회 사회과학 12,402 합계 200,000 7번 기계 공학 13,742 번역기 평가 데이터 재료 재료과학 28,188 (한-일) 정보/통신 컴퓨터과학 10,448 생명과학 환경과 생태학 25,504 생물학 생화학 13,724 미생물학 3,816 농림수산 식품 농학 11,814 보건의료 약리학 독성학 17,658 의약학 5,316 수학 수학 10,726 물리학 물리학 3,694 화학 화학 44,720 사회 사회과학 10,650 합계 200,000 7번 기계 공학 15,370 번역기 평가 데이터 재료 재료과학 26,352 (한-중) 정보/통신 컴퓨터과학 9,864 생명과학 환경과 생태학 26,286 생물학 생화학 13,396 미생물학 3,836 농림수산 식품 농학 12,062 보건의료 약리학 독성학 16,222 의약학 4,906 수학 수학 11,630 물리학 물리학 3,482 화학 화학 45,880 사회 사회과학 10,714 합계 200,000 8번 기계 공학 18,341 유사문장 데이터 재료 재료과학 34,965 (한-영) 정보/통신 컴퓨터과학 12,194 생명과학 환경과 생태학 31,978 생물학 생화학 17,083 미생물학 4,796 농림수산 식품 농학 13,585 보건의료 약리학 독성학 22,245 의약학 7,700 수학 수학 16,258 물리학 물리학 4,747 화학 화학 48,032 사회 사회과학 12,684 합계 244,608 8번 기계 공학 14,464 유사문장 데이터 재료 재료과학 24,207 (한-일) 정보/통신 컴퓨터과학 11,950 생명과학 환경과 생태학 29,489 생물학 생화학 14,367 미생물학 4,090 농림수산 식품 농학 14,582 보건의료 약리학 독성학 20,402 의약학 7,278 수학 수학 15,636 물리학 물리학 2,392 화학 화학 35,583 사회 사회과학 16,388 합계 210,828 8번 기계 공학 19,386 유사문장 데이터 재료 재료과학 34,842 (한-중) 정보/통신 컴퓨터과학 14,594 생명과학 환경과 생태학 39,571 생물학 생화학 18,662 미생물학 5,348 농림수산 식품 농학 16,654 보건의료 약리학 독성학 27,198 의약학 8,685 수학 수학 19,015 물리학 물리학 4,366 화학 화학 48,824 사회 사회과학 17,329 합계 274,474 9번 기계 공학 2,217 MTPE 시험 데이터 재료 재료과학 19,973 (한-영) 정보/통신 컴퓨터과학 8,942 생명과학 환경과 생태학 7,222 생물학 생화학 10,019 미생물학 2,576 농림수산 식품 농학 6,218 보건의료 약리학 독성학 6,965 의약학 2,413 수학 수학 11,736 물리학 물리학 3,761 화학 화학 9,243 사회 사회과학 10,388 합계 101,673 총 합계 2,953,108 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드인공지능 모델(알고리즘)
인공지능 모델(알고리즘) 개발 언어 Python 3.7 프레임워크 PyTorch 1.8.1 학습 알고리즘 openNMT 학습 조건 -batch_size: 64,000 -batch_type: "tokens" -train_steps: 100,000 -dropout: 0.1 -warmup_steps: 6,000 -learning_rate: 2 -decay_method: "noam" 파일 형식 학습 데이터 셋: json 평가 데이터 셋: json 전체 구축 데이터 대비 모델에 적용되는 비율 100%(1,071,228) 모델 학습 과정별 -training Set: 81.10% (868,725 문장) 데이터 분류 및 비율 정보 -Validation Set: 10.00% (107,114 문장) -Test Set: 8.90%(95,389 문장) 총 1,071,228 문장 openNMT 기계 번역기 모델
● Transformer 기계 번역기를 현재로 상용에서 사용하고 있는 기계 번역기 모델임
● Transformer의 경우 우수한 결과물을 만들기 위해서는 필수적으로 우수한 학습 데이터가 필요함
● 언어별 본 과제 분야에 특화된 번역기 모델을 학습하여 해당 분야의 수요 기관에서 직접적으로 사용이 가능함 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 한-영 번역 성능 Machine Translation OpenNMT-Transformer BLEU 0.7 점 0.7014 점 2 한-일 번역 성능 Machine Translation OpenNMT-Transformer BLEU 0.7 점 0.779 점 3 한-중 번역 성능 Machine Translation OpenNMT-Transformer BLEU 0.7 점 0.7119 점 4 NER 태깅 성능 Machine Translation KoBERT-NER F1-Score 0.7 점 0.8692 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 설명 1레벨 2레벨 3레벨 4레벨 AIHUB 데이터 구어체-대화체 AIHUB 데이터 뉴스문어체 AIHUB 데이터 지자체웹사이트 문어체 AIHUB 데이터 문화문어체 AIHUB 데이터 조례문어체 AIHUB 데이터 전문분야 문어체 용어사전 경제 용어사전 문화 용어사전 법률 용어사전 의학 용어사전 행정 NER 태깅 구어체-대화체 NER 태깅 뉴스문어체 NER 태깅 지자체웹사이트 문어체 NER 태깅 문화문어체 NER 태깅 조례문어체 NER 태깅 전문분야 문어체 신규구축 데이터 한영 기계 공학 신규구축 데이터 한영 재료 재료과학 신규구축 데이터 한영 정보-통신 컴퓨터과학 신규구축 데이터 한영 생명과학 환경과 생태학 신규구축 데이터 한영 생명과학 생물학 생화학 신규구축 데이터 한영 생명과학 미생물학 신규구축 데이터 한영 농림수산식품 농학 신규구축 데이터 한영 보건의료 약리학 독성학 신규구축 데이터 한영 보건의료 의약학 신규구축 데이터 한영 수학 수학 신규구축 데이터 한영 물리학 물리학 신규구축 데이터 한영 화학 화학 신규구축 데이터 한영 사회 사회과학 신규구축 데이터 한일 기계 공학 신규구축 데이터 한일 재료 재료과학 신규구축 데이터 한일 정보-통신 컴퓨터과학 신규구축 데이터 한일 생명과학 환경과 생태학 신규구축 데이터 한일 생명과학 생물학 생화학 신규구축 데이터 한일 생명과학 미생물학 신규구축 데이터 한일 농림수산식품 농학 신규구축 데이터 한일 보건의료 약리학 독성학 신규구축 데이터 한일 보건의료 의약학 신규구축 데이터 한일 수학 수학 신규구축 데이터 한일 물리학 물리학 신규구축 데이터 한일 화학 화학 신규구축 데이터 한일 사회 사회과학 신규구축 데이터 한중 기계 공학 신규구축 데이터 한중 재료 재료과학 신규구축 데이터 한중 정보-통신 컴퓨터과학 신규구축 데이터 한중 생명과학 환경과 생태학 신규구축 데이터 한중 생명과학 생물학 생화학 신규구축 데이터 한중 생명과학 미생물학 신규구축 데이터 한중 농림수산식품 농학 신규구축 데이터 한중 보건의료 약리학 독성학 신규구축 데이터 한중 보건의료 의약학 신규구축 데이터 한중 수학 수학 신규구축 데이터 한중 물리학 물리학 신규구축 데이터 한중 화학 화학 신규구축 데이터 한중 사회 사회과학 번역기 평가 데이터 한영 기계 공학 번역기 평가 데이터 한영 재료 재료과학 번역기 평가 데이터 한영 정보-통신 컴퓨터과학 번역기 평가 데이터 한영 생명과학 환경과 생태학 번역기 평가 데이터 한영 생명과학 생물학 생화학 번역기 평가 데이터 한영 생명과학 미생물학 번역기 평가 데이터 한영 농림수산식품 농학 번역기 평가 데이터 한영 보건의료 약리학 독성학 번역기 평가 데이터 한영 보건의료 의약학 번역기 평가 데이터 한영 수학 수학 번역기 평가 데이터 한영 물리학 물리학 번역기 평가 데이터 한영 화학 화학 번역기 평가 데이터 한영 사회 사회과학 번역기 평가 데이터 한일 기계 공학 번역기 평가 데이터 한일 재료 재료과학 번역기 평가 데이터 한일 정보-통신 컴퓨터과학 번역기 평가 데이터 한일 생명과학 환경과 생태학 번역기 평가 데이터 한일 생명과학 생물학 생화학 번역기 평가 데이터 한일 생명과학 미생물학 번역기 평가 데이터 한일 농림수산식품 농학 번역기 평가 데이터 한일 보건의료 약리학 독성학 번역기 평가 데이터 한일 보건의료 의약학 번역기 평가 데이터 한일 수학 수학 번역기 평가 데이터 한일 물리학 물리학 번역기 평가 데이터 한일 화학 화학 번역기 평가 데이터 한일 사회 사회과학 번역기 평가 데이터 한중 기계 공학 번역기 평가 데이터 한중 재료 재료과학 번역기 평가 데이터 한중 정보-통신 컴퓨터과학 번역기 평가 데이터 한중 생명과학 환경과 생태학 번역기 평가 데이터 한중 생명과학 생물학 생화학 번역기 평가 데이터 한중 생명과학 미생물학 번역기 평가 데이터 한중 농림수산식품 농학 번역기 평가 데이터 한중 보건의료 약리학 독성학 번역기 평가 데이터 한중 보건의료 의약학 번역기 평가 데이터 한중 수학 수학 번역기 평가 데이터 한중 물리학 물리학 번역기 평가 데이터 한중 화학 화학 번역기 평가 데이터 한중 사회 사회과학 유사문장 데이터 한영 기계 공학 유사문장 데이터 한영 재료 재료과학 유사문장 데이터 한영 정보-통신 컴퓨터과학 유사문장 데이터 한영 생명과학 환경과 생태학 유사문장 데이터 한영 생명과학 생물학 생화학 유사문장 데이터 한영 생명과학 미생물학 유사문장 데이터 한영 농림수산식품 농학 유사문장 데이터 한영 보건의료 약리학 독성학 유사문장 데이터 한영 보건의료 의약학 유사문장 데이터 한영 수학 수학 유사문장 데이터 한영 물리학 물리학 유사문장 데이터 한영 화학 화학 유사문장 데이터 한영 사회 사회과학 유사문장 데이터 한일 기계 공학 유사문장 데이터 한일 재료 재료과학 유사문장 데이터 한일 정보-통신 컴퓨터과학 유사문장 데이터 한일 생명과학 환경과 생태학 유사문장 데이터 한일 생명과학 생물학 생화학 유사문장 데이터 한일 생명과학 미생물학 유사문장 데이터 한일 농림수산식품 농학 유사문장 데이터 한일 보건의료 약리학 독성학 유사문장 데이터 한일 보건의료 의약학 유사문장 데이터 한일 수학 수학 유사문장 데이터 한일 물리학 물리학 유사문장 데이터 한일 화학 화학 유사문장 데이터 한일 사회 사회과학 유사문장 데이터 한중 기계 공학 유사문장 데이터 한중 재료 재료과학 유사문장 데이터 한중 정보-통신 컴퓨터과학 유사문장 데이터 한중 생명과학 환경과 생태학 유사문장 데이터 한중 생명과학 생물학 생화학 유사문장 데이터 한중 생명과학 미생물학 유사문장 데이터 한중 농림수산식품 농학 유사문장 데이터 한중 보건의료 약리학 독성학 유사문장 데이터 한중 보건의료 의약학 유사문장 데이터 한중 수학 수학 유사문장 데이터 한중 물리학 물리학 유사문장 데이터 한중 화학 화학 유사문장 데이터 한중 사회 사회과학 MTPE 시험 데이터 한영 기계 공학 MTPE 시험 데이터 한영 재료 재료과학 MTPE 시험 데이터 한영 정보-통신 컴퓨터과학 MTPE 시험 데이터 한영 생명과학 환경과 생태학 MTPE 시험 데이터 한영 생명과학 생물학 생화학 MTPE 시험 데이터 한영 생명과학 미생물학 MTPE 시험 데이터 한영 농림수산식품 농학 MTPE 시험 데이터 한영 보건의료 약리학 독성학 MTPE 시험 데이터 한영 보건의료 의약학 MTPE 시험 데이터 한영 수학 수학 MTPE 시험 데이터 한영 물리학 물리학 데이터 설명2 No. 속성명 항목 설명 Type 필수여부 시리얼넘버 sn 공동작업관리위해 문장에 부여한 번호 string 선택 파일 이름 file_name 원시데이터 파일명 string 선택 데이터 분류 data_set 데이터 분류 string 필수 중분류 (도메인) domain 최상위 분야 string 필수 세분류 subdomain 하위 분야 string 선택 출처 source 자료 출처 기재 string 필수 비식별화 원문 [원문언어] 개인정보 비식별화 처리된 원문 문장 string 필수 정제 원문 [원문언어]_cleaned 보정한 원문 문장 string 선택 원문 [원문언어]_original 문서에서 추출되고 1차적으로 정제한 원문 문장 string 필수 기계번역문 mt 기계번역기의 결과문 string 선택 번역문 [번역언어] 번역문 문장 string 필수 원문언어 source_language 출발 언어의 언어 코드 값 (예: ko) string 필수 번역문언어 target_language 도착 언어의 언어 코드 값 (예: en, ja, zh, id) string 필수 라이센스 license 원문의 라이선스 여부 string 필수 문체 style 문어체 구어체 구분 string 필수 33-2 신규 말뭉치 원문데이터 포맷 예시
33-2 신규 말뭉치 원문데이터 포맷 예시 제목 연료전지 삼중열병합 시스템의 성능개선 R&D 효과에 대한 경제성 분석 연구 카테고리 공학 파일명 KCI_FI002849013 발행일 2022.04.21 원문 데이터센터의 냉방부하는 기존 전기냉동기에서 생산되는 냉열과 삼중열병합시스템의 흡수식냉동기에서 생산되는 냉열의 합과 같아야 하며 다음 식과 같이 정의된다. 전처리 후 데이터 센터의 냉방 부하는 기존 전기냉동기에서 생산되는 냉열과 삼중 열병합 시스템의 흡수식 냉동기에서 생산되는 냉열의 합과 같아야 하며 다음 식과 같이 정의된다. 번역문 The cooling load of the data center should be equal to the sum of the cold heat produced by the existing electric chiller and the cold heat produced by the absorption chiller of the triple heat and power system, and is defined as the following equation. 검수 후 The cooling load of the data center should be equal to the sum of the cold heat produced by the existing electric chiller and the cold heat produced by the absorption chiller of the triple heat cogeneration system, and is defined as the following equation: json 형식 "sn": "1007022013023", "domain": "기계", "subdomain": "공학", "year": 2022, "from": "KCI_FI002849013", "source_sentence": "데이터 센터의 냉방 부하는 기존 전기냉동기에서 생산되는 냉열과 삼중 열병합 시스템의 흡수식 냉동기에서 생산되는 냉열의 합과 같아야 하며 다음 식과 같이 정의된다.", "mt_sentence": "The cooling load of the data center should be equal to the sum of the cold heat produced by the existing electric chiller and the cold heat produced by the absorption chiller of the triple heat and power system, and is defined as the following equation." "target_sentence": "The cooling load of the data center should be equal to the sum of the cold heat produced by the existing electric chiller and the cold heat produced by the absorption chiller of the triple heat cogeneration system, and is defined as the following equation:", "source_language_code": "ko", "target_language_code": "en", "source_word_count": 22, "target_word_count": 45 }, 실제 예시
-
데이터셋 구축 담당자
수행기관(주관) : 트위그팜
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 최규동 1833-5926 ken.choi@twigfarm.net 데이터 구축 수행기관(참여)
수행기관(참여) 기관명 담당업무 글나무 데이터 가공 및 검수
크라우드 소싱렉스코드 데이터 가공 및 검수
크라우드 소싱시스트란 번역기 모델 검증
학습용 데이터 가공 및 검수휴텍씨 데이터 가공 및 검수 인공지능사업융합사업단 데이터 공용 활용 한국표준협회 데이터 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 최규동 1833-5926 ken.choi@twigfarm.net
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.