AI-Hub

#옛한글 # 판본 # 필사본 # 문자인식

옛한글 문자인식(OCR) 인공지능 학습용 데이터

분야한국어
유형 이미지

구축년도 : 2021 갱신년월 : 2022-07 조회수 : 6,751 다운로드 : 186 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

데이터 토론 문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2022-07-12	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2022-10-20	신규 샘플데이터 개방
2022-07-12	콘텐츠 최초 등록

소개

조선시대(15세기~20세기 초) 고문헌 및 고문서의 옛한글 이미지로부터 개별 글자들을 추출하기 위한 인공지능 학습데이터

구축목적

다양한 필체의 옛한글 자료들로부터 개별 글자들을 추출해 낼 수 있도록 인공지능을 훈련하기 위한 데이터셋 구축

메타데이터 구조표
데이터 영역	한국어	데이터 유형	이미지
데이터 형식	png	데이터 출처	국립중앙도서관, 국립한글박물관, 한국학중앙연구원 등에 공개된 옛한글 이미지
라벨링 유형	세그멘테이션(이미지)	라벨링 형식	JSON
데이터 활용 서비스	한글 창제 이후 생산된 인쇄물, 필사 자료 등을 신속하게 파악할 수 있는 AI 전사 서비스	데이터 구축년도/ 데이터 구축량	2021년/12,003,864글자

데이터 구축 규모
– 옛한글 자료 이미지 44,797장과 이에 대응하는 json파일 44,797건
– 이미지에 포함된 글자 수는 아래와 같음

구분	글자수	비율
필사본	8,076,339	67%
목판본	2,109,749	18%
활자본	1,817,776	15%
합계	12,003,864	100%

데이터 분포
– 서체별 분포

구분	글자수	비율
필사본	8,076,339	67%
목판본	2,109,749	18%
활자본	1,817,776	15%
합계	12,003,864	100%

옛한글 문자인식(OCR) 인공지능 학습용 데이터-데이터 분포_1_서체별 분포

– 카테고리별 분포

구분	글자수	비율
교화서류	121,511	1%
기술 및 전문서류	477,751	4%
종교서류	1,356,315	11%
문학류	8,823,834	74%
신문류	234,868	2%
언간류	47,815	0%
언해류	545,931	5%
음식조리서류	238,178	2%
기타	157,661	1%
합계	12,003,864	100

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드
모델 학습
- 최종 검수 데이터를 기준으로 EfficientNet을 이용한 분류 모델의 Accuracy는 73%로 확인되었으며, 대체적으로 의미를 맞추는 결과 값을 도출함을 확인
- 옛한글 전사 서비스 제공과 관련하여 컴퓨터 사양 등의 운영 환경을 고려했을 때 EfficientNet은 적합하지 않다고 판단되어 EfficientNet의 Depthwith separable convolution 블록을 활용하면서도 가벼운 네트워크인 MobileNet 이용한 모델 개발 로 인식/분류가 어려운 필사체의 정확도가 다른 서체(활자, 목판)보다 낮았으나, 최종 학습모델에서 필사체의 학습양을 증가시켜, 필사체의 비중을 전체 학습 데이터셋의 약 70%를 차지하게 함으로 필사체의 분류성능 개선 - MobileNet을 이용한 모델의 학습 시 검증 Accuracy는 약 65%로 확인되었고 최종 검수 데이터 중 테스트 데이터 기준 Accuracy 성능 지표는 목판, 활자, 필사본에 대해 각각 57.25, 64,57, 69.66으로 확인되어 목표 성능 지표를 달성
서비스 활용 시나리오
- 활용 분야
  – 저작도구 내 오토라벨링 기능 구현을 위한 AI 알고리즘 개발
  – 조선시대 옛한글 문헌을 전사 및 번역 지원을 통해 전통문화 연구 활성화
  – 옛한글 OCR 데이터에 발화 정보가 담긴 음성 데이터를 맵핑하여 옛한글 문헌을 읽어주는 서비스 개발 기대
  – 한국국학진흥원 인공지능 번역 시스템 및 소장자료 관리시스템 외부 이용 가능
- 향후 계획
  – 글자 단위 이후, 음소, 어절, 형태소까지의 의미태깅 예정
  – 유명인의 필체 재현 및 폰트 개발
  – 데이터 추가 구축 및 학습을 통한 AI 모델 인식/분류 성능 개선, AI 전사서비스 고도화
  – 오버헤드스캐너를 활용한 한국국학진흥원 자료 이미지 지속 생산 및 한글자료 유네스코 기록유산 등재 신청 활용

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	옛한글 문자 인식 성능(활자본)	Image Classification	mobileNet	AccuracyTop-1	60 %	64.6 %
2	옛한글 문자 인식 성능(목판본)	Image Classification	mobileNet	AccuracyTop-1	50 %	57.3 %
3	옛한글 문자 인식 성능(필사본)	Image Classification	mobileNet	AccuracyTop-1	35 %	69.7 %
4	옛한글 문자 검출 성능(판본)	Object Detection	YOLO v5	mAP	80 %	98.7 %
5	옛한글 문자 검출 성능(필사본)	Object Detection	YOLO v5	mAP	70 %	99.5 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

원천데이터
가공 완료 데이터

라벨링데이터 구성
– 원천데이터 정보 (1~9)

구분
구분	항목명	타입	필수여부	설명	범위	비고
1	Typeface	string	Y	서체
2	Info_id	int	Y	문헌 id
3	Category_name	string	Y	주제명
4	Info_name	string	Y	문헌명
5	Period	int		시기
6	Author	string		저자
7	Difficulty	string	Y	난이도
8	License_name	string	Y	라이선스명
9	Info_Data_created	string	Y	Info 생성일

– 이미지 정보 (10~16)

구분	항목명	타입	필수여부	설명	범위	비고
10	Image_id	int	Y	이미지 id(순서)
11	Image_filename	string	Y	이미지 파일명
12	Image_Data_captured	string	Y	이미지 캡쳐일
13	Image_Width	int	Y	이미지 너비
14	Image_Height	int	Y	이미지 높이
15	Image_dpi	int	Y	이미지 DPI
16	Image_Char_no	int	Y	이미지 내 문자 수

– 어노테이션 정보 (17)

구분		항목명		타입	필수여부	설명	범위	비고
17		Text_Coord		array	Y	라벨링정보
	17–1	Bbox	x	int	Y	bbox x좌표
	17–2		y	int	Y	bbox y 좌표
	17–3		bbox_width	int	Y	bbox 너비
	17–4		bbox_height	int	Y	bbox 높이
	17–5		col_no	int	Y	문자열 정보
	17–6		row_no	int	Y	문자행 정보
	17–7	annotate		string	Y	의미태그

JSON 형식

데이터셋 구축 담당자

수행기관(주관) : 안동대학교 산학협력단

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
천명희	054-820-5353	chmh@anu.ac.kr	· 업무 총괄 · 데이터 수집 · 데이터 정제 · 데이터 가공 · 데이터 검수

수행기관(참여)

수행기관(참여)
기관명	담당업무
인플랩(주)	· 데이터 정제 · 데이터 가공
포항공과대학교 산학협력단	· 저작도구 개발 · 학습모델 구현
한국국학진흥원	· 데이터 수집

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

연관 데이터

한국인 외래어 발화

학생 청소년 핵심역량분석 교육 데이터

감정이 태깅된 자유대화 (성인)

전문분야 영-한·중-한 번역 말뭉치 (식품)

대규모 웹데이터 기반 한국어 말뭉치 데이터

공감형 대화

추상 요약 사실성 검증 데이터

일반상식 문장 생성 평가 데이터

옛한글 문자인식(OCR) 인공지능 학습용 데이터

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

데이터 성능 지표

데이터 성능 점수

데이터 성능 지표

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

구축 업체

데이터셋 구축 담당자

수행기관(주관) : 안동대학교 산학협력단

수행기관(참여)

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

연관 데이터