콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#옛한글 # 판본 # 필사본 # 문자인식

옛한글 문자인식(OCR) 인공지능 학습용 데이터

옛한글 문자인식
  • 분야한국어
  • 유형 이미지
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 6,751 다운로드 : 186 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-12 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-10-20 신규 샘플데이터 개방
    2022-07-12 콘텐츠 최초 등록

    소개

    조선시대(15세기~20세기 초) 고문헌 및 고문서의 옛한글 이미지로부터 개별 글자들을 추출하기 위한 인공지능 학습데이터

    구축목적

    다양한 필체의 옛한글 자료들로부터 개별 글자들을 추출해 낼 수 있도록 인공지능을 훈련하기 위한 데이터셋 구축
    1. 데이터 구축 규모
      – 옛한글 자료 이미지 44,797장과 이에 대응하는 json파일 44,797건
      – 이미지에 포함된 글자 수는 아래와 같음
      구분 글자수 비율
      필사본 8,076,339 67%
      목판본 2,109,749 18%
      활자본 1,817,776 15%
      합계 12,003,864 100%

       
    2. 데이터 분포
      – 서체별 분포
      구분 글자수 비율
      필사본 8,076,339 67%
      목판본 2,109,749 18%
      활자본 1,817,776 15%
      합계 12,003,864 100%
      옛한글 문자인식(OCR) 인공지능 학습용 데이터-데이터 분포_1_서체별 분포

      – 카테고리별 분포
      구분 글자수 비율
      교화서류 121,511 1%
      기술 및 전문서류 477,751 4%
      종교서류 1,356,315 11%
      문학류 8,823,834 74%
      신문류 234,868 2%
      언간류 47,815 0%
      언해류 545,931 5%
      음식조리서류 238,178 2%
      기타 157,661 1%
      합계 12,003,864 100
      옛한글 문자인식(OCR) 인공지능 학습용 데이터-데이터 분포_2_카테고리별 분포
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    모델 학습

    • 최종 검수 데이터를 기준으로 EfficientNet을 이용한 분류 모델의 Accuracy는 73%로 확인되었으며, 대체적으로 의미를 맞추는 결과 값을 도출함을 확인
      옛한글 문자인식(OCR) 인공지능 학습용 데이터-모델 학습_1옛한글 문자인식(OCR) 인공지능 학습용 데이터-모델 학습_2옛한글 문자인식(OCR) 인공지능 학습용 데이터-모델 학습_3
    • 옛한글 전사 서비스 제공과 관련하여 컴퓨터 사양 등의 운영 환경을 고려했을 때 EfficientNet은 적합하지 않다고 판단되어 EfficientNet의 Depthwith separable convolution 블록을 활용하면서도 가벼운 네트워크인 MobileNet 이용한 모델 개발 로 인식/분류가 어려운 필사체의 정확도가 다른 서체(활자, 목판)보다 낮았으나, 최종 학습모델에서 필사체의 학습양을 증가시켜, 필사체의 비중을 전체 학습 데이터셋의 약 70%를 차지하게 함으로 필사체의 분류성능 개선 - MobileNet을 이용한 모델의 학습 시 검증 Accuracy는 약 65%로 확인되었고 최종 검수 데이터 중 테스트 데이터 기준 Accuracy 성능 지표는 목판, 활자, 필사본에 대해 각각 57.25, 64,57, 69.66으로 확인되어 목표 성능 지표를 달성
       

    서비스 활용 시나리오

    • 활용 분야
      – 저작도구 내 오토라벨링 기능 구현을 위한 AI 알고리즘 개발
      – 조선시대 옛한글 문헌을 전사 및 번역 지원을 통해 전통문화 연구 활성화
      – 옛한글 OCR 데이터에 발화 정보가 담긴 음성 데이터를 맵핑하여 옛한글 문헌을 읽어주는 서비스 개발 기대
      – 한국국학진흥원 인공지능 번역 시스템 및 소장자료 관리시스템 외부 이용 가능
    • 향후 계획
      – 글자 단위 이후, 음소, 어절, 형태소까지의 의미태깅 예정
      – 유명인의 필체 재현 및 폰트 개발
      – 데이터 추가 구축 및 학습을 통한 AI 모델 인식/분류 성능 개선, AI 전사서비스 고도화
      – 오버헤드스캐너를 활용한 한국국학진흥원 자료 이미지 지속 생산 및 한글자료 유네스코 기록유산 등재 신청 활용
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 옛한글 문자 인식 성능(활자본) Image Classification mobileNet AccuracyTop-1 60 % 64.6 %
    2 옛한글 문자 인식 성능(목판본) Image Classification mobileNet AccuracyTop-1 50 % 57.3 %
    3 옛한글 문자 인식 성능(필사본) Image Classification mobileNet AccuracyTop-1 35 % 69.7 %
    4 옛한글 문자 검출 성능(판본) Object Detection YOLO v5 mAP 80 % 98.7 %
    5 옛한글 문자 검출 성능(필사본) Object Detection YOLO v5 mAP 70 % 99.5 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드
    1. 원천데이터
      옛한글 문자인식(OCR) 인공지능 학습용 데이터-원천데이터_1
       
    2. 가공 완료 데이터
      옛한글 문자인식(OCR) 인공지능 학습용 데이터-가공 완료 데이터_1
       
    3. 라벨링데이터 구성
      – 원천데이터 정보 (1~9)
      구분
      구분 항목명 타입 필수여부 설명 범위 비고
      1 Typeface string Y 서체    
      2 Info_id int Y 문헌 id    
      3 Category_name string Y 주제명    
      4 Info_name string Y 문헌명    
      5 Period int   시기    
      6 Author string   저자    
      7 Difficulty string Y 난이도    
      8 License_name string Y 라이선스명    
      9 Info_Data_created string  Y Info 생성일    

      – 이미지 정보 (10~16)
      구분 항목명 타입 필수여부 설명 범위 비고
      10 Image_id int Y 이미지 id(순서)    
      11 Image_filename string Y 이미지 파일명    
      12 Image_Data_captured string Y 이미지 캡쳐일    
      13 Image_Width int Y 이미지 너비    
      14 Image_Height int Y 이미지 높이    
      15 Image_dpi int Y 이미지 DPI    
      16 Image_Char_no int Y 이미지 내 문자 수    

      – 어노테이션 정보 (17)
      구분 항목명 타입 필수여부 설명 범위 비고
      17 Text_Coord array Y 라벨링정보    
        17–1 Bbox x int Y bbox x좌표    
      17–2 y int Y bbox y 좌표    
      17–3 bbox_width int Y bbox 너비    
      17–4 bbox_height int Y bbox 높이    
      17–5 col_no int Y 문자열 정보    
      17–6 row_no int Y 문자행 정보    
      17–7 annotate string Y 의미태그    

       
    4. JSON 형식
      옛한글 문자인식(OCR) 인공지능 학습용 데이터-JSON 형식_1
  • 데이터셋 구축 담당자

    수행기관(주관) : 안동대학교 산학협력단
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    천명희 054-820-5353 chmh@anu.ac.kr · 업무 총괄 · 데이터 수집 · 데이터 정제 · 데이터 가공 · 데이터 검수
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    인플랩(주) · 데이터 정제
    · 데이터 가공
    포항공과대학교 산학협력단 · 저작도구 개발
    · 학습모델 구현
    한국국학진흥원 · 데이터 수집
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.