콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#문화 # 컴퓨터비전 # 한자 # 한문 # OCR # 글자체 # 문자인식 # 이미지 # 텍스트 # 고문헌 # 고전적자료 # 인공지능 # 딥러닝

고서 한자 인식 OCR 데이터

고서 한자 인식 OCR 데이터
  • 분야영상이미지
  • 유형 텍스트 , 이미지
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 8,831 다운로드 : 136 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-14 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-25 저작도구 개방
    2022-10-13 신규 샘플데이터 개방
    2022-07-14 콘텐츠 최초 등록

    소개

    현존 고문헌의 대부분을 차지하고 있는 조선시대 고서의 원문 한자를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 고서 원문 내의 각 낱자 한자들에 대한 바운딩박스와 라벨링(유니코드 한자) 정보로 구성된 JSON 파일과 해당 고서 원문이미지 파일의 쌍으로 구성된 한자 글자수 기준 1천만 자 규모의 고서 한자 인식(OCR) AI 학습용 데이터셋

    구축목적

    한자로 기록된 국가기록유산(고서, 고문헌 등)의 활용성과 접근성 향상을 위해 고서 이미지 속 한자의 디지털 텍스트를 자동으로 확보하기 위한 인공지능 기반 OCR 기술 개발용 학습 데이터
  • 1. 서체별 통계

    1. 서체별 통계
    서체 글자수(※기준) 비율 이미지수(참고)
    해서 6,841,923 65.50% 36,306
    행서 3,024,903 29.00% 16,302
    초서 529,010 5.10% 1,990
    전서 26,455 0.30% 910
    예서 16,960 0.20% 177
    10,439,251 100.00% 55,685

     

    2. 판본별 통계

    2. 판본별 통계
    판본 글자수(※기준) 비율 이미지수
    인출본 목판본 7,239,623 3,636,715 69.35% 34.80% 40,539 21,167
    석인본 3,602,908 34.50% 19,372
    활자본 목활자본 2,586,036 802,859 24.77% 7.70% 12,177 4,831
    연활자본 467,471 4.50% 2,174
    금속활자본 1,315,706 12.60% 5,172
    필사본 필사본 613,592 613,592 5.88% 5.90% 2,969 2,969
    10,439,251 10,439,251 100.00% 100.00% 55,685 55,685
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. 세그멘테이션 모델 (HRCenterNet 기반. CNN 계열)

    • 고서의 이미지 분할(Image Segmentation)을 목적으로 고서에서 발생하는 다양한 크기와 서체, 글자의 왜곡 현상을 적합하게 반영할 수 있도록 설계된 CNN 모델로 기존 에 많이 사용되던 ResNet 기반의 U-Net이나 PSPNet 보다 좋은 성능을 보임. 2020년 대만 NCCU에서 제안하여 고서 인식에 탁월한 효과를 보임
      고서 한자 인식 OCR 데이터-세그멘테이션 모델 (HRCenterNet 기반. CNN 계열)_1_HRCenterNet 기반의 세그먼테이션 모델
      [그림] HRCenterNet 기반의 세그먼테이션 모델

    2. 클러스터 모델 (ResNet 기반)

    • 클러스터링 학습 모델은 Bottleneck을 적용한 ResNet을 기반으로 구성됨. 고문서 한자 낱자 데이터가 부족한 학습 데이터 구축 초기에는 한글 및 한자 오픈 데이터를 이용하여 모델을 학습한 후, 특징 추출부만 이용하여 한자 낱자 이미지의 특징 벡터를 추출하고 이를 각 글자의 특징벡터로 이용하여 특징 벡터간의 Cosine Similarity를 통해 글자간 유사도를 산출하고 유사도를 기준으로 유사 글자 클러스터를 구축함
      고서 한자 인식 OCR 데이터-클러스터 모델 (ResNet 기반)_1_ResNet 기반의 클러스터 모델
      [그림] ResNet 기반의 클러스터 모델

    3. 한자 객체 인식 학습모델 (ResNet 기반)

    • OCR 인식 모델도 ResNet을 이용함. 클러스터를 기반으로 작업자들이 구축한 OCR용 한자 데이터를 이용해 학습하였으며 Softmax를 이용해 각 글자 이미지에 적합한 유니코드로 분류함
      고서 한자 인식 OCR 데이터-한자 객체 인식 학습모델 (ResNet 기반)_1_ResNet 기반의 한자 객체 인식 학습모델
      [그림] ResNet 기반의 한자 객체 인식 학습모델
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 객체검출 정확도 Optical Character Recognition HRCenterNet F1-Score 0.8 0.8472

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 데이터 포맷

    • 원시데이터 특성
      1. 데이터 포맷 원시데이터 특성
      종류 내용
      자료형태 디지털 이미지
      글자체 해서, 행서, 초서, 전서, 예서
      원본형태 고서(고도서)
      원본제작유형 인출본(목판본, 석인본), 활자본(목활자본, 연활자본, 금속활자본), 필사본
      원본제작시기 조선시대
      자료분류 문집류, 경전류
      파일포멧 JPG
      이미지해상도 기구축 이미지 100dpi 이상, 신규 이미지 획득 시 300dpi 이상
      이미지색상 흑백, 컬러
      규모 55,685면
      중요성 다양한 서체로 인쇄 및 필사된 한자 고문헌(고서) 자료들로서 한자 인식 학습데이터 구축에 최적의 자료
      법률문제 저작권, 초상권, 개인정보, 민감정보 등 없음
      예시이미지 고서 한자 인식 OCR 데이터-데이터 포맷_1_원시데이터 특성 예시 이미지
    • JSON 형식
      고서 한자 인식 OCR 데이터—데이터 포맷_2_JSON 형식
       

    2. 데이터 구성

    2. 데이터 구성
    Key Description Type Child Type
    Info_Name 데이터셋명 String  
    Info_Description 데이터셋설명 String  
    Info_Data_created 데이터셋생성일자 String  
    Info_Block 판본 정보 String  
    Info_Style 글자체 정보 String  
    Info_Text_Color 글자색 정보 String  
    Info_Distortion 왜곡 정보 String  
    Info_Visibility 선명도 정보 String  
    Info_Noise 노이즈 정보 String  
    Info_Intervention 글자 간섭 정보 String  
    Info_Image_License 이미지라이선스 String  
    Info_Licenced_Institution 라이선스소유기관 String  
    Info_Institution_URL 라이선스소유기관URL String  
    Image_ID 이미지식별자 String  
    Image_File_name 이미지파일명 String  
    Image_Data_captured 이미지생성일자 String  
    Image_Width 이미지너비 Number  
    Image_Height 이미지높이 Number  
    Image_dpi 해상도  Number  
    Image_color 컬러이미지 String  
    Image_Char_col_no 문자 열 최고 갯수 Number  
    Image_Char_row_no 문자 행 최고 갯수 Number  
    Image_Text_Coord 문자위치BOX리스트(페이지/행) List JsonAray
    [ 페이지 JsonAray JsonObject
      [ JsonAray JsonObject
       bbox 바운딩박스정보    
       [     JsonObject
         X BOX좌상단 X좌표 Number  
         Y BOX좌상단 Y좌표 Number  
         Width BOX 너비 Number  
         Height BOX 높이 Number  
         col_no 문자 열 정보 Number  
         row_no 문자 행 정보 Number  
       ]     JsonObject
       label 라벨정보    
         Unicode 인식문자 String  
      ]   JsonObject
    ] 페이지   JsonObject


    3. 어노테이션 포맷

    1~23번은 동일 레벨 데이터. 23번 하위로만 계층을 갖는 데이터.
    3. 어노테이션 포맷
    No. 항목 길이 타입 필수여부 비고
    한글명 영문명
    1 데이터셋정보 Info        
    1 데이터셋명 Info_Name 128 String  
    2 데이터셋설명 Info_Description 1024 String    
    3 데이터셋생성일자 Info_Data_created 16 String  
    4 판본 정보 Info_Block 128 String  
    5 글자체 정보 Info_Style 128 String  
    6 글자색 정보 Info_Text_Color 128 String   Gray, Color
    7 왜곡 정보 Info_Distortion 128 String   None, horizontality, Verticality, Mixed
    8 선명도 정보 Info_Visibility 128 String   Best, Middle, Worst
    9 노이즈 정보 Info_Noise 128 String   Best, Middle, Worst
    10 글자 간섭 정보 Info_Intervention 128 String   Best, Middle, Worst
    11 이미지라이선스 Info_Image_License 128 String  
    12 라이선스소유기관 Info_Licenced_Institution 128 String  
    13 라이선스소유기관URL Info_Institution_URL 128 String    
    2 이미지정보 Image        
    14 이미지식별자 Image_ID 128 String  
    15 이미지파일명 Image_File_name 128 String  
    16 이미지생성일자 Image_Data_captured 16 String  
    17 이미지너비 Image_Width 4 Number  
    18 이미지높이 Image_Height 4 Number  
    19 해상도  Image_dpi 4 Number    
    20 컬러이미지 Image_color 1 String    
    21 문자 열 최고 갯수 Image_Char_col_no 4 Number    
    22 문자 행 최고 갯수 Image_Char_row_no 4 Number    
    23 문자위치BOX리스트 Image_Text_Coord   List  
    23-1-1 BOX좌상단 X좌표 X 4 Number  
    23-1-2 BOX좌상단 Y좌표 Y 4 Number  
    23-1-3 BOX 너비 Width 4 Number  
    23-1-4 BOX 높이 Height 4 Number  
    23-1-5 문자 열 정보 col_no 4 Number    
    23-1-6 문자 행 정보 row_no 4 Number    
    23-2 인식문자 Unicode 1 String  
    4. 실제 예시
    고서 한자 인식 OCR 데이터-실제 예시_1
  • 데이터셋 구축 담당자

    수행기관(주관) : 동양시스템즈
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김현 02-405-7700 hyunkim@tysystems.com · 총괄책임
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜누리아이디티 · 구축 총괄관리
    · 원시데이터 수집/분석
    · 데이터 정제 및 가공
    · 1차 검수/교정
    · 2차 검수/교정
    · 최종품질검수
    ㈜에프아이솔루션 · 데이터 정제 및 가공
    · 1차 검수/교정
    ㈜문원씨앤디 · 데이터 정제 및 가공
    · 1차 검수/교정
    한국국학진흥원 · 원시데이터 수집/분석/제공
    · 최종품질검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    김현 02-405-7700 hyunkim@tysystems.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.