Loading...

소개

데이터 명

한국어 글자체 이미지 AI데이터

Korean Font Images

’19년 구축 목표

  • 손글씨-200만자(현대한글 40만자, 단어 70만자, 문장 90만자)
  • 인쇄체-300만자(현대한글 60만자, 단어 100만자, 문장 140만자)
  • Text in the Wild-10만장(표지판·이정표 3만장, 상표 2만장, 간판 3만장, 도서 표지 2만장)

1차 공개 구축량

  • 손글씨-10만자(현대한글 4만자, 단어 6만자)
  • 인쇄체-15만자(현대한글 6만자, 단어 9만자)

대표 도면

필요성

  • OCR 기술은 자율주행, 증강현실(AR), IoT 등의 산업분야에서 사물의 문자를 인식해서 제공하는 서비스의 기반기술임
  • 글로벌 기업(네이버, 구글 등)이 OCR 활용 인지서비스를 제공하고 있으나, 공개된 한국어 글자체 데이터셋이 없어 기관, 기업의 연구개발에 어려움이 있음
  • 전세계적으로 OCR은 AI 기반의 OCR로 변화하고 있으므로 한글 글자체에 대한 공개된 학습용 데이터셋이 필요
  • 초성, 중성, 종성의 조합형 형태에 맞춘 데이터셋 구축을 통한 한글 인식 정확도 향상 기반 마련

구축내용

  • 현대 한글 글자체 데이터셋 : 현대 한글 문자 11,172자에 대한 인쇄체 및 손글씨체 500만자, text in the wild 10만장
  • 현대한글, 국립국어원의 한국인이 가장 많이 쓰는 단어 6천자, 뉴스 기반 문장 등으로 작성한 글자
  • 간판, 표지판, 상표, 도서표지 등 text in the wild는 직접 촬영한 이미지를 사용

데이터 구조

  • 라벨링 정보는 데이터셋정보, 이미지정보, 어노테이션, 라이선스 정보로 구성
  • 아래의 라벨링 정보 중 학습의 목적에 맞는 Label 정보를 선택하여 AI OCR 모형 학습 데이터로 활용

NO

항목명

길이

타입

필수여부

비고

한글명

영문명

1

데이터셋정보

info

 

Object

 

 

 

1-1

데이터셋명

info.name

100

String

Y

 

1-2

데이터셋상세설명

info.description

1000

String

 

 

1-3

데이터셋URL

info.url

200

String

 

 

1-4

데이터셋생성일자

info.date_created

100

String

Y

 

2

이미지정보

images

 

List

 

 

 

2-1

이미지식별자

images[].id

100

String

Y

 

 

2-2

이미지너비

images[].width

4

Number

Y

 

 

2-3

이미지높이

images[].height

4

Number

Y

 

 

2-4

이미지파일명

images[].file_name

100

String

Y

 

 

2-5

이미지라이선스

images[].license

100

String

Y

 

 

2-6

이미지촬영일자

date_created

100

String

Y

 

3

어노테이션정보

annotations

 

List

 

 

 

3-1

어노테이션식별자

annotations[].id

100

String

Y

 

 

3-2

연관이미지식별자

annotations[].image_id

100

String

Y

 

 

3-3

어노테이션텍스트

annotations[].text

1000

String

Y

 

 

3-4

어노테이션속성

annotations[].attributes

1

Object

 

 

 

3-5

어노테이션

바운딩박스

annotations[].bbox

4

List

 

Text in the Wild

에서 사용

4

라이선스

licenses

 

List

 

 

 

4-1

라이선스명

licenses[].name

100

String

Y

 

 

4-2

라이선스URL

licenses[].url

200

String

Y

 

활용예시

  • 산업분야 : 자율주행차 이정표 인식, 증강현실 및 IoT 산업의 문자 판독, 전자상거래 산업의 상품 라벨 및 도서표지 검색 등에 활용
  • 연구분야 : 의료, 금융 등 빅데이터 활용을 위한 종이문서 인식 , 개인정보 식별 및 개인정보보호 등에 관한 연구 분야에 활용

데이터셋 다운로드

데이터셋 다운로드

샘플데이터 다운로드 페이지