-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-06 데이터 최종 개방 1.0 2023-07-26 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-15 산출물 전체 공개 소개
선박 도장의 손상 정도를 파악하고 도장 품질의 검사 정확도 개선을 위한 선박 도장 상태별 이미지 데이터
구축목적
연구 분야 - 선박 도장 기술 및 검수 분야 활용 - 선박 도장 품질 검사 AI 모델 개발 분야 활용 산업 분야 - 선박의 도장 교육, 현장, 검사 분야 활용
-
메타데이터 구조표 데이터 영역 제조 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 자체 수집 라벨링 유형 분류(Classification), 세그멘테이션 라벨링 형식 JSON 데이터 활용 서비스 선박 도장 교육, 선박 도장 검수 데이터 구축년도/
데이터 구축량2022년/양품 10만장, 도장 불량 유형 7종 4만장, 도막 손상 유형 3종 6만장 -
1. 데이터 구축 규모
- 전체 개요데이터 종류 데이터 형태 원천데이터(이미지) 수량 라벨링데이터(JSON) 수량 라벨 객체 수량 선박 도장 이미지(jpg) 206,033장 206,033건 225,511개 - 선박 도장 품질 유형별 구축 수량
대분류 소분류 구축수량 대분류 합계 도막손상 도막떨어짐 20,047 60,869 스크래치 20,470 용접손상 20,352 도장불량 균열 5,800 41,673 도막분리 6,201 부풀음 5,850 워터스포팅 5,893 이물질포함 5,983 핀홀 5,906 흐름 6,040 양품 갑판 10,248 103,491 기관실 10,579 선미 10,294 선수 10,282 선실 10,449 엔진커버 10,518 외판 10,429 탱크 10,368 파이프 10,042 해치커버 10,282 총 합계 206,033 2. 데이터 분포
- 품질유형별 분포품질유형 수량 분포 양품 103,491 50.20% 도장불량 41,673 20.20% 도막손상 60,869 29.50% 합계 206,033 100.00% - 불량품 품질유형별 분포
품질유형 수량 분포 워터스포팅 5,893 5.70% 흐름 6,040 5.90% 도막분리 6,201 6.00% 핀홀 5,906 5.80% 균열 5,800 5.70% 부풀음 5,850 5.70% 이물질포함 5,983 5.80% 용접손상 20,352 19.80% 스크래치 20,470 20.00% 도막떨어짐 20,047 19.60% 합계 102,542 100.00% - 양품 부품(위치)별 분포
부품(위치)명 수량 비율 선수 10,282 9.90% 선미 10,294 9.90% 선실 10,449 10.10% 갑판 10,248 9.90% 기관실 10,579 10.20% 파이프 10,042 9.70% 탱크 10,368 10.00% 외판 10,429 10.10% 해치커버 10,282 9.90% 엔진커버 10,518 10.20% 합계 103,491 100.00% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 양품 부품(위치)별 분포
1. 활용 모델
1) 모델 학습
- 선박 도장 양품, 도장불량 7종, 도막손상 3종 데이터 총 206,033건에 대해 분류(classification)와 다각형(polygon)으로 라벨링함
선박도장 품질 유형 클래스 : 양품, 도장불량(워터스포팅, 흐름, 도막분리, 핀홀, 균열, 부풀음, 이물질포함), 도막손상(용접손상, 스크래치, 도막떨어짐)
양품 데이터는 이미지 전체 영역이 정상인 경우로 분류(classification) 라벨링함
불량품 중 워터스포팅, 이물질포함은 불량 영역이 이미지 전체에 분포하고 있어 분류 라벨링함
그 외 흐름, 도막분리, 핀홀, 균열, 부풀음, 용접손상, 스크래치, 도막떨어짐은 불량이 발생한 특정 영역에 다각형(polygon)으로 라벨링함
- AI 학습모델은 분류 모델로 DenseNet121을 적용하였으며, 불량 탐지 모델로는 Mask Scoring R-CNN 모델을 학습모델로 선정함
DenseNet121 모델은 선박도장의 양품과 불량품 중 워터스포팅, 이물질포함을 분류함
Mask Scoring R-CNN 모델은 불량품 중 흐름, 도막분리, 핀홀, 균열, 부풀음, 용접손상, 스크래치, 도막떨어짐의 불량 영역을 탐지함
- 학습:검증:시험 데이터셋은 랜덤하게 8:1:1로 분리하여 학습 및 유효성 검증을 수행하고 검증 방법은 Ground Truth와 예측된 모델 결과를 비교하여 mAP 측정
- 선박 도장 품질 분류 성능으로 DenseNet121 학습 모델은 Top-1 Accuracy 99.94%를 달성하였으며, 선박 도장 품질 영역분할(탐지) 성능으로 Mask Scoring R-CNN 모델은 mAP@0.5 77.4%로 목표를 초과하여 달성함
- DenseNet121 모델
2016년 발표된 모델로 다수의 구현사례가 존재하며, 학습용이성, 사전학습모델 제공, 안정성 측면에서 뛰어남
- Mask Scoring R-CNN 모델
2019년 발표된 모델로 Mask R-CNN의 단점을 보강하였으며, 검증된 구현체가 존재함2) 서비스 활용 시나리오
- 선박 도장 품질 검수에 학습된 모델을 활용하여 도장의 품질상태를 양품/불량품을 구별하고, 불량품의 경우 불량유형을 자동 식별함으로써 선박 전체의 도장 품질을 정량적으로 자동 산출
- 기존의 각 개별 검사자가 눈으로 확인하여 검수하는 것에 비해 균일한 품질을 가진 검수 자동화 시스템의 도입 기반 제공
- 선박 도장에 대한 품질 예측, 검사에 대한 AI 모델 개발 및 응용 기술 연구에 활용
- 현장 이동이 가능한 모바일 장치, 드론 등을 연계 활용한 효율적 검수 자동화 기술 연구 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 선박 도장 품질 분류 성능 Image Classification DenseNet 121 AccuracyTop-1 80 % 99.94 % 2 선박 도장 품질 영역분할 성능 Image Classification mask R-CNN mAP@IoU 0.5 60 % 77.4 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 형식;
구분 형식 비고 원천데이터 jpg 선박 도장 이미지 라벨링데이터 json MS COCO 데이터셋 준용 2. 데이터 샘플
- 원천데이터(jpg) 샘플- 라벨링데이터(JSON) 샘플 – 도막떨어짐 불량 유형의 경우
{
"info": {
"name": "선박 도장 품질 측정 데이터",
"url": "miraeit.net/",
"description": "선박 도장 품질 측정 데이터",
"version": "1.0",
"contributor": "미래아이티컨소시엄",
"date_created": "2022-12-08"
},
"images": [
{
"id": 1,
"file_name": "303_12_545bcb97-6d51-441c-b545-9b5a23e0beb8.jpg",
"width": 4032,
"height": 1816,
"license": 1,
"date_captured": "2022-06-02 17:11:20"
}
],
"licenses": [
{ "id": 1, "name": "CC BY-NC", "url": "http://creativecommons.org/licenses/by-nc-sa/2.0/" }
],
"categories": [
{ "supercategory": "선박도장", "id": 101, "name": "정상" },
{ "supercategory": "선박도장", "id": 201, "name": "워터스포팅" },
{ "supercategory": "선박도장", "id": 202, "name": "흐름" },
{ "supercategory": "선박도장", "id": 203, "name": "도막분리" },
{ "supercategory": "선박도장", "id": 204, "name": "핀홀" },
{ "supercategory": "선박도장", "id": 205, "name": "균열" },
{ "supercategory": "선박도장", "id": 206, "name": "부풀음" },
{ "supercategory": "선박도장", "id": 207, "name": "이물질포함" },
{ "supercategory": "선박도장", "id": 301, "name": "용접손상" },
{ "supercategory": "선박도장", "id": 302, "name": "스크래치" },
{ "supercategory": "선박도장", "id": 303, "name": "도막떨어짐" }
],
"annotations": [
{
"id": 1,
"image_id": 1,
"category_id": 303,
"attributes": {
"part": "선실",
"quality": "불량품"
},
"iscrowd": 0,
"area": 469997.82,
"segmentation": [
1855.4, 1111.2, 1931.8, 1077.5, 1990.5, 1036.3, 2032.5, 956.8, 2066.9, 907.0,
2098.7, 854.9, 2139.2, 831.0, 2219.1, 741.8, 2290.6, 698.2, 2320.7, 653.6,
2295.8, 577.8, 2239.8, 560.2, 2168.4, 562.1, 2130.9, 574.7, 2080.0, 592.4,
2023.0, 601.7, 1950.3, 565.4, 1904.9, 548.4, 1812.2, 550.9, 1771.4, 556.6,
1717.9, 539.7, 1639.1, 587.5, 1581.4, 622.7, 1520.9, 662.1, 1452.0, 725.4,
1385.8, 736.7, 1318.3, 766.2, 1283.7, 826.0, 1286.6, 925.9, 1333.4, 968.2,
1360.7, 1026.6, 1355.9, 1076.3, 1307.3, 1106.9, 1300.1, 1141.1, 1313.6, 1179.0,
1263.2, 1252.8, 1301.0, 1324.0, 1376.6, 1326.7, 1498.2, 1257.3, 1581.1, 1212.3,
1702.7, 1166.4
],
"bbox": [
1263.2, 539.7, 1057.6, 787.0
]
}
]
}
3. 어노테이션 포맷
구분 항목명 타입 필수여부 설명 비고 1 info object Y 데이터셋정보 1-1 info.name string Y 데이터셋명 1-2 info.description string Y 데이터셋상세설명 1-3 info.url string N 데이터셋URL 1-4 info.date_created string Y 데이터셋생성일자 “yyyy-MM-dd” 1-5 info.contributor string Y 데이터셋제공기관 1-6 info.version string Y 데이터셋버전 “1.0” 2 images array Y 원천데이터(이미지)정보 2-1 images[].id number Y 이미지식별자 0 이상 2-2 images[].width number Y 이미지너비 1 이상 2-3 images[].height number Y 이미지높이 1 이상 2-4 images[].file_name string Y 이미지파일명 2-5 images[].license number Y 이미지라이선스 3-1중 하나 2-6 images[].date_captured string Y 이미지촬영일자 “yyyy-MM-dd HH:mm:ss” 3 licenses array Y 이미지 라이선스 공개, 활용 가능 3-1 licenses[].id number Y 라이선스식별자 0 이상 3-2 licenses[].name string Y 라이선스명 "CC BY-NC" 3-3 licenses[].url string Y 라이선스URL “http://creativecommons.org/licenses/by-nc-sa/2.0/” 4 categories array Y 선박도장품질유형(클래스) 정보 4-1 categories[].supercategory string Y 상위 클래스명 “선박도장” 4-2 categories[].id number Y 선박도장품질유형(클래스)식별자 [품질유형코드목록] 4-3 categories[].name string Y 선박도장품질유형(클래스)명 [품질유형목록] 5 annotations array Y 선박도장품질 라벨 객체정보 5-1 annotations[].id number Y 라벨객체 식별자 0 이상 5-2 annotations[].image_id number Y 원천데이터 식별자 2-1중 하나 5-3 annotations[].category_id string Y 선박도장품질유형(클래스)식별자 4-2중 하나 5-4 annotations[].segmentation array 라벨 객체 다각형 좌표 정보 Polygon의 각점 좌표(x1,y1,x2,y2,x3,y3,...) (number) 5-5 annotations[].bbox array 라벨 객체 다각형을 둘러싸는 사각형 위치 정보 폴리곤 전체 영역을 둘러싸는 bbox로 자동 생성됨. (number) (박스 왼쪽 상단점 좌표(x,y)와 박스의 너비, 높이로 number임) 5-6 annotations[].area number 라벨 객체 다각영역크기 0 이상 5-7 annotations[].iscrowd number 라벨 객체 크라우드여부 0~1 5-8 annotations[].attributes object Y 라벨 객체 속성 정보 5-8-1 annotaions[].attributes.part string Y 부품(위치)명 [“선수”, “선미”, “선실”, “갑판”, “기관실”, “파이프”, “탱크”, “외판”, “해치커버”, “엔진커버”] 5-8-2 annotaions[].attributes.quality string Y 품질상태 [“양품”, “불량품”] - categories (선박 도장 품질 유형) 전체 목록
"categories": [
{ "supercategory": "선박도장", "id": 101, "name": "정상" },
{ "supercategory": "선박도장", "id": 201, "name": "워터스포팅" },
{ "supercategory": "선박도장", "id": 202, "name": "흐름" },
{ "supercategory": "선박도장", "id": 203, "name": "도막분리" },
{ "supercategory": "선박도장", "id": 204, "name": "핀홀" },
{ "supercategory": "선박도장", "id": 205, "name": "균열" },
{ "supercategory": "선박도장", "id": 206, "name": "부풀음" },
{ "supercategory": "선박도장", "id": 207, "name": "이물질포함" },
{ "supercategory": "선박도장", "id": 301, "name": "용접손상" },
{ "supercategory": "선박도장", "id": 302, "name": "스크래치" },
{ "supercategory": "선박도장", "id": 303, "name": "도막떨어짐" }
], -
데이터셋 구축 담당자
수행기관(주관) : 미래아이티(주)
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 박길주 02-6241-0103 gjpark@miraeit.net 사업총괄, 데이터 수집, 정제, 가공, 검수 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜자이플래닛 저작도구 제공, AI 학습 모델 개발 및 유효성 검증 네오텍(주) 데이터 수집 (재)한국화학융합시험연구원 데이터 품질관리 올시데이터(주) 데이터 품질관리 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 박길주 02-6241-0103 gjpark@miraeit.net
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.