-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-14 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-08-28 AI 모델 및 AI 모델 설명서 수정 2022-10-20 신규 샘플데이터 개방 2022-07-14 콘텐츠 최초 등록 소개
생활계 폐플라스틱 재활용을 위한 재질별 4종(PET, PE, PP, PS) 이미지 데이터
구축목적
플라스틱 폐기물 분류 및 재활용품 사용율을 높이기 위해 폐플라스틱 이미지 데이터를 구축하고, 이를 인공지능 모델이 학습토록 하여 폐플라스틱을 종류별로 분류하는 재활용 교육 앱 서비스 제공, 이를 위해 학습가능한 폐플라스틱 이미지 데이터를 구축하는 것이 목적
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 재활용폐기물 선별장 라벨링 유형 세그멘테이션(이미지) 라벨링 형식 JSON 데이터 활용 서비스 폐플라스틱 재활용 교육 앱 데이터 구축년도/
데이터 구축량2021년/802,870 건 -
데이터 구축 규모
- 원천데이터 802,870건, 라벨링데이터 802,870건
데이터 구축 규모 원천데이터 802,870건, 라벨링데이터 802,870건 데이터 종류 데이터 형태 원천데이터 규모 어노테이션 규모 폐플라스틱
이미지
데이터PE 이미지 31.1만 건 31.1만 건 PET 이미지 23.3만 건 23.3만 건 PP 이미지 15.4만 건 15.4만 건 PS 이미지 10.3만 건 10.3만 건 총계 80만 건 80만 건
데이터 분포
- 주제별 분포 : PE, PET, PS, PP 이미지 건수
데이터 분포 주제별 분포 : PE, PET, PS, PP 이미지 건수 구분 이미지 비율 PE 31.1만건 39% PET 23.3만건 29% PP 15.4만건 19% PS 10.3만건 12% 합계 80만건 100%
- 원천데이터 802,870건, 라벨링데이터 802,870건
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드활용모델
- 모델 학습:
– 객체검출(Object Detection)은 바운딩박스(Bounding Box)로 객체를 검출하여 폐플라스틱을 분류하는 모델로 YOLOv4 알고리즘을 사용. YOLO는 You Only Look Once의 약자로, Object Detection 중 1-Stage의 대표적 모델로 기존 YOLO의 고질적인 문제인 작은 Object에 취약하다는 점을 개선하기 위해 Resolution을 512로 증가시켰으며, 주요 기법으로 BoF(Bag of Freebies), BoS(Bag of Specials)를 활용
– 객체분할(Instance Segmentation)은 픽셀 기반의 폴리곤(Polygon)으로 객체를 분할하여 폐플라스틱을 분류하는 모델로 Mask R-CNN 알고리즘을 사용. 2-stage Object Detection 알고리즘인 Faster RCNN 과 FCN 기법 개선 및 결합하여 존 Bounding box regression과 Classification에 Binary Mask Prediction 추가하여 Instance Segmentation을 수행활용모델 모델 학습 구분 알고리즘 특징 객체 검출
Object DetectionYOLOv4 – 폐플라스틱 이미지에서 특정 클래스의 객체 인스턴스를 인식
– COCO JSON에서 Bounding Box 데이터셋 사용객체 분할
Instance SegmentationMask R-CNN – 폐플라스틱 객체의 감지된 인스턴스에 대한 분할 맵을 생성하여 세그멘테이션 분할 인식
– COCO JSON에서 Polygon 데이터셋 사용
서비스 활용 시나리오
- 폐플라스틱 이미지 데이터를 활용하여 각 클래스의 객체 인스턴스를 인식하는 객체 인식과 객체 분할로 재활용 선별시스템에서 폐플라스틱 재활용품을 탐지하여 분류
- 로봇팔 연동 자동 선별 시스템 구축
– 재활용 쓰레기 선별장에 비전 시스템 및 로봇팔 연동 시스템 구축
– 컨베이어벨트를 통해 이송되는 각종 플라스틱 쓰레기 자동 분류 - 공동주택 플라스틱 선별 시스템 구축
– 공동주택에서 배출되는 생활계 재활용 플라스틱을 보다 정확하게 분류 가능
– 스마트 시티 연동 재활용 쓰레기 배출 시스템 구축 가능
기타 정보
- 대표성: 사용자의 데이터 활용도를 고려, 범용성이 높은 생활계 4대 폐플라스틱을 선정하여 Polygon, Bounding Box 라벨링 데이터 구축
- 독립성: 4대 폐플라스틱인 PET, PS, PP, PE를 컨베이어 배경으로 이미지 데이터 수집
- 모델 학습:
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 객체 검출 Object Detection YOLO v4 mAP 90 % 93.4 % 2 객체 분할 Image Classification Mask R-CNN mAP 70 % 84.1 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 설명
데이터 설명 구분 내용 데이터명 폐플라스틱 이미지 데이터 구축목적 폐플라스틱 4종의 Polygon 기반 객체 검출 라벨링 방법 폴리곤(Polygon) 데이터 종류/형식 ∙원천 데이터: 이미지(.jpg) ∙라벨 데이터: .json 클래스 수량 객체 4종 : PET, PE, PP, PS 데이터예시
- 영상데이터 포맷
영상데이터 포맷 No. 속성명 항목 설정 예시 1 filename 파일명 “PET_001.10001.jpg” 2 date 촬영 날짜 2021.04.05 3 file format 파일 형식(포맷) JPG 4 imsize 이미지 파일 크기 6800kb 5 device 장비 모델 정보 초고속 라인 카메라(고해상도 카메라) 6 region_name 촬영 지역 AIRISS 7 width,height 이미지 사이즈 4096x4096 8 resolution 해상도 4K(4096x4096) 9 bit 비트값 컬러 색상/기본(RGB) : 24bit 10 pixel 화소 4096*4096 11 definition 선명도 낮음/중간/높음 12 sharpness 선예도 낮음/중간/높음 13 resolution 해상력 낮음/중간/높음 14 focal_length 초점 거리 35mm 15 scan_speed 카메라 영상 스켄 속도 60fps 16 Illuminance 조도 100lux 17 conveyor_speed 컨베이어 속도 1m/s
- 어노테이션 포맷
어노테이션 포맷 구분 항목명 타입 필수여부 설명 범위 비고 1 info Object 데이터셋 정보 coco기본정보 1-1 info.year Number Y 데이터셋 생성년도 배포일자 1-2 info.version String Y 데이터셋 버전 1-3 info.contributor String N 데이터셋 라벨러 2 licenses Object 라이선스 정보 2-1 licenses.url String N 라이선스 약관 URL 2-2 licenses.id String N 라이선스 아이디 2-3 licenses.name String N 라이선스 이름 3 categories Object 라이선스 정보 3-1 categories.id String Y 카테고리 아이디 데이터 번호 3-2 categories.name String Y 카테고리 이름 카테고리 이름 (PET, PS, PP, PE) 4 images Object 이미지 정보 4-1 images[].id String Y 이미지 식별자 전체 파일 인덱스 4-2 images[].width Number Y 이미지 너비 [0~2048] 4-3 images[].height Number Y 이미지 높이 [0~2048] 4-4 images[].file_name String Y 이미지 파일명 5 annotations Object 어노테이션 정보 5-1 annotations[].id Number Y 어노테이션 ID 5-2 annotations[].image_id Number Y 이미지 ID 5-3 annotations[].category_id Number Y 카테고리 ID 분류체계번호 5-4 annotaions[].metainfo_id Number Y 메타정보ID 5-5 annotations[].segmentation 2D List Y 라벨링 영역 좌표 배열 5-6 annotations[].area Number Y 라벨링 넓이 5-7 annotations[].bbox 1D List N 라벨링 바운딩박스 5-8 annotations[].iscrowd Number N 평가적용 5-9 annotations[].ignore Number N 학습제외 6 metainfo Object 메타정보 6-1 metainfo[].id Number Y 메타정보 ID 6-2 metainfo[].name String Y 메타정보 이름 메타정보 이름 (예 : 식품용기류_투명_병류_대_비압축) 6-3 metainfo[].category_id Number Y 카테고리 아이디 6-4 metainfo[].container Boolean Y true : 식품용기류 false : 기타 6-5 metainfo[].transparent Boolean Y true : 투명 false : 불투명 6-6 metainfo[].shape Integer Y 0: 병류 1: 원형 2: 사각형 3: 그 외 6-7 metainfo[].size Integer Y 0 : Big 1 : Small 2 : etc 6-8 metainfo[].compress Integer Y 0: 비압축 1: 수평압축 2: 수직압축 6-9 metainfo[].label Boolean Y true : 라벨 유 false : 라벨 무
- 실제 예시
- 데이터 설명
-
데이터셋 구축 담당자
수행기관(주관) : ㈜에코인에너지
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김도훈 042-935-5159 dohoonkim@ecoinenergy.com · 데이터 구축 및 품질관리 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜에이리스 · 데이터 구축 및 라벨링 ㈜쿱와 · 인공지능 학습모델 개발 및 품질검증 ㈜허브인소프트 · 시범서비스 구축 ㈜더길 · 해커톤 진행 및 데이터 관리
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.