-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-06 데이터 최종 개방 1.0 2023-07-31 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-08-13 데이터설명서 수정 2024-01-26 산출물 전체 공개 소개
홍수피해 예방에 필요한 수위 정보를 탐지하는데 있어서 반드시 필요한 수위표(목자판)와 수위정보를 보다 세밀하게 물결의 다양한 움직임과 고수위에서도 정확히 알 수있도록 영상촬영과 CCTV를 통해서 구축한 데이터셋이며 이번 수위인식 AI 모델과 결합하여 향후 유속, 유량 등 홍수 재난안전 서비스에 필요한 홍수 관련 서비스 기반에 필요.
구축목적
수위 측정 데이터셋은 홍수피해 예방에 필요한 수위 정보를 탐지하는데 있어서 반드시 필요한 수위표(목자판)와 수위 참값, 수면 위치 등 수위정보를 보다 세밀하게 물결의 다양한 움직임과 고수위에서도 정확히 알 수 있도록 영상촬영과 CCTV를 통해서 구축하고자 하며, 이번 수위인식 AI 모델과 결합하여 향후 유속, 유량 등 홍수 재난안전 서비스에 필요한 홍수 관련 기반 데이터셋을 구축.
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 직접 수집 라벨링 유형 바운딩박스(이미지) 라벨링 형식 JSON 데이터 활용 서비스 홍수 재난안전 서비스 데이터 구축년도/
데이터 구축량2022년/385,095장 -
1. 데이터 구축 규모
1. 데이터 구축 규모 전체 categories 규모 COUNT 385,095 2. 데이터 분포
2. 데이터 분포 날씨별 날씨별 climate COUNT 비율 null 156,586 40.66% 맑음 201,250 52.26% 비 8,859 2.30% 흐림 18,400 4.78% 합계 385,095 100% 2. 데이터 분포 수집 장비별 수집 장비별 deviceType COUNT 비율 CCTV 27,323 7.10% 스마트폰 357,772 92.90% 합계 385,095 100% 2. 데이터 분포 방해 종류 방해 종류 obstruction COUNT 비율 거센물살 25,440 37.14% 거울반사 5,875 8.58% 기타 1 0.00% 달빛반사 255 0.37% 반투명 4,789 6.99% 부유물 174 0.25% 부착물 542 0.79% 사람 5 0.01% 수풀 3,613 5.27% 안개 40 0.06% 탁류 8,697 12.70% 표면손상 14 0.02% 표면오염 28 0.04% 해당없음 11,389 16.63% ""(빈string) 7,635 11.15% 합계 68,497 100.00% 2. 데이터 분포 목자 타입(8종) 수위(22종)별 최소 수량 목자 타입(8종) 수위(22종)별 최소 수량 mokjaType clslevel COUNT 비율 비고 A 0~5m 30,125 7.82% 목자판 - 고수위용 5~10m 62,141 16.14% 10~15m 39,243 10.19% B 0~3m 20,811 5.40% 목자판 - 중수위용 3~6m 17,354 4.51% 6~9m 8,538 2.22% C 0~5m 27,926 7.25% 목자판 - 고수위용 5~10m 46,887 12.18% 10~15m 40,291 10.46% E 0~3m 11,570 3.00% 목자판 - 중수위용 3~6m 8,751 2.27% 6~10m 8,978 2.33% F 0~2m 4,195 1.09% 목자판 - 저수위용 2~4m 6,637 1.72% G 0~2m 5,784 1.50% 목자판 - 저수위용 2~4m 7,952 2.06% H 0~7m 3,579 0.93% 목자판 - 고수위용 7~14m 5,189 1.35% 14~20m 4,026 1.05% S 0~7m 5,860 1.52% 목자판 – 고수위용 7~14m 7,994 2.08% 14~20m 11,264 2.92% 합계 385,095 100% 2. 데이터 분포 목자 타입(8종) 목자 타입(8종) mokjaType COUNT 비율 비고 A 131,509 34.15% 목자판 - 고수위용 B 46,703 12.13% 목자판 - 중수위용 C 115,104 29.89% 목자판 - 고수위용 E 29,299 7.61% 목자판 - 중수위용 F 10,832 2.81% 목자판 - 저수위용 G 13,736 3.57% 목자판 - 저수위용 H 12,794 3.32% 목자판 - 고수위용 S 25,118 6.52% 목자판 – 고수위용 합계 385,095 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드활용 모델
활용 모델 구분 내 용 ➀ 영상 수위 인식 모델 Keras CNN 특징 및 장점 : TensorFlow Keras CNN model Architecture은 Feature Extraction(특징 추출)과 Classification(분류) 2단계로 나뉘며, 특징 추출을 통해 초기 원시 데이터 세트를 처리하기 위해 더 관리하기 쉬운 그룹으로 축소하는 차원 감소 프로세스를 수행한 후, 데이터 양을 효과적으로 줄이면서 원본 데이터 세트를 정확하고 완전하게 묘사한 후 Classfication 분류를 수행함.
ConvNeXt-XL 특징 및 장점 : 이미지 분류에서 ConvNet을 빠르게 대체한 ViT(Vision Transformers)의 객체 감지 및 의미론적 분할같은 일반적인 비전 작업 적용시 어려움을 해결한 모델로서, 표준 ConvNet 모듈로 구성된 ConvNeXt는 정확도와 확장성 면에서 Transformers와 경쟁하여 87.8% ImageNet top-1 정확도를 달성함.
NFNet-F5 특징 및 장점 : 미니 배치의 각 고유 이미지에 대해 단일 샘플에 대해 증강을 사용하는 것보다, 다양한 샘플을 사용하는 것이 더 높은 테스트 정확도를 달성할 수 있다는 현상에 근거하여 데이터 증강 프로세스에서 발생하는 분산을 억제한 후, 고성능 NFNet-F5에 적용하여 ImageNet에서 시험결과 추가 데이터 없이 86.8% 높은 성능을 달성함.
➁ 수위표 목자판 OCR 판독 모델 LSTM 특징 및 장점 : Tesseract에서 사용하는 모델로, Context 에 기반하여 전형적인 좌우 및 상하 연속 순차 문자 판독시 오탈자에 대해서 추정하는 능력에서 높은 성능을 보임.
CRNN 특징 및 장점 : 네이버 Clova.ai 에서 사용하는 OCR 모델로 문서 레이아웃 분석 및 글자를 읽는 순서 방향을 추정하여 둥글게 곡선으로 배열되거나 기울어진 문자, 필기체 인식 등 고성능 AI 모델바탕으로 높은 수준의 정확도를 제공
YOLO 특징 및 장점 : 실시간 객체 감지 시스템으로서 YOLO 객체 감지는 단일 신경망을 사용하며, 컨볼루션 신경망은 시스템이 분류기 또는 로컬라이저의 용도를 변경하여 탐지를 수행하고 탐지 모델을 여러 위치 및 규모의 이미지에 적용하는 분류기 기반 시스템으로, 분류 및 경계 상자 회귀를 한 단계로 수행하므로 대부분의 컨볼루션 신경망보다 훨씬 빠르며(100~1000배), OCR 엔진에 의해 판독되지 않는 특수한 문자 및 숫자를 객체로 인식하여 판독하는데 있어서 탁월한 성능을 보임.(A Water Level Measurement Approach Based on YOLOv5s 2022 논문 참조)
➂ 수면위치 인식 모델 YOLO 【YOLOv4 Darknet 모델】
특징 및 장점 : 상기 OCR 용도와 마찬가지로 객체 인식에서 탁원한 성능을 보이며, R-CNN보다 1000배 이상 빠르고 Fast R-CNN보다 100배 빠름, v4는 모자이크 데이터 향상, 자기 적대적 훈련 및 크로스 미니 배치 정규화라는 기능 향상을 이루었으며, 특히 수면과 같은 추상적 객체도 학습용 빅데이터를 구축하여 딥러닝시 위치와 크기 및 Classification을 판정하는데 있어서 탁월한 성능을 보임.(당사 테스트 결과 복잡하고 다양한 수면에 대해서도 mAP 90% 이상 성능 달성)
R-CNN 특징 및 장점 : R-CNN은 심층 모델을 객체 감지에 적용하는 선구적인 접근 방식으로, 먼저 이미지에서 제안된 여러 영역을 선택한 다음(예: 앵커 상자는 선택 방법의 한 유형임) 범주와 경계 상자(예: 오프셋)에 레이블을 지정, 그런 다음 컨볼루션 신경망을 사용하여 제안된 각 영역에서 특징을 추출하는 순방향 계산을 수행함.
EfficientDet 특징 및 장점 : EfficentDet은 다중 스케일 기능 융합을 허용하는 가중 양방향 기능 피라미드 네트워크(BiFPN)를 제안하고 모든 백본, 피쳐 네트워크, 박스/클래스 예측 네트워크에 대한 해상도, 깊이 및 너비를 동시에 균일하게 스케일링하는 복합 스케일링 방법을 제안함.
EfficientDet-D7은 77M 매개변수 및 410B FLOP를 사용하여 COCO 테스트 개발에서 최신 55.1 AP를 달성함. 학습 모델 개발 활용
ㅇ영상 수위 인식 모델
- TensorFlow v2 CNN 모델을 할용하여 보통 수위표 목자판을 대상으로 가공된 수위표 목자판을 사람이 판독한 10cm 단위의 수위를 참값으로 하여 인공지능에게 Classification 학습을 시켜, 표준 수위표 목자판에 대해 제한된 수위(0~1.5m) 의 경우. ±10% 이내에서 약 80%의 정확도(mAP)로 수위가 인식되는 모델에 활용 할 수 있음.ㅇ수위표 목자판 OCR 판독 모델
- YOLO darknet v4 모델을 이용하여 수위표 목자판의 내부 OCR을 위해 미터(눈금포함) 및 센티미터에 대한 바운딩박스 라벨링을 통해 표준 수위표 목자판에 대해 ±10% 이내에서 약 90%의 정확도(mAP)로 미티 및 센티미터를 정확히 인식하는 모델에 활용 할 수 있음.
- 유사모델논문: A Water Level Measurement Approach Based on YOLOv5s 2022
ㅇ수면 위치 인식 모델
- YOLO darknet v4 모델을 이용하여 수위표 목자판과 수면이 닿는 부분을 바운딩박스 라벨링을 통해 표준 수위표 목자판에 대해 ±10% 이내에서 약 90%의 정확도(mAP)로 수면을 정확히 인식하는 모델에 활용 할 수 있음.응용 서비스
가) 홍수통제소
- 본 영상 수위 측정 데이터셋은 환경부 4대강 홍수통제소에서 추진중인 스마트 홍수관리시스템의 인공지능에 의한 홍수예측 및 경보발령 의사결정 시스템을 위한 핵심 데이터셋으로 활용가능하며, 이를 바탕으로 유속 및 유량 계측이 가능하여 홍수 통제소에서 활용 적용 할 수 있음나) 연구기관
- 본 수위 측정 데이터셋은 인공지능 관련 연구를 수행하는 대학 및 연구소 등에서 연구목적으로 활용 가능다) 글로벌 홍수예측 서비스
- 홍수경보는 현재 수위를 기준으로 발령하게 되어 있으나, 유량/유속이 필요한 계획홍수량은 홍수예측의 참조값으로 수위와 더불어 반드시 도출하도록 되어 있어, 본 데이터셋 활용을 통해 수위, 유량/유속을 측정하여 미래에는 단순 홍수경보가 아닌 홍수예측 시스템을 구축하는데 응용 가능 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 수위 참값 분류 성능 Image Classification keras CNN Accuracy 80 % 90.56 % 2 목자판 탐지 성능 Object Detection YOLO v4 mAP 90 % 91.32 % 3 수위 탐지 성능 Object Detection YOLO v4 mAP 90 % 95.31 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 포맷
데이터 포맷 구분 No 속성명 속성 및 내용 1 info 데이터셋정보 Y 2 info.name 데이터셋명 Y 3 info.version 버전 Y 4 info.year 생성년도 Y 5 info.maker 생성자 Y 6 info.date_created 데이터셋 생성 일자 7 images 이미지정보 Y 8 images[].uuid 이미지식별자 Y 9 images[].frameid 추출프레임식별자 Y 10 images[].width 이미지너비 Y 11 images[].height 이미지높이 12 images[].filename 이미지파일명 13 images[].waterlevel 수위 14 images[].climate 기상 15 images[].backcolor 색상 16 images[].deviceType 촬영장비 정보 Y 17 images[].obstruction 방해종류 18 annotations 라벨링정보 Y 19 annotations[].uuid 대상 이미지식별자 Y 20 annotations[].class_id BBOX 라벨링 클래스 식별자 Y 21 annotations[].name BBOX 라벨링 클래스 이름 Y 22 annotations[].relative_coordinates 라벨링 바운딩박스 23 categories 카테고리 정보 Y 24 categories[].id 카테고리식별자 Y 25 categories[].mokjaType 목자판 타입 Y 26 categories[].width 목자판 폭 Y 27 categories[].clslevel 수위 클래스 데이터 구성
데이터 구성 항목 설정 1 2 3 타입 필수여부 유효값 최소값 최대값 null타입허용여부 info object name string Y “JJNET Consortium Dataset” 1 version string Y “1.0” 1 year number Y 2022 1 maker string Y “JJNET Consortium” 1 date_created string Y “yyyy-MM-dd HH:mm:ss.sss” image object uuid string Y 1 36 frameid number Y 0 1800 Y width number Y 1920 1920 1920 height number Y 1080 1080 1080 filename string waterlevel string "0.0","0.1",~ "19.9", "20.0" 3 4 Y climate string “맑음”,“흐림”,“비” 1 2 Y backcolor string “White”,“Green” 5 5 Y obstruction array Y “안개”,“반투명”,“거울반사”,“달빛반사”,“거센물살”,“와류”,“탁류”,“수풀”,“사람”,“부유물”,“부착물”,“표면오염”,“표면손상”,“야간”,“기타”,“해당없음” 2 4 Y deviceType string “CCTV”,“스마트폰” 4 4 annotations array 0 {} object uuid string Y 1 36 class_id number Y 0, 1, ~, 32 0 32 name string Y "surface", "0M", "1M", "2M", "3M", "4M", "5M", "6M", "7M", "8M", "9M", "10M", "11M", "12M", "13M", "14M", "15M", "16M", "17M", "18M", "19M", "20M", "0CM", "10CM", "20CM", "30CM", "40CM", "50CM", "60CM", "70CM", "80CM", "90CM", "mokja" 2 7 어노테이션 포맷
어노테이션 포맷 구분 속성명 타입 필수여부 설명 범위 비고 1 info Object 데이터셋정보 1-1 info.name String Y 데이터셋명 “JJNET Consortium Dataset” 1-2 info.version String Y 버전 “1.0” 1-3 info.year String Y 생성년도 YYYY 1-4 info.maker String Y 생성자 “JJNET Consortium” info.date_created String Y 데이터셋 생성 일자 “yyyy-MM-dd HH:mm:ss.sss” 2 images Object 이미지정보 2-1 images[].uuid String Y 이미지식별자 36자리 이내 2-2 images[].frameid Int Y 추출프레임식별자 0~1800 30fps기준 1분길이 동영상 최대 1800 frame 추출 2-3 images[].width Int Y 이미지너비 1920 2-4 images[].height Int Y 이미지높이 1080 2-5 images[].filename String 이미지파일명 43자리 이내 2-6 images[].waterlevel String 수위 “n.nm” 2-7 images[].climate String 기상 “맑음”,“흐림”,“비” 2-8 images[].backcolor String 색상 “White”,“Green” 2-9 images[].deviceType String 촬영장비 정보 “CCTV”,“스마트폰” 2-10 images[].obstruction String Y 방해종류 15ea 한글속성값 3 annotations Object 라벨링정보 3-1 annotations[].uuid String Y 대상 이미지식별자 36자리 이내 3-2 annotations[].class_id Int Y BBOX 라벨링 클래스 식별자 0~32 구분코드 3-3 annotations[].name String Y BBOX 라벨링 클래스 이름 "surface" 총 32개 BBOX 클래스 "숫자M" “숫자cm” "mokja" 3-4 annotations[].relative_coordinates Object Y 라벨링 바운딩박스 X,Y 좌표값 4 categories Object 카테고리 정보 4-1 categories[].id int Y 카테고리식별자 1~22 구분코드 4-2 categories[].mokjaType String Y 목자판 타입 “A”,“B”,“C”,“E”,“F”,“G”,“H”,“S” 4-3 categories[].width String Y 목자판 폭 “30cm”,“15cm” 4-4 categories[].clslevel String Y 수위 클래스 n~nm 실제 예시
- 원천 데이터- 라벨링 데이터
{ "info": {
"id": 1,
"name": "JJNET Consortium Dataset",
"version": "1.0",
"year": 2022,
"maker": "JJNET Consortium",
"createdAt": "2022-08-05T05:49:02.276Z"
},
"images": [
{
"id": 1,
"uuid": "89f30972-86a8-4652-8902-b5d67342aeea",
"infoId": 1,
"frameId": null,
"mokjaType": "C",
"width": 1920,
"height": 1080,
"filename": "/static/refine/frames/2022-08-12/78696a4c-63ad-4832-9787-965c6965e6d3.jpg",
"waterlevel": "1.7",
"climate": null,
"backcolor": "White",
"time": "2022-08-12T08:35:34.482Z",
"obstruction": null
}
],
"annotations": [
{
"id": 1,
"uuid": "f2344ce6-bfb8-421d-9ed7-156aa4c2883e",
"infoId": 1,
"imageId": 3098,
"classId": 2,
"name": "1m",
"relativeCoordinates": "{\"center_x\":\"0.290625\",\"center_y\":\"0.574306\",\"width\":\"0.032812\",\"height\":\"0.129167\"}"
}
],
"categories": [
{
"id": 1,
"mokjaType": "A",
"width": "30cm",
"clslevel": "0~5m"
}
]
-
데이터셋 구축 담당자
수행기관(주관) : 주재넷(주)
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 박종호 02-2135-9112 pjh@jjnet.co.kr 총괄업무, 관측시설 설계 자문 및 구축, 원시데이터 정제, 가공 저작도구 비식별화도구 구현, 학습모델 구현 AI 관제서버 설치 운영 및 학습 수행 수행기관(참여)
수행기관(참여) 기관명 담당업무 코스모테크 원시데이터 수집
성남시 관내 관측 시설 설치/다종의 수위표 제작 및 테스트/라벨링 데이터 품질 검사닐슨앤컴퍼니 원시데이터 정제, 가공
성남시 관내 관측 시설 설치/다종의 수위표 제작 및 테스트/라벨링 데이터 품질 검사데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 박종호 02-2135-9112 pjh@jjnet.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.