※ 23년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 최종산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종개방 1.0 2023-07-05 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-08-01 산출물 전체 공개 Beta Version 2023-08-10 구축업체정보 수정 소개
- 자율주행차에 활용되는 다양한 센서(카메라, 라이다, 레이더) 종류/배치/성능, 주행환경 (날씨, 시간), 차량 (승용차, 트럭, 버스)에 대응하기 위한 디지털 트윈 도로 환경에서의 가상센서 시뮬레이션 데이터 구축 - 카메라, 라이다, 레이더 기반의 인지 센서를 개발하는 기업의 상품성 향상 분야에 접목할 수 있는 기반 데이터 구축
구축목적
- 자율주행 안전을 확보하기 위해 현재 구축된 데이터 대비 월등히 많은 데이터가 필요하며, 제한된 자원으로 모든 데이터를 구축하기 어려우므로 시뮬레이션 구동을 통한 인공지능 학습용 데이터 구축
-
메타데이터 구조표 데이터 영역 교통물류 데이터 유형 이미지 데이터 형식 원천 데이터 : GPS/IMU(txt), Ladar(bin), Lidar(pcd), meta data(json) 라벨링 데이터 : png, json 데이터 출처 자체 수집 라벨링 유형 2D, 3D 바운딩 박스 라벨링 형식 json, png 데이터 활용 서비스 - 자율주행 실차에서는 취득하기 힘든 눈, 비, 등 다양한 조건의 가상환경 데이터 활용하여 제한된 상황에서의 자율주행 알고리즘 적절성 검증에 활용 가능 데이터 구축년도/
데이터 구축량2022년/원천 데이터 총 수량 : 192,096,000 라벨링 데이터 총 수량 : 76,800,000 -
*"자율주행 가상센서 시뮬레이션 데이터는 샘플데이터만 올라가 있으며, AI-Hub 문의하기를 통해 데이터 사용을 요청해주시기 바랍니다.“
1. 데이터 구축 규모
- 원천 데이터1. 데이터 구축 규모- 원천 데이터 센서 파일 포맷 제출 수량 GPS .txt 38,400,000 IMU .txt 38,400,000 Radar .bin 38,400,000 camera .png 38,400,000 lidar .pcd 38,400,000 (*meta data file) .json 96,000 총 수량 192,096,000 - 라벨링 데이터
1. 데이터 구축 규모- 라벨링 데이터 파일 포맷 제출 수량 .png 38,400,000 .json 38,400,000 총 수량 76,800,000 - (샘플)원천데이터 구축 규모
1. 데이터 구축 규모- (샘플)원천데이터 구축 규모 센서 파일 포맷 제출 수량 GPS .txt 450,000 IMU .txt 450,000 Radar .bin 450,000 camera .png 450,000 lidar .pcd 450,000 (*meta data file) .json 750 총 수량 2,250,750 - (샘플)라벨링데이터 구축 규모
1. 데이터 구축 규모- (샘플)라벨링데이터 구축 규모 파일 포맷 제출 수량 .png 450,000 .json 450,000 총 수량 900,000 2. 데이터 분포
- 도로 환경2. 데이터 분포- 도로 환경 도로 환경 데이터 수 분포도 도심(UR) 22,080,000 57.5 자동차전용도로(HI) 16,320,000 42.5 합계 38,400,000 100 - 차종
2. 데이터 분포- 차종 차종 데이터 수 분포도 승용(SE) 19,200,000 50 상용(CO) 19,200,000 50 합계 38,400,000 100 - 시간대
2. 데이터 분포- 시간대 시간대 데이터 수 분포도 새벽(T1) 9,600,000 25 주간(T2) 9,600,000 25 저녁(T3) 9,600,000 25 야간(T4) 9,600,000 25 합계 38,400,000 100 - 날씨 환경
2. 데이터 분포- 날씨 환경 날씨 환경 데이터 수 분포도 맑음(W1) 7,680,000 20 흐림(W2) 7,680,000 20 안개(W3) 7,680,000 20 눈(W4) 7,680,000 20 비(W5) 7,680,000 20 합계 38,400,000 100 - 도로 구분
2. 데이터 분포- 도로 구분 도로 구분 데이터 수 분포도 도심/세종(U4) 5,520,000 14.4 도심/대구(U1) 5,520,000 14.4 도심/상암(U3) 5,520,000 14.4 도심/판교(U2) 5,520,000 14.4 자동차전용도로/세종1(H1) 4,080,000 10.6 자동차전용도로/세종2(H2) 4,080,000 10.6 자동차전용도로/영동1(H3) 4,080,000 10.6 자동차전용도로/영동2(H4) 4,080,000 10.6 합계 38,400,000 100 <도로 구분 분포도>
- 시나리오 구분
2. 데이터 분포- 시나리오 구분 시나리오 구분 데이터 수 분포도 도심/일반(N) 14,400,000 37.5 도심/엣지(E) 7,680,000 20 자동차전용도로/일반(N) 14,400,000 37.5 자동차전용도로/엣지(E) 1,920,000 5 합계 38,400,000 100 <시나리오 구분 분포도>
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 2D
항목명 가상 센서 2D 객체 인식 목적 2D 객체 검출 유효성 검증 환경 CPU Intel® Xeon(R) Gold 6342 CPU @ 2.80Hz x 48 Memory 256 GB GPU NVIDIA RTX A6000 Storage 4.4TB OS Ubuntu 18.04 전체 구축 데이터 대비
모델에 적용되는 비율총 38,400,000 건 중 176,000건 데이터 활용 모델 학습 과정별
데이터 분류 및 비율 정보Training : Validaion : Test = 8 : 1 : 1 제한사항 • 전체 구축 수량(38,400,000건) 중, 176,000건만을 유효성 모델에 활용함
▷본 과제 최종 평가회의에서 평가위원들의 의견에 따라 NIA, TTA 수행기관 간 협의를 통해 해당 수량을 확정함2. 3D
항목명 가상 센서 3D 객체 인식 목적 3D 객체 검출 유효성 검증 환경 CPU AMD Ryzen 7 5800 8-Core Processor Memory 15.6 GB GPU NVIDIA RTX 3070 Storage 502.9GB OS Ubuntu 18.04 전체 구축 데이터 대비
모델에 적용되는 비율총 38,400,000 건 중 176,000건 데이터 활용 모델 학습 과정별
데이터 분류 및 비율 정보Training : Validaion : Test = 8 : 1 : 1 제한사항 • 전체 구축 수량(38,400,000건) 중, 176,000건만을 유효성 모델에 활용함
▷본 과제 최종 평가회의에서 평가위원들의 의견에 따라 NIA, TTA 수행기관 간 협의를 통해 해당 수량을 확정함
• 모델 학습 및 구동을 위해 원천/라벨링 데이터의 포맷을 변경하여(전처리) 사용함ㅇ 실제 데이터셋 결과
ㅇ 일반 시나리오 결과
ㅇ 엣지 시나리오 결과
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 가상 센서 3D 객체 인식 3D Object Detection SECOND AP 75 % 77.21 % 2 가상 센서 2D 객체 인식 Object Detection Swin Transformer mAP 55 % 74.9 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드*"자율주행 가상센서 시뮬레이션 데이터는 샘플데이터만 올라가 있으며, AI-Hub 문의하기를 통해 데이터 사용을 요청해주시기 바랍니다.“
ㅇ 데이터 설명
- 자율주행 가상센서 시뮬레이션 데이터 구축
- 승용/상용, 도심도로/자동차전용도로, 주간/야간/악천후 상황에 대한 데이터 구축
- 12개 상황 별 30개 이상의 시나리오로 시뮬레이션 구동
- 시뮬레이션 결과 카메라 이미지 구축
- 이동객체에 대한 라이다(LiDAR) 구축
- 라이다 데이터 객체의 위치, 크기, 방향을 판단할 수 있는 json 형태의 결과물 산출
- 주행 차량이 위치, 속도 등을 판단할 수 있는 txt 형태의 IMU, GPS 결과물 산출ㅇ 어노테이션 유형
- 2D, 3D 바운딩 박스
- 2D, 3D Bounding BOX Format of Morai SIM -
데이터셋 구축 담당자
수행기관(주관) : ㈜모라이
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김종화 data@morai.ai 시뮬레이션 데이터 수집/정제/가공, 데이터 시각화 도구 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 주식회사 인피닉 일빈/엣지 시나리오 개발, 일빈/엣지 시나리오의 OpenSCENARIO 제작 한국자동차연구원 일빈/엣지 시나리오 정의, 지역별 ODD를 활용한 일빈/엣지 시나리오 정의 지능형자동차부품진흥원 시뮬레이션 데이터 검수, 일빈/엣지 시나리오 가공 데이터 검수 충북대학교 AI 학습모델 구현, 가상 데이터셋의 AI 학습을 통한 모델 구현 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김종화 data@morai.ai
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.