-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-06 데이터 최종 개방 1.0 2023-07-20 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-06 산출물 전체 공개 소개
전국을 수도권, 동부권, 서부권, 제주 및 도서지역 각 권역별로 4천세트 씩, 총 16,000세트의 여행로그 데이터를 구축
구축목적
- 여행자의 이동패턴과 소비내역, 활동 내역 등 데이터 수집 - 관광업계 자체적으로 수집하기 어려운 양질의 AI데이터 제공 - AI기술을 활용한 관광산업 혁신 생태계 구축 - AI기술 기반의 개인화된 서비스로 관광객들의 경험 향상
-
메타데이터 구조표 데이터 영역 문화관광 데이터 유형 텍스트 , 이미지 데이터 형식 CSV 데이터 출처 자체 수집 라벨링 유형 텍스트 라벨링 형식 CSV 데이터 활용 서비스 여행객 정보 기반 고지출 여행객 예측, 여행객 선호도 기반 여행장소 추천 데이터 구축년도/
데이터 구축량2022년/서부권 4,000세트 -
1. 데이터 구축 규모
데이터 구축 규모 구분 구축실적 [3-005-279] 서부권 여행자 정보 (여행자 패널 데이터) 4,000 SET 동선 정보 (GPS 데이터 ) 4,000 SET 활동정보 (여행기록 데이터 ) 4,000 SET 활동정보 (여행지 사진 데이터) 161,444 장 소비 내역 (소비내역 데이터 ) 4,000 SET POI 데이터 1 Set 2. 데이터 분포
데이터 분포 서부권 성별 남 1,524 38% 여 2,476 62% 연령별 20대 1,382 35% 30대 1,376 34% 40대 613 15% 50대↑ 629 16% 여행 기간별 당일 1,895 47% 1박2일 1,551 39% 2박3일이상 554 14% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드AI 모델 설명 학습 모델 알고리즘 성능지표 선정 사유 여행객 정보 기반 고지출 여행객 예측 모델 Pycaret F1-score 0.70이상 - Data Leakage를 막기 위해 여행객의 사전 정보, 페르소나, 소득 수준, 호텔 예약 정보 등 여행 출발 이전부터 알 수 있는 정보를 정제한 후 선정 - EDA를 통해 각 변수별 특성을 파악하고 소비 지출에 영향을 주는 변수에 무엇이 있는지 1차적으로 확인 - 2D Tensor Data의 분류 예측 문제는 일반적으로 트리 기반 부스팅 모형이 가장 좋은 성능을 보이나 데이터 전체 데이터 개수가 크지 않은 경우 Over fitting의 문제를 고려해야 함 - 앙상블 이외의 모형이 더 좋은 성능을 보일 가능성을 배제할 수 없기 때문에 데이터 전처리 이후 Pycaret 알고리즘을 통해 Validation Data Set에 가장 높은 성능을 보이는 모델을 선정하고 추가 작업하여 최종 모델 선정 여행객 선호도기반 여행 장소 추천 알고리즘 Essemble model Recall@10 0.25 - 추천시스템은 전통적으로 협력필터링, 컨텐츠 기반 시스템 그리고 이 둘의 장점을 합친 하이브리드 모델이 존재 - 최근 인공지능 분야의 비약적인 발전과 더불어 오토인코더와 같은 딥러닝 모델들이 추천시스템에 적용 - 그러나 본 개발 모델의 경우 추천 성능 못지않게 이후 확장 가능성 및 모델 결과에 대한 분석 그 자체가 중요함 - 따라서 기존 추천시스템에서 사용되던 딥러닝 기반 모델보다 사용자 정보를 넣었을 때 선호도를 예측하는 Regression 기반의 모델을 사용하여 추천 장소를 선정하는 방식을 선택 - 일반적으로 2D Tensor 데이터에서 가장 좋은 성능을 보이는 Random Forest, Cat Boost, LGBM, XG Boost등의 모델을 후보 모델로 선정함 1. 여행객 정보 기반 고지출 예측 모델
◦ 모델 목적
- 여행객들의 사전 정보를 토대로 여행 출발 전, 여행지에서 지출을 많이하는 여행객을 미리 예측하여 분류
◦ 사용 모델 및 선정 이유
- 본 과제에서 활용할 수 있는 여행객 사전 정보에 범주형 데이터가 다수 존재하여 범주형 데이터를 효율적으로 처리하기 위해 Categorical Boosting Machine(Cat Boost)을 후보군 선정
- 또한 데이터 특성과 모델 목적상 과적합 최소화를 위해 Cat Boost가 오버피팅을 줄이는 데 이점이 있고 자체적으로 feature importance를 제공하기에 예측 결과에 대한 사후 분석(feature 관련)에 유리하다는 점을 고려
- 본 과제 1차 샘플 데이터를 활용하여 다른 모델들과 Cat Boost의 성능을 비교했을 때 Cat Boost가 우수한 성능을 보였고, 최종적으로 사용 모델로 선정
◦ 사용 데이터
- 여행객 데이터 중 지출 예측에 유의미하다고 판단되는 데이터를 통합하고, data leakage가 없는 데이터를 선별하여 사용
- 거주지시군구코드, 성별, 최종학력이수여부, 혼인상태, 가족현황, 직업_기타, 본인소득, 가구소득, 여행빈도_기간, 여행빈도, 선호여행_시도(3개), 여행스타일(8개), 여행현황(거주지, 목적지, 동반현황), 여행 동기, 주요이동수단, 여행 페르소나, 사전 소비내역
◦ 전처리 작업
- 여행일수 전처리 : 여행 시작 및 종료 날짜 정보를 추출하고 총 여행 일수를 계산
- 사전 숙박 예약 정보 : 숙박 데이터 결제 정보 중, 여행 일자 이전에 미리 예약한 내역만을 추출하여 ‘사전 숙소 예약 금액’을 0과 1사이 bin으로 처리
- 동반자 연령대 : 구체적 연령대를 알 수 없어, 동반자 연령대의 평균을 추출하여 사용
- feature 내부 데이터 전처리 : 데이터 중 라벨 인코더로 부여할 수 없는 정보들을 추출하고, 각 데이터 형태에 맞게 범주형 변수로 변경
ex) 3개의 column에 나눠 있는 범주형 형태의 여행 동기를 binary 형태의 data로
바꿈
◦ 학습 모델 설계
- Smote 적용
- Imbalanced data model pipeline 구축
- grid search와 random search를 조합한 Hyper parameter 탐색
- 최종 모델 적합
[고지출 예측모델 학습 스크린샷]
◦ 성능 평가
- 이진 분류를 평가하기에 적합한 f1_score을 기준으로 사용
- 학습결과는 f1_score 성능 목표를 넘겼으며 test data set을 활용하여 검증한 결과는 아래와 같음성능 평가 F1-Score precision recall 목표 달성 여부 0.8067 0.8286 0.7829 O - confusion matrix:
2. 여행객 선호도 기반 여행 장소 추천 모델
◦ 모델 목적
- 유저 정보와 여행지역(시/도) 정보가 주어지면 10개의 여행지를 추천하는 모델
◦ 사용 모델 및 선정 이유
- [Cat Boost] 특성변수가 범주형일 때 일반적으로 사용하는 one-hot encoding 대신 실수인 순서목표통계량(ordered target statistic)으로 전환하여 사용하는 방식
- 범주형 특성변수가 많을 때 적합한 모델임. 본 과제에서는 범주형 데이터인 여행지명, 시/도, 군/구 정보를 학습하기에 용이하기 때문에 CatBoost를 모델로 선정
◦ 사용 데이터 (사용 변수)
- (Input data) 유저 정보 및 여행지 정보
- (output) 추천 여행지 10군데
- 데이터 중 활용 변수는 유저 정보와 여행지 정보로 구분하여 사용사용 데이터 (사용 변수) 유저 정보 : 유저 미션, 성별, 연령대, 소득, 여행스타일(8개 항목), 여행동기(1개 항목), 동반자 수 여행지 정보 : 여행지명, 여행지 시/도 및 군/구 정보, 여행지 종류, 해당 여행지 체류시간 평균, 추천 의향 점수 평균, 재방문 의향 점수 평균, 재방문 여부 비율, 동반자 수 평균 만족도 ◦ 전처리 작업
- 여행지 선별 : 방문지 유형코드 중 1-자연관광지, 2-역사/유적/종교 시설 (문화재, 박물관, 촬영지, 절 등), 3-문화시설(공연장, 영화관, 전시관 등), 4-상업지구(거리, 시장, 쇼핑시설), 5-레저/스포츠 관련 시설(스키, 카트, 수상레저), 6-테마시설(놀이공원, 워터파크), 7-산책로, 둘레길 등, 8-지역축제, 행사에 해당하는 방문지를 여행지로 파악해 데이터 사용
- 시/도 변수, 군/구 변수 생성 : 여행지의 주소에서 시/도와 군/구 변수 생성
예시) 인천 강화군 삼산면 매음리 629 → 시/도 변수: 인천, 군/구 변수: 강화군
- 학습데이터에서 여행지에 대한 평균 변수 생성 : 학습데이터에서 각각의 여행지마다 체류시간 평균, 추천의향 점수의 평균, 재방문 비율, 동반자 수의 평균, 재방문의향 점수의 평균을 산출해 변수 생성◦ 학습모델 설계
- Random Search를 활용한 초모수 조절
· K-Fold Cross Validation를 병행하여 가장 검증된 초모수 값 확보
· 데이터셋에 고유한 관광지가 많아 학습 시 최대한 많은 데이터를 보존하기 위해 K=10, 10개의 fold로 교차검증 진행
- CatBoost Regressor를 적용해 만족도 예측
· 만족도: 1(매우 불만족), 2(불만족), 3(보통), 4(만족), 5(매우 만족)
- 모델이 예측한 여행지의 만족도가 4.5이상이면 추천 항목에 포함
※ 추천의 기준으로 설정한 4.5는 도메인에 따라 조정이 가능하며 본과제에서는 사용자가 관광지에 대한 만족도를 4점, 5점으로 주는 경향이 높아 보수적으로 4.5를 임계값으로 설정
◦ 성능 평가
- Recall@10※ 사용자가 만족하는 모든 아이템 중에서 모델이 추천한 아이템 10개가 얼마나 포함되는지 비율을 의미하며 각 사용자마다의 recall@10 값을 구하여 그 평균을 최종 recall@10 값으로 산정
- 최종 성능 : 0.3745 (목표 성능 이상)
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 여행객 정보 기반 고지출 여행객 예측 성능 Prediction Cat Boost Classifier F1-Score 0.7 점 0.7465 점 2 여행객 선호도 기반 여행 장소 추천 성능 Extraction Cat Boost Recall@10 25 % 37.1 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 구축 ERD
[ 3-005_국내여행로그데이터수집_ERD.png ]
2. 데이터 구성
데이터 구성 데이터구분 데이터 데이터 명 수량 [3-005-279] 서부권 여행로그 데이터 tc_codea_코드A.csv 각csv 파일별 4,000Set 구성 tc_codeb_코드B.csv tc_sgg_시군구코드.csv tn_activity_consume_his_활동소비내역_C.csv tn_activity_his_활동내역_C.csv tn_adv_consume_his_사전소비내역_C.csv tn_companion_info_동반자정보_C.csv tn_lodge_consume_his_숙박소비내역_C.csv tn_move_his_이동내역_C.csv tn_mvmn_consume_his_이동수단소비내역C.csv tn_tour_photo_관광사진_C.csv tn_traveller_master_여행객 Master_C.csv tn_travel_여행_C.csv tn_visit_area_info_방문지정보_C.csv tn_poi_master_POIMaster.csv POI Master gps_Data n_gps_coord_*.csv [ * = 여행객 ID ] 4,000개 photo 여행객ID + 순번. jpg 161,444개 -
데이터셋 구축 담당자
수행기관(주관) : ㈜데이터웨이
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김정남 02-2205-4500 33823698@data-way.co.kr 사업 실무 책임자 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜데이터웨이 데이터 설계, 검사 ㈜케이스탯리서치 데이터 획득(수집) ㈜올포랜드 데이터 정제 ㈜지디에스컨설팅그룹 데이터 가공, 저작도구 개발 에이드리븐(주) 크라우드 소싱 ㈜티지360테크놀로지스 크라우드 소싱 고려대학교 산학협력단 AI모델 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김정남 02-2205-4500 33823698@data-way.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.