콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#금융

BETA 금융상품·서비스 및 소비자 특성 데이터

금융상품·서비스 및 소비자 특성 데이터 아이콘 이미지
  • 분야금융
  • 유형 텍스트
구축년도 : 2025 갱신년월 : 2026-06 조회수 : 830 다운로드 : 67 용량 :
샘플(경량) 데이터 ?

※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2026-06-05 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2026-06-05 산출물 최종 공개

    소개

    - 금융상품(증권·보험 업종 부문) 추천을 위한 AI 학습용 CoT 데이터 작성
    - CoT 데이터 작성을 위한 상품 데이터 및 소비자 합성데이터 구축

    구축목적

    - 증권 투자 및 보험 AI의 전문적 지식 추론 및 설명 가능성 확보
    - 상품 정보의 심층 이해를 통한 고객 질의응대 혁신 데이터 기반 마련
    - 데이터 기반 증권 및 보 서비스 혁신 및 산업 경쟁력 강화를 위한 핵심자산 확보
  • [데이터 규모]

    [데이터 규모]
    구분 구축규모(토큰)
    질문(Question) 969,907
    CoT1~3 2,617,273
    답변(Answer) 1,062,366
    총합 4,649,546

     

    [데이터 분포]

    [데이터 분포]
    업종 구분 질문유형 수량(건) 구성비(%)
    01.증권 01. 고객특성 강조형 2,785 34.8
    02. 투자성향 및 조건기반형 2,830 35.4
    03. 상품 비교 추천형 2,385 29.8
    증권 계 8,000 100
    02.보험 01. 연령별 및 생애주기 저죽성 상품 추천형 301 15.1
    02. 투자형 상품 추천형 301 15.1
    03. 건강 및 질병보장 대비형 1,398 69.8
    보험 계 2,000 100
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    ○ 모델 개요
      • 본 모델은 Qwen2.5-7B를 기반으로 금융상품 설명, 비교, 추천 업무 수행을 위해 LlamaFactory 환경에서 Fine-Tuning 된 모델임. 학습 데이터는 상품명과 상품 정보 그리고 사용자 특성 기반 CoT 데이터 총 1만 건으로 구성되며 80% 학습, 10% 검증, 10% 평가로 분리하여 모델의 일반화 성능을 확보함.
      • 모델 입력은 사용자 정보와 상품 후보 정보를 동시에 제공하는 구조로 설계됨. 사용자 정보는 나이, 직업, 위험 성향 등 기본 프로필을 포함하며 상품 후보 정보는 상품명과 기본 상품 정보로 구성됨. 모델은 입력된 정보를 단계적으로 통합하여 추천 판단을 수행하며 동일 상품군의 약 10개 후보 중 2개에서 4개를 선택하는 멀티라벨 추천 구조를 학습함.
      • 모델은 CoT 기반 reasoning을 통해 조건 해석, 상품 비교, 최종 선택에 이르는 단계적 판단 절차를 내부적으로 습득하도록 설계되었으며 평가 단계에서는 추론 품질과 추천 정확도를 종합적으로 검증함.

    ○ 모델 개요
    구분 학습(Train) 검증(Validation) 평가(Test)
    목적 - CoT 기반 추론 학습
    - LLaMA-Factory 사용
    학습 도중 모델 평가 및 비교 모델 학습 완료 후 모델 테스트
    구성 80% 10% 10%

     

    ○ 모델 학습
      • 모델 학습은 LlamaFactory 기반 Fine-Tuning 으로 진행되며 Instruction과 Response 포맷의 일관성을 유지하는 것이 핵심임. Instruction에는 사용자 정보와 상품 정보가 포함되고 Response에는 CoT1, CoT2, CoT3 그리고 최종 추천 결과가 배치되며 이러한 구조는 모델이 금융문서 기반 reasoning 흐름을 안정적으로 일반화하는 데 필수적인 요소임.
      • 금융상품 정보와 사용자 정보가 함께 제공되는 입력 구조의 특성상 학습 시 문맥 길이 관리가 중요하며 상품 정보 손실을 방지하기 위해 충분한 context length 설정이 필요함. 학습 전 데이터 품질 점검에서는 CoT 단계 간 논리적 연결성, 상품 후보의 정합성, 필드 누락 여부 등을 검증하여 Fine-Tuning 과정의 오류를 최소화해야 함.
      • 학습 후 성능 평가는 학습 단계와 동일한 프롬프트 구조를 적용해 진행되며 ROUGE-1으로 CoT 재현성을 확인하고 F1-score로 멀티라벨 추천의 정확성을 검증함. 이러한 평가 절차는 모델의 추론 신뢰성 확보와 서비스 적용 가능성 확보를 위한 기준으로 활용됨.

    ○ 모델 학습 - Instrution 프롬프트 구성 예시 (금융상품 추천)
    Instrution 프롬프트 구성 예시 (금융상품 추천)
    사용자의 <질문>을 분석하고, 제공된 <상품 리스트> 중 조건에 적합한 상품들을
    추천하세요. 

    <질문> 
    {사용자 질문 텍스트} 

    <상품 리스트> 
    상품1: {상품명}
    상품1 소개: {상품 설명}

    ----

    상품2: {상품 설명}
    상품2 소개: {상품 설명}

    ----

    상품3: {상품 설명}
    상품3 소개: {상품 설명}

    ※ 실제 학습 시에는 상기와 동일한 형식으로 10개 내외의 상품 후보 정보가 입력됨

     

    ○ 서비스 활용 시나리오
      • 금융상품 추천 서비스에서 사용자는 자신의 기본 정보와 질문을 입력하여 모델로부터 추천 상품과 해당 추천 과정의 단계적 설명을 제공받을 수 있음. 모델은 CoT 기반 reasoning을 통해 추천 사유를 명확하게 제시함으로써 설명 가능형 추천 서비스를 구현함.
      • 금융기관 상담 환경에서는 상담사가 모델이 제시한 추천 결과와 판단 근거를 참고하여 상담 효율을 높일 수 있으며 고객 요구에 맞는 상품 탐색 시간을 크게 단축시킬 수 있음. 이러한 구조는 신규 상담 인력 교육이나 표준화된 응답 품질 관리에도 활용 가능함.
      • 상품 비교나 조건 기반 검색 시나리오에서는 모델이 입력 조건을 해석하고 적합한 상품을 선별하는 과정을 자동화하여 상품개발팀, 리스크관리팀 등의 문서 기반 비교 업무에 활용할 수 있음. 추가적으로 약관 변경이나 상품 구조 변동 시에도 모델이 CoT를 기반으로 해석한 결과를 통해 빠르게 영향 분석을 수행할 수 있음.

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    [데이터 구성]

    [데이터 구성]
    Key Description Type
    cot_id cot 데이터 고유 식별 번호 number
    category 해당되는 업종
    (증권, 보험)
    string
    gender 고객 성별(남성, 여성) string
    age 고객 연령대 string
    query_type 고객 질문유형 string
    question 고객 질문 string
    cot1 추론 1단계 string
    cot2 추론 2단계 string
    cot3 추론 3단계 string
    answer 질문과 추론에 기반한 상품 추천 string
    step_count CoT 추론단계 수 int
    product_names 추천된 상품 리스트 array

     

    [어노테이션 포맷]

    [어노테이션 포맷]
    속성명 속성설명 Type 필수여부
    cot cot_id cot 데이터 고유 식별 번호 number Y
      category 해당되는 업종(증권, 보험) string Y
      gender 고객 성별(남성, 여성) string Y
      age 고객 연령대 string Y
      query_type 고객 질문유형 string Y
      question 고객 질문 string Y
      cot1 추론 1단계 string Y
      cot2 추론 2단계 string Y
      cot3 추론 3단계 string Y
      answer 질문과 추론에 기반한 상품 추천 string Y
      step_count CoT 추론단계 수 int Y
      product_names 추천된 상품 리스트 array Y

     

    [데이터 포맷]
    라벨링 데이터 포맷: JSON

     

    [실제 예시]
    {
      "cot_id": 1081,
      "category": "증권",
      "gender": "여",
      "age": "50대",
      "query_type": "고객특성 강조형",
      "question": "저는 50대 여성으로 약 7,000만 원의 자산을 보유하고 있으며, 결혼을 했고 이전에 퇴직연금 형태의 주식형 고위험 상품을 몇 년 이상 장기간으로 운용한 경험이 있습니다. 중장기적인 자산 증식을 목표로 퇴직 이후의 생활비와 여유자금을 준비하는 중인데, 최근에는 배당주와 같이 안정적인 현금 흐름을 기대할 수 있으면서도 장기적으로 자본이득을 추구할 수 있는 상품에 관심이 많습니다. 위험등급 2등급 수준의 다소 높은 위험을 수용할 수 있고, 원금 비보장 상품이라도 수익률과 세제 혜택을 동시에 기대할 수 있다면 좋을 것 같습니다. 특히 중국 주식시장이나 배당주 등, 자산의 가치 상승 여력을 기대할 수 있는 영역에 투자하는 전략에 매력을 느끼고 있습니다. 유동성 측면에서는 필요시 중도 환매가 가능한지 여부도 중요한 고려 요소입니다. 제 상황과 선호 조건에 부합하는 적합한 상품을 추천해 주실 수 있을까요?",
      "cot1": "고객님은 50대 중반으로 자산 규모가 약 7,000만 원에 이르며, 과거 퇴직연금의 주식형 고위험 상품을 장기간 운용한 경험이 있습니다. 이로 미루어 공격적인 투자에 익숙하며, 위험 수용도가 일반적인 동년배 대비 높다고 판단할 수 있습니다. 중장기적 자산 증식이 목적이며, 노후 생활비와 여유자금 마련이 우선적 과제입니다. 배당주와 같은 현금흐름 및 자본이득의 조화, 원금 비보장 가능성 수용, 세제 혜택에 대한 선호, 중국 등 신흥시장 성장성에 대한 관심, 필요시 중도 환매의 유연성 등 다양한 요소를 중요하게 생각하고 있습니다. 전체적으로 적극투자형에 가까운 투자성향이며, 각종 투자 경험과 자금 운영력, 세제 및 유동성 요구까지 다면적으로 고려하는 유형으로 해석할 수 있습니다.",
      "cot2": "고객님의 적극투자형 투자성향과 일치하도록 2등급, 3등급, 4등급, 5등급, 6등급 상품이 모두 허용 범위이며, 특히 2등급의 높은 위험 자산에까지 투자할 수 있습니다. 투자 목표는 중장기적 자산 증식이지만, 동시에 현금흐름 확보와 장기 자본수익 모두를 추구합니다. 원금 비보장을 용인하는 만큼, 수익률과 위험 간의 균형, 세제 혜택 사용, 필요시 중도 환매 가능 여부, 그리고 추적 시장(중국, 배당 등)의 성장성에 대한 기대까지 반영합니다. 유동성 측면에서 해지 가능성이 고려돼야 하며, 배당 수익, 시장 다양성, 세제우대 항목도 중요한 비교 기준이 됩니다. 상품유형은 퇴직연금으로 규정하며, 이 유형 내에서 고객 우선 순위와 투자 여건을 종합적으로 반영해 평가합니다.",
      "cot3": "\"하나올차이나증권자투자신탁[주식-재간접] (C-P)\"는 중국 본토와 역외 주식 시장을 주요 투자처로 삼아 성장성 높은 자산에 분산하며, 최근 1년 기준 6.53%의 수익률(과거 성과임을 유의)을 기록한 바 있습니다. 본 상품은 2등급(높은 위험)으로 분류되며, 적극투자형 고객님이 수용 가능한 위험 수준에 있습니다. 원금 비보장 구조이지만 장기적 자본이득과 잠재적 시장 성장성, 그리고 세제 혜택의 결합이 주요 매력입니다. \"KB 퇴직연금 배당 증권자투자신탁(주식)(C)\"는 배당 성향이 높고 배당 수익률이 우수한 우량주 중심의 전략을 취합니다. 1년간 -2.37%의 수익률(과거 성과임)로 등락이 있었으나, 역시 2등급 위험군으로 적극투자형 고객님께 적합합니다. 중도 환매가 가능하고, 원금이 보장되진 않으나 배당과 자본수익의 현금흐름 및 장기 라이프플랜 수립에 긍정적 영향을 줄 수 있습니다.",
      "answer": "중국 주식시장 성장성에 투자하면서 장기 수익 추구와 세제 혜택을 모두 원한다면 \"하나올차이나증권자투자신탁[주식-재간접] (C-P)\"로 글로벌 분산·성장 역할을, 배당을 통한 현금흐름 확보를 중시한다면 \"KB 퇴직연금 배당 증권자투자신탁(주식)(C)\"로 안정적인 배당수익 강화와 국내 배당주 자산 편입을 병행하는 방법이 좋겠습니다. 두 상품 모두 위험등급 2등급으로 높은 위험을 감수할 수 있는 적극투자형 고객님께서 활용하시기 적합하며, 원금 비보장 구조임에도 세제 혜택과 중도 환매 가능성 등 실질적 투자 유연성도 갖추고 있습니다. 자산의 일정 부분을 각각 상품에 분산 투자하여, 한쪽은 중장기 성장성과 중국 투자 기회, 다른 한쪽은 배당 중심의 현금흐름을 동시에 기대해 보시길 권유합니다. 7,000만 원 수준의 자금을 중장기로 분산 투자하시되, 운용 중 변동성 및 환매 제한, 각 상품의 성과를 주기적으로 점검하시면 더욱 효과적인 자산관리가 가능합니다. 실행 전, 투자 성과와 손실 위험, 개인별 운용 가능성을 꼼꼼히 점검하시길 바랍니다.",
      "step_count": 3,
      "product_names": "[\"하나올차이나증권자투자신탁[주식-재간접] (C-P)\", \"KB 퇴직연금 배당 증권자투자신탁(주식)(C)\"]"
    }

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜투이컨설팅
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김준석 02-786-7281 2mail@2e.co.kr 프로젝트 총괄책임
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    사이오닉에이아이 상품데이터 획득, 수집 및 정제
    에이아이티스토리 소비자 특성 데이터 획득, 수집, 정제 및 가공(합성)
    NH투자증권 CoT 데이터 가공
    솔트룩스 AI모델
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    김준석 02-786-7281 2mail@2e.co.kr
    김준오 02-313-2124 jaykeem@aitstory.com
    정석현 02-557-7000 contact@sionic.ai
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    방그린 02-2193-1600 seongsik.park@saltrux.com
    고동률 02-2193-1600 dongryul.ko@saltlux.com
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    김준석 02-786-7281 2mail@2e.co.kr
    김수림 02-786-7281 2mail@2e.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.

방송영상 데이터 개방 안내

방송영상 데이터는 열람서비스를 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의