NEW 반려견 성장 및 질병관련 말뭉치 데이터
- 분야농축수산
- 유형 텍스트
- 생성 방식LLM
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2025-09-30 최종데이터 공개 1.0 2025-06-30 데이터 최종 개방 샘플 우선 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-10-02 교육동영상 공개 2025-10-01 데이터셋, 산출물 수정 활용가이드라인, 데이터 통계 2025-09-30 산출물 추가 개방 데이터 설명서 2025-08-25 Sample 수정 다운로드 방식 수정 2025-06-30 산출물 일부 공개 활용가이드라인 소개
- 반려견 생애주기에 따라 성장 및 질병 관리에 활용될 수 있는 말뭉치 데이터 - 반려견 보호자 질의(Q&A) 및 수의사 답변 데이터 구축
구축목적
- 반려견의 생애주기에 따른 성장 및 질병에 대한 보호자 질의에 답할 수 있는 AI모델 개발에 활용
-
메타데이터 구조표 데이터 영역 농축수산 데이터 유형 텍스트 데이터 형식 .txt 데이터 출처 직접 수집 라벨링 유형 질의응답(자연어) 라벨링 형식 .json 데이터 활용 서비스 챗봇 서비스 데이터 구축년도/
데이터 구축량2024년/기본정보 데이터 1,000,000 토큰, 질의응답 데이터 3,000,000 토큰 -
[데이터 구축 규모]
데이터 구축 규모 데이터 구분 구축규모 (토큰) 기본정보 데이터 1,066,794 질의응답 데이터 - 질의 1,735,201 질의응답 데이터 – 답변 1,975,328
[데이터 분포 – 기본정보 데이터]데이터 분포-기본정보 데이터 클래스 구분 구축 수량 구축 비율 내과 186 70% 피부과 34 13% 안과 3 1% 외과 40 15% 치과 2 1% 계 265 100% ※ 특이사항: 최종데이터 제출 시에 Training / Validation / Test 의 3개 폴더로 랜덤하게 나누는 과정에서 안과, 치과는 "Training" 데이터셋에만 포함되어 있음(파일 수가 각각 3개, 2개인 이유)
단, 말뭉치 학습의 경우 Perplexity 감소율을 따지는 정량 지표를 가지고 있어 "특정과"에 상관 없이 학습이 진행되므로, 학습에 문제는 없으며, 실제로 유효성 검증을 위한 학습을 하는 과정에서 "진료과"를 나누지 않고 통째로 언어 모델 학습에 활용하였음(진료과 구분은 데이터 구축 과정에서 단순히 “진료과”를 구분하여 통계를 내기 위한 목적이었음)
[데이터 분포 – 질의응답 데이터]데이터 분포-질의응답 데이터 클래스 구분 구축 수량 구축 비율 내과 12,279 51% 피부과 3,149 13% 안과 1,196 5% 외과 6,403 27% 치과 979 4% 계 24,006 100% -
-
[기본정보 데이터]
AI모델-기본정보 데이터 AI모델 성능 지표 및 목표값 Data I/O Llama 8B Perplexity 감소율 10% 이상 Input data : 관련 서적, 논문을 통한 fine-tuning 데이터
[질의응답 데이터]AI모델-질의응답 데이터 AI모델 성능 지표 및 목표값 Data I/O Llama 8B 정확도 80% 이상
(BLUE 40 기준)Input data : EMR 차트, 쿠팡 로켓 펫닥터/비마이펫 질의
output data : 다빈도 질환에 대한 답변
① 기본정보/질의응답 관련 데이터 준비
② 초기 모델 학습 (SFT - Supervised Fine-Tuning)
- (모델 초기화) Llama 8B 모델 초기화 (가중치/파라미터 초기 상태 설정)
- (지도 학습) 텍스트 데이터를 사용하여 모델을 지도 학습 방식으로 학습
③ 인간 피드백 수집 및 선호 모델링
- (피드백 인터페이스 개발) 모델의 출력에 대해 인간 피드백을 받을 수 있는 웹 인터페이스 또는 애플리케이션 개발
- (피드백 수집) 모델이 생성한 답변을 사용자에게 제공하고, 사용자는 각 답변에 대해 선호도를 표시 Ex) "좋음", "보통", "나쁨"
④ DPO를 통한 모델 업데이트
- (선호 데이터 학습) 간 피드백 데이터를 사용하여 모델을 업데이트 ☞ 강화학습 단계를 생략하고, 사용자 선호 데이터 반영
- (모델 학습 루프) 새로운 피드백 데이터를 지속적으로 반영하여 모델을주기적으로 업데이트
⑤ 모델 배포 및 유지보수
- (모델 배포) 학습된 모델을 API 형태로 배포하여 다양한 애플리케이션에서 사용
- (피드백 수집 및 업데이트) 모델이 실시간으로 사용자 피드백을 받을 수 있도록 시스템을 구축하고, 주기적으로 모델을 업데이트하여 성능을 유지 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드[데이터 구성]
데이터 구성 AI 모델 Task 어노테이션
방법주요 어노테이션
속성속성 설명 라벨링
데이터 포맷Generation Text Embedding QA 6종의 진료과별 유형 분류 json 72종의 질환별 유형 분류
[어노테이션 포맷 – 기본정보 데이터]어노테이션 포맷-기본정보 데이터 번호 속성명 속성설명 타입 형식/범위 1 title 도서명 String - 2 author 저자명 String - 3 publisher 출판사명 String - 4 department 진료과 String “내과”, “외과”, “치과”, “피부과”, “안과” 5 disease 말뭉치 String -
[어노테이션 포맷 – 질의응답 데이터]어노테이션 포맷-질의응답 데이터 번호 속성명 속성설명 타입 형식/범위 1 meta 메타정보 Object - 1-1 lifeCycle 생애주기 String “자견”, “성견”, “노령견” 1-2 department 진료과명 String “내과”, “외과”, “치과”, “피부과”, “안과” 1-3 disease 세부질환명 String - 2 qa 질의응답 Object - 2-1 instruction 지시문 String - 2-2 input 질의 String - 2-3 output 답변 String -
[데이터 포맷]데이터 포맷 세부 데이터명 원시데이터* 포맷 원천데이터* 포맷 라벨링 데이터 포맷 기본정보 데이터 JSON JSON JSON 질의응답 데이터 JSON JSON JSON
[실제예시 - 기본정보 데이터]
[실제예시 – 질의응답 데이터] -
데이터셋 구축 담당자
수행기관(주관) : 브랜드콘텐츠
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 최훈녕 070-4112-6292 operating@techncare.co.kr 총괄책임 수행기관(참여)
수행기관(참여) 기관명 담당업무 대한수의사회 데이터 수집, 검수 벳앤라이프 데이터 수집 아몬드 데이터 정제 한알음정보 데이터 가공 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 최훈녕 070-4112-6292 operating@techncare.co.kr 최창규 02-6442-1581 operating1@techncare.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 최훈녕 070-4112-6292 operating@techncare.co.kr 최창규 02-6442-1581 operating1@techncare.co.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 최훈녕 070-4112-6292 operating@techncare.co.kr 최창규 02-6442-1581 operating1@techncare.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.