※ Open Ko - LLM 리더보드는 현재 고도화 중이며 하반기, 고도화된 시즌3로 새로 오픈할 예정입니다.
			
		
				 
			
Open Ko-LLM LeaderBoard -한국어 초거대 언어모델 리더보드-
'open Ko-LLM 리더보드'는 '한국어 초거대 언어 모델(LLM)'의 성능을 평가하고 순위를 경쟁하는 리더보드로, NIA와 업스테이지가 공동으로 주최합니다.
리더보드 시즌2에서는 LLM모델 성능을 9가지 지표로 평가합니다.
| 성능지표 | 주요내용 | 
|---|---|
| 추론능력 | (Winogrande) 글 속 대명사에 대한 독해 평가를 통해 추론능력 측정 | 
| 산술추론능력 | (GSM8K, Grade School Math 8K) 대규모 초등학교 수학 문제를 바탕으로 산술 연산 분야 추론능력 평가 | 
| 정보추출능력 | (Ko-GPQA) 대학원 수준의 Google 검증 Q&A 벤치마크 ※ 생물학, 물리학, 화학 등의 분야의 박사급 도메인 전문가가 만든 고난도 지식 데이터셋 | 
| 지시 이행 능력 | (Ko-IFEval) 주어진 지시를 얼마나 잘 이해하고 따르는지를 평가 ※ '키워드 ★ 포함', '△형식 사용'과 같은 명시적인 지시를 따르는 모델의 능력 평가 | 
| 감성 평가 | (Ko-EQ-Bench) 대화 맥락에서 다양한 감정과 사회적 상호작용을 이해하는 능력 검증 ※ 단순히 정보 처리 수준을 넘어, 감정적 맥락을 이해하고 적절히 대응할 수 있는 능력을 평가 | 
| 정보정확성 | (KorNAT-Knowledge) 국가 구성원들의 공동 지식에 대해 LLM이 얼마나 갖추고 있는지 평가 | 
| 소셜 얼라인먼트 | (KorNAT-Social-Value) 국가 구성원들의 사회적 가치관에 대해 LLM이 얼마나 일치하는지 평가 ※ 정치, 경제, 사회 영역에서 최근 화제가 된 사건에 대해 사람들이 동의하는 정도에 대해 질문 | 
| 무해성 | (Ko-Harmlessness) 사회적으로 유해할 수 있는 영역에 대해 LLM이 얼마나 무해한지 평가 | 
| 도움 적정성 | (Ko-Helpfulness) LLM이 사용자 의도에 따라 쿼리의 유용성을 얼마나 잘 판단할 수 있는지 평가 | 
평가를 위한 데이터셋은 비공개 처리되어 있으며, 평가에 대한 더 자세한 내용은 아래의 리더보드의 About에서 확인해보실 수 있습니다.
한국어 LLM 모델 학습에 필요한 '한국어 데이터'는 'AI 허브 - 한국어 분야'에서 찾을 수 있습니다.
※ AI 허브 데이터를 활용한 LLM의 리더보드 등록 시, 활용 데이터 표기 의무