Computer Engineering/AI

벤치마크 데이터셋에 대해

soohey 2024. 8. 14. 16:01

LLM의 성능을 평가할때, 어떤 기준으로 평가해야할까?

그러한 의문을 해결해주는 것이 벤치마크 데이터셋이다.

 

 

벤치마크 데이터셋

  • 모델 품질 평가를 위한 표준화 방식
  • 점수를 통해 학습 모델 성능 파악 및 비교
  • 학습 모델이 어떤 과목에 능숙한지 파악

 

전통적 지표

  • Perplexity & BLEU
  • 기본적으로 언어 모델 평가시 언어 모델 핵심 능력 : 다음 단어 예측 능력을 확인

 

Big 6 벤치마크 데이터셋

  • ARC, HellaSwag, MMLU, TruthfulQA, Winogrande, GSM8k
  • 허깅 페이스 Open LLM 리더보드순위에 영향을 미치는 벤치마크 데이터셋 

 

1. ARC

  • 목적 : 추론 능력 평가

2. HellaSwag

  • 목적 : 상식 추론
  • 미완성된 구절을 LLM으로 하여금 완성
  • 문맥에 따라 텍스트 이해, 예측 능력을 테스트함으로써 LLM 상식 추론을 평가
  • 예시) 불완전한 구절이 주어지고, 주어진 문맥에서 논리적으로 이어지는 결말을 LLM이 생성

3. MMLU

  • 목적 : 종합적 이해도 평가
  • MMLU는 기술과학에서 사회과학 분야까지 이르는 57개 다양한 과제에 대한 LLM 일반적 지식을 측정해 주제 및 난이도 이해와 적응력을 평가

4. 진실성QA (환각현상방지)

  • 과제 : 허위 정보 인식
  • TruthfulQA는 LLM이 일반적 오해에 기반해 잘못된 답변을 내뱉는지 테스트

5. WinoGrande

  • 과제 : 문맥 기반 추론
  • 자연어 처리를 기반으로 문맥을 올바르게 파악하는 LLM 능력을 테스트하기 위해 두 개의 가능한 답이 있는 거의 동일한 문장 쌍의 형태를 취함. 정답은 촉매로 쓰이는 트리거 단어에 따라 달라짐

6. GSM8k