LLM의 성능을 평가할때, 어떤 기준으로 평가해야할까?
그러한 의문을 해결해주는 것이 벤치마크 데이터셋이다.
벤치마크 데이터셋
- 모델 품질 평가를 위한 표준화 방식
- 점수를 통해 학습 모델 성능 파악 및 비교
- 학습 모델이 어떤 과목에 능숙한지 파악
전통적 지표
- Perplexity & BLEU
- 기본적으로 언어 모델 평가시 언어 모델 핵심 능력 : 다음 단어 예측 능력을 확인
Big 6 벤치마크 데이터셋
- ARC, HellaSwag, MMLU, TruthfulQA, Winogrande, GSM8k
- 허깅 페이스 Open LLM 리더보드순위에 영향을 미치는 벤치마크 데이터셋
1. ARC
- 목적 : 추론 능력 평가
2. HellaSwag
- 목적 : 상식 추론
- 미완성된 구절을 LLM으로 하여금 완성
- 문맥에 따라 텍스트 이해, 예측 능력을 테스트함으로써 LLM 상식 추론을 평가
- 예시) 불완전한 구절이 주어지고, 주어진 문맥에서 논리적으로 이어지는 결말을 LLM이 생성
3. MMLU
- 목적 : 종합적 이해도 평가
- MMLU는 기술과학에서 사회과학 분야까지 이르는 57개 다양한 과제에 대한 LLM 일반적 지식을 측정해 주제 및 난이도 이해와 적응력을 평가
4. 진실성QA (환각현상방지)
- 과제 : 허위 정보 인식
- TruthfulQA는 LLM이 일반적 오해에 기반해 잘못된 답변을 내뱉는지 테스트
5. WinoGrande
- 과제 : 문맥 기반 추론
- 자연어 처리를 기반으로 문맥을 올바르게 파악하는 LLM 능력을 테스트하기 위해 두 개의 가능한 답이 있는 거의 동일한 문장 쌍의 형태를 취함. 정답은 촉매로 쓰이는 트리거 단어에 따라 달라짐
6. GSM8k
'Computer Engineering > AI' 카테고리의 다른 글
chatgpt API를 활용하여 이미지 기반 응답 생성하기 (4) | 2024.12.02 |
---|---|
실전 LLM chp1 (1) | 2024.08.21 |
의료 LLM의 발전에 대해서 (1) | 2024.07.16 |
Data centric AI란? (0) | 2024.07.11 |
요약 - 섹션 1) 커피 한잔 마시며 듣는 AI 이야기 (2) | 2024.07.08 |