LLM의 성능을 평가할때, 어떤 기준으로 평가해야할까?그러한 의문을 해결해주는 것이 벤치마크 데이터셋이다. 벤치마크 데이터셋모델 품질 평가를 위한 표준화 방식점수를 통해 학습 모델 성능 파악 및 비교학습 모델이 어떤 과목에 능숙한지 파악 전통적 지표Perplexity & BLEU기본적으로 언어 모델 평가시 언어 모델 핵심 능력 : 다음 단어 예측 능력을 확인 Big 6 벤치마크 데이터셋ARC, HellaSwag, MMLU, TruthfulQA, Winogrande, GSM8k허깅 페이스 Open LLM 리더보드순위에 영향을 미치는 벤치마크 데이터셋 1. ARC목적 : 추론 능력 평가2. HellaSwag목적 : 상식 추론미완성된 구절을 LLM으로 하여금 완성문맥에 따라 텍스트 이해, 예측 능력을 테스..
전체 글
공부한거 아카이빙 ing..LLM에 대한 자료수집을 하다가 메디컬 분야에서도 LLM이 유의미한 성과를 얻었길래 아카이빙해봅니다 ^^특정 도메인 분야에 특화된 모델을 만들기위해 해당 지식을 파인튜닝하고 Q&A 챗봇을 만들 수 있는 바탕이 될 것 같습니다 :) 글: https://m.post.naver.com/viewer/postView.naver?volumeNo=38136901&memberNo=34635212 LLM은언어 모델의 한 종류문장 내 단어 시퀀스에 확률을 할당하는 역할목적 : 가장 자연스러운 단어 순서를 찾음이전 단어가 주어지면 다음 단어를 예측함의료분야의 LLM인간과 유사한 텍스트를 이해하고 생성하는 능력을 발휘복잡한 의료 작업을 해결하고 환자 치료를 개선의료 질문-답변(QA) 시스템, 대화 시스템, 텍스트 생성다양한 ..

대학 동기의 추천으로 오픈소스 아카데미의 존재를 알게 되었습니다.백엔드 개발자로 일하면서 제일 친숙한 레디스에 흥미가 제일 갔습니다.그래서 git 활용 및 Redis 섹션에 지원하게 되었습니다. 지원 동기는 직무 내용에 대해 작성했던 것 같습니다.회원 로직 개발 내용과 함께 레디스 오픈소스에 대해 흥미가 생긴 배경에 대해작성했습니다. 그와 더불어 자기소개도 작성해야했는데저의 개발 성향과 최근에 했던 흥미로운 프로젝트들에 대해 작성했습니다. OSSCA에는 체험형/참여형으로 나뉘는데 체험형의 경우 4주, 참여형의 경우 12주 정도로기간차이가 납니다. 체험형을 통해 가볍게 오픈소스를 경험해볼 수 있었습니다. 4주간의 실습이 끝난 뒤에는 멘티별로 개별 활동서를 작성해야합니다.1,2,3,4주차 동안 진행한 실습과..

걸스인텍 카카오 채팅방을 구경하다가 잇츠 스터디의 존재를 알게 되었습니다.우아한 형제들과 함께 협업하여 진행되는 대규모 스터디였고, 당시 백엔드 개발자로일하다가 데브옵스로의 전향을 꿈꾸던 저는 테라폼 스터디를 선택하게 되었습니다. 스터디 풀네임은 [INFRA] Terraform Beginners 입니다.스터디에서 사용된 책은 아래 링크로 첨부합니다.https://product.kyobobook.co.kr/detail/S000202478097?utm_source=google&utm_medium=cpc&utm_campaign=googleSearch>_network=g>_keyword=>_target_id=dsa-435935280379>_campaign_id=9979905549>_adgrou..