서론프리랜서로 활동하는 분들이 가장 어려워하는 부분 중 하나는 새로운 일거리를 찾는 것입니다. 적절한 채용 공고를 빠르게 파악하고 분석할 수 있다면 커리어 개발에도 도움이 될 것입니다. 이번에는 잡코리아 사이트를 크롤링하여 프리랜서 채용 공고를 수집하고, 카카오톡에서 손쉽게 공유할 수 있도록 데이터를 정제하는 과정을 다루어 보겠습니다. 1) 크롤링 작업잡코리아는 다양한 채용 공고를 제공하며, 프리랜서 채용 공고도 확인할 수 있는 플랫폼입니다. 저는 Python과 BeautifulSoup 라이브러리를 활용하여 원하는 데이터를 수집하였으며, 이를 통해 페이지별로 데이터를 정리하고, 크롤링이 종료될 조건을 설정하였습니다. 크롤링 코드는 기본적으로 페이지별 데이터를 탐색하며, 데이터가 없을 경우 자동으로 중단됩..
전체 글
경험들을 아카이빙합니다.서론챗지피티로 이미지에 대한 처리를 해본적이 있다.그렇다면 API로도 당연히 가능할 것이다! 구글 드라이브 특정 폴더에 있는 이미지들을 일괄적으로 뽑은 후,이미지 기반의 객관식 문제와 응답을 뽑는 코드를 작성해보자~ 나는 아래 순서로 개발 진행했다. 1) 구글 드라이브를 활용한 이미지 가져오기2) 이미지를 base64로 변환한뒤, gpt api request에 넣기3) 리턴값을 엑셀로 도출하기 Google Drive API 연결https://developers.google.com/drive/api/guides/search-files?hl=ko 구글 드라이브 API를 활용하면 특정 폴더 내에 있는 이미지 파일들을 리스트로 가져올 수 있다.이미지 파일들을 각각 다운로드 받은 후, Base64로 변환하여 ch..
자동 인코딩언어 모델은 알려진 어휘에서 문장의 어느 부분이든 누락된 단어를 채우도록 모델에 요청함자기회귀언어 모델은 알려진 어휘에서 주어진 문장의 바로 다음에 가장 가능성 있는 토큰을 생성하도록 모델에 요청LLM자기회귀, 자동 인코딩 등 두가지 조합이 될 수 있는 언어 모델을 말한다크고 광범위한 학습 데이터셋을 사용한다텍스트 생성 및 분류와 같은 복잡한 언어 작업을 파인튜닝이 필요 없을 만큼 높은 정확도로 수행 가능함LLM의 주요 특징기존 트랜스포머 아키텍처는 2017년 고안된 시퀀스-투-시퀀스 모델이다보통 인코더 & 디코더로 이루어진다인코더원시 텍스트를 받아들여 핵심 구성 요소로 분리해당 구성 요소를 벡터로 변환하는 업무 (Word2cec 과정과 유사)를 담당어텐션을 사용해 텍스트 맥락을 이해디코더수정..
LLM의 성능을 평가할때, 어떤 기준으로 평가해야할까?그러한 의문을 해결해주는 것이 벤치마크 데이터셋이다. 벤치마크 데이터셋모델 품질 평가를 위한 표준화 방식점수를 통해 학습 모델 성능 파악 및 비교학습 모델이 어떤 과목에 능숙한지 파악 전통적 지표Perplexity & BLEU기본적으로 언어 모델 평가시 언어 모델 핵심 능력 : 다음 단어 예측 능력을 확인 Big 6 벤치마크 데이터셋ARC, HellaSwag, MMLU, TruthfulQA, Winogrande, GSM8k허깅 페이스 Open LLM 리더보드순위에 영향을 미치는 벤치마크 데이터셋 1. ARC목적 : 추론 능력 평가2. HellaSwag목적 : 상식 추론미완성된 구절을 LLM으로 하여금 완성문맥에 따라 텍스트 이해, 예측 능력을 테스..