서론프리랜서로 활동하는 분들이 가장 어려워하는 부분 중 하나는 새로운 일거리를 찾는 것입니다. 적절한 채용 공고를 빠르게 파악하고 분석할 수 있다면 커리어 개발에도 도움이 될 것입니다. 이번에는 잡코리아 사이트를 크롤링하여 프리랜서 채용 공고를 수집하고, 카카오톡에서 손쉽게 공유할 수 있도록 데이터를 정제하는 과정을 다루어 보겠습니다. 1) 크롤링 작업잡코리아는 다양한 채용 공고를 제공하며, 프리랜서 채용 공고도 확인할 수 있는 플랫폼입니다. 저는 Python과 BeautifulSoup 라이브러리를 활용하여 원하는 데이터를 수집하였으며, 이를 통해 페이지별로 데이터를 정리하고, 크롤링이 종료될 조건을 설정하였습니다. 크롤링 코드는 기본적으로 페이지별 데이터를 탐색하며, 데이터가 없을 경우 자동으로 중단됩..
Computer Engineering/Python
파이썬 프로젝트를 관리할 때 requirements.text로 종속성 관리하는게 불편해서 poetry를 사용해보았다. 요구사항 python 3.7 이상 poetry를 쓰면 뭐가 좋을까? 종속성 관리 자체 환경 분리 직관적인 CLI 종속성 관리 tool.poetry.depencies 에 직접 추가 poetry add 로 추가 .toml 파일 환경 관리 종속성 그룹 관리 poetry add pytest --group test Virtualenv VS Poetry 1. 프로젝트 재배치 Virtrualenv 프로젝트 폴더를 이동하거나 이름 변경시 경로가 변경되지 않음. Poetry $HOME 에 환경을 자동으로 생성함 프로젝트를 재배치할 때 동일한 환경을 사용하도록 지시 가능하다. → 테스트 목적으로 유용함 (..
서론 회사에서 크롤링하다가 정리해보고 싶어서 쓰는글.. 1. 평소에 selenium이 동적 페이지 스크래핑하려면 최고다라고만 생각하다가 생각보다 셀레니움이 무겁고 또 엄청 느리다는 지적을 받음 또한 신뢰성 이슈가 있다기에 정리해보려고 함 2. selenium을 도커나 서버에서 띄울때 headless를 통해서 스크래핑이 가능함 3. 대안 찾아보기.. https://github.com/SeleniumHQ/selenium/issues GitHub - SeleniumHQ/selenium: A browser automation framework and ecosystem. A browser automation framework and ecosystem. Contribute to SeleniumHQ/selenium ..