참고
https://www.content.upstage.ai/blog/tech/data-centric-ai-in-the-real-world
AI 모델에 있어선 모델 성능 개선도 중요하지만 모델을 학습할 때 필요한 "데이터의 질" 또한 중요하단 것을 알게됨.
이를 Data Centric 이라고 표현하고, 현업에서 Data Centric AI를 위해 나아가야할 방향에 대해 알아봄
Data centric AI와 Real-World 적용
데이터
- 인공지능 시스템의 연료 및 재료
Real-World
- 데이터를 실제로 다루고 있는 현업
Data Centric AI
- 모든 인공지능 시스템은 Data와 Code로 이루어져 있음. 데이터를 중심으로 하는 AI를 의미함
AI 시스템의 라이프사이클 4단계
- 1단계
- 기획) 어떠한 인공지능 시스템을 개발할지 기획 및 설계
- 2단계
- 준비) 목적에 맞는 데이터(연료)를 준비
- 3단계
- 학습) 모델 학습을 위한 코드를 작성 후, GPU 하드웨어를 활용해 개발자가 원하는 인공지능 시스템을 학습
- 4단계
- 배포) 사용자 혹은 고객이 직접 해당 모델을 사용할 수 있도록 시스템 배포를 진행
- 배포를 완료해도 인공지능 라이프 사이클은 종료되지 않는다.
- 사람이 영양소 섭취를 하듯 인공지능 시스템도 지속적으로 고도화하는 작업이 진행되어야 한다
- Code 및 Data를 고도화시키는 것이 필요
- Code : 모델링을 통해 성능을 개선
- Data : 품질을 향상, 퀄리티 컨트롤을 통해 모델의 성능을 향상
- Data-Centric AI
- (모델 개선 보다는) 코드 및 데이터 개선을 통해 인공지능을 개선하자!
- 데이터를 중심으로 한 AI 시스템을 의미
- 데이터를 변환하여 성능을 올리는 것을 강조
- 두가지 방법론으로 정의할 수 있음
- 1. 데이터 중심의 연구 방법론
- 데이터 수집, 증강, 필터링
- 합성 데이터 생성
- 라벨링 방법 체계화 및 라벨링 툴 개발
- 데이터 평가 및 가이드라인 개선
- 활성 학습 및 커리큘럼 학습
- 2. 모델 수정 없이 모델 성능 향상시키기
- Should we find another model
- AI algorithms that understand data and use that information to improve models
- 1. 데이터 중심의 연구 방법론
- Code 및 Data를 고도화시키는 것이 필요
Data flywheel
- B2B, B2C AI 기반 서비스를 하면 log가 쌓임
- 많은 기업에서 이렇게 쌓이는 데이터를 더 나은 서비스를 제공하기 위해 활용함
- 유튜브 추천 모델
- 데이터를 기반으로 모델과 상호작용을 하면서 여러 interation을 돌며 모델과 데이터 둘다 퀄리티가 높아지는 형태
- 이것이 바로 Data-Centric AI를 Real-world에 적용했을 때 가장 대표적인 형태
Real World 에서 데이터를 제작하는 법
- 데이터 플라이휠이 real-world에서 데이터 센트릭 ai의 전부일까?
- 리얼 월드에선 데이터를 직접 제작함
- 하지만 기존 AI 연구는 대부분 모델 연구에만 집중하고 있었음. -> 개발 라이프 사이클에 대한 체계적인 과정 수립이 없음
- 데이터 제작 프로세스 A to Z에 대한 연구
- 좋은 데이터 만들기, DMOPs(Data Management Operation and Recipes)
- 인공지능 모델링 역량, 서빙 역량과 다른 역량을 요구 (학습 데이터를 만들기 위한 파이프라인)
데이터의 양과 질
- Real-World에선 데이터 질을 중점있게 다루는게 중요함
- 데이터의 질 = 레이블 일관성
- 데이터별 특성에 따라 어떻게 주석할 것인지에 대한 rul을 설계해서 어노테이터에게 전달
- 개개인의 주관적 판단이 데이터에 bias로 작용하지 않도록 가이드라인을 제시
- 레이블 일관성을 어떻게 평가할지에 대한 data measurement에 대한 부분과 평가를 통해 가이드라인을 어떻게 개선할지에 대한 고민이 필요함
- Data-flywheel :
- 모델 성능이 좋지 않으면 추가적으로 데이터 양을 늘리는 일방향적 개선방식 X
- 모델 결과에 따라 데이터 생성 과정의 가이드라인, 프로세스도 점진적 개선이 필요함. 데이터-모델 양방향 선순환 구조가 중요
- 양적팽창 보단 질적 팽창
- 오류가 발생하는 데이터를 더 많이 수집하고 모호한 레이블을 일관성있게 수정하는 프로세스가 필요함
- 양방향 Data-flywheel
- 데이터 양을 늘리는 일방향적 개선방식이 아닌
- 모델 결과에 따라 데이터 생성과정 및 프로세스의 점진적 개선하는 데이터-모델 양방향 선순환 구조
어노테이션 툴 설계
- 고품질 데이터를 만들기 위해 중요함
- 툴에서 작업자가 편하게 작업, 레이블 일관성이 잘 유지되는지 파악하는 장치
- 업스테이지의 경우 “Labeling Space”를 구축
- 사내 데이터 파이프라인에 적용해 고품질 데이터를 생산중
- 데이터 제작 시간 및 비용을 대폭 줄임. 좋은 데이터를 생산하는 키플레이어가 됨
좋은 데이터란?
- Real-World 에서 쓰이는 좋은 데이터 척도
- 메타 데이터가 얼마나 informative한지
- 데이터 양이 충분하고 그 비용은 적절한지
- 작업자에게 정당한 보상을 하되, 불필요한 비용이 지불되지 않는 데이터인지
- Versioning 체계가 잘 이루어지는지
- 데이터 저장 폴더 구조가 직관적이고 깔끔한지
- 불필요한 데이터가 포함되어 있진 않은지
- 데이터 요구사항 지시서에 명시된 요구사항을 충족하는지?
- 데이터 편중, 편향, 오염 및 윤리적인 이슈는 없는지
- 데이터 라벨링은 타당하게 이루어졌고, 일관성이 존재하는지
- 소유권, 저작권, 지적재산권, 기밀성, 개인정보는 적절히 고려되고 있는지
- 학계와 기업에서 보는 굿 데이터의 차이가 존재함
- 좋은 데이터를 위한 가장 중요한 4가지
- DMOps와 같은 체계적인 프로세스
- 레이블 일관성을 고려해 어노테이터의 주관이 들어가지 않도록 적절히 설정된 가이드라인
'Computer Engineering > AI' 카테고리의 다른 글
chatgpt API를 활용하여 이미지 기반 응답 생성하기 (4) | 2024.12.02 |
---|---|
실전 LLM chp1 (1) | 2024.08.21 |
벤치마크 데이터셋에 대해 (2) | 2024.08.14 |
의료 LLM의 발전에 대해서 (1) | 2024.07.16 |
요약 - 섹션 1) 커피 한잔 마시며 듣는 AI 이야기 (2) | 2024.07.08 |