Computer Engineering/AI

Data centric AI란?

soohey 2024. 7. 11. 12:38

참고

https://www.content.upstage.ai/blog/tech/data-centric-ai-in-the-real-world

 

AI 모델에 있어선 모델 성능 개선도 중요하지만 모델을 학습할 때 필요한 "데이터의 질" 또한 중요하단 것을 알게됨.

이를 Data Centric 이라고 표현하고, 현업에서 Data Centric AI를 위해 나아가야할 방향에 대해 알아봄

Data centric AI와 Real-World 적용

데이터

  • 인공지능 시스템의 연료 및 재료

Real-World

  • 데이터를 실제로 다루고 있는 현업

Data Centric AI

  • 모든 인공지능 시스템은 Data와 Code로 이루어져 있음. 데이터를 중심으로 하는 AI를 의미함

AI 시스템의 라이프사이클 4단계

  • 1단계
    • 기획) 어떠한 인공지능 시스템을 개발할지 기획 및 설계
  • 2단계
    • 준비) 목적에 맞는 데이터(연료)를 준비
  • 3단계
    • 학습) 모델 학습을 위한 코드를 작성 후, GPU 하드웨어를 활용해 개발자가 원하는 인공지능 시스템을 학습
  • 4단계
    • 배포) 사용자 혹은 고객이 직접 해당 모델을 사용할 수 있도록 시스템 배포를 진행
  • 배포를 완료해도 인공지능 라이프 사이클은 종료되지 않는다.
  • 사람이 영양소 섭취를 하듯 인공지능 시스템도 지속적으로 고도화하는 작업이 진행되어야 한다
    • Code 및 Data를 고도화시키는 것이 필요
      • Code : 모델링을 통해 성능을 개선
      • Data : 품질을 향상, 퀄리티 컨트롤을 통해 모델의 성능을 향상
    • Data-Centric AI
      • (모델 개선 보다는) 코드 및 데이터 개선을 통해 인공지능을 개선하자! 
      • 데이터를 중심으로 한 AI 시스템을 의미
      • 데이터를 변환하여 성능을 올리는 것을 강조
      • 두가지 방법론으로 정의할 수 있음
        • 1. 데이터 중심의 연구 방법론
          • 데이터 수집, 증강, 필터링
          • 합성 데이터 생성
          • 라벨링 방법 체계화 및 라벨링 툴 개발
          • 데이터 평가 및 가이드라인 개선
          • 활성 학습 및 커리큘럼 학습
        • 2. 모델 수정 없이 모델 성능 향상시키기
          • Should we find another model
          • AI algorithms that understand data and use that information to improve models

Data flywheel

  • B2B, B2C AI 기반 서비스를 하면 log가 쌓임
    • 많은 기업에서 이렇게 쌓이는 데이터를 더 나은 서비스를 제공하기 위해 활용함
    • 유튜브 추천 모델
    • 데이터를 기반으로 모델과 상호작용을 하면서 여러 interation을 돌며 모델과 데이터 둘다 퀄리티가 높아지는 형태
    • 이것이 바로 Data-Centric AI를 Real-world에 적용했을 때 가장 대표적인 형태

Real World 에서 데이터를 제작하는 법

  • 데이터 플라이휠이 real-world에서 데이터 센트릭 ai의 전부일까?
  • 리얼 월드에선 데이터를 직접 제작함
  • 하지만 기존 AI 연구는 대부분 모델 연구에만 집중하고 있었음. -> 개발 라이프 사이클에 대한 체계적인 과정 수립이 없음
  • 데이터 제작 프로세스 A to Z에 대한 연구
    • 좋은 데이터 만들기, DMOPs(Data Management Operation and Recipes)
    • 인공지능 모델링 역량, 서빙 역량과 다른 역량을 요구 (학습 데이터를 만들기 위한 파이프라인)

데이터의 양과 질

  • Real-World에선 데이터 질을 중점있게 다루는게 중요함
  • 데이터의 질 = 레이블 일관성
    • 데이터별 특성에 따라 어떻게 주석할 것인지에 대한 rul을 설계해서 어노테이터에게 전달
    • 개개인의 주관적 판단이 데이터에 bias로 작용하지 않도록 가이드라인을 제시
    • 레이블 일관성을 어떻게 평가할지에 대한 data measurement에 대한 부분과 평가를 통해 가이드라인을 어떻게 개선할지에 대한 고민이 필요함
    • Data-flywheel :
      • 모델 성능이 좋지 않으면 추가적으로 데이터 양을 늘리는 일방향적 개선방식 X
      • 모델 결과에 따라 데이터 생성 과정의 가이드라인, 프로세스도 점진적 개선이 필요함. 데이터-모델 양방향 선순환 구조가 중요
      • 양적팽창 보단 질적 팽창
      • 오류가 발생하는 데이터를 더 많이 수집하고 모호한 레이블을 일관성있게 수정하는 프로세스가 필요함
    • 양방향 Data-flywheel
      • 데이터 양을 늘리는 일방향적 개선방식이 아닌
      • 모델 결과에 따라 데이터 생성과정 및 프로세스의 점진적 개선하는 데이터-모델 양방향 선순환 구조

어노테이션 툴 설계

  • 고품질 데이터를 만들기 위해 중요함
  • 툴에서 작업자가 편하게 작업, 레이블 일관성이 잘 유지되는지 파악하는 장치
  • 업스테이지의 경우 “Labeling Space”를 구축
    • 사내 데이터 파이프라인에 적용해 고품질 데이터를 생산중
    • 데이터 제작 시간 및 비용을 대폭 줄임. 좋은 데이터를 생산하는 키플레이어가 됨

좋은 데이터란?

  • Real-World 에서 쓰이는 좋은 데이터 척도
    • 메타 데이터가 얼마나 informative한지
    • 데이터 양이 충분하고 그 비용은 적절한지
    • 작업자에게 정당한 보상을 하되, 불필요한 비용이 지불되지 않는 데이터인지
    • Versioning 체계가 잘 이루어지는지
    • 데이터 저장 폴더 구조가 직관적이고 깔끔한지
    • 불필요한 데이터가 포함되어 있진 않은지
    • 데이터 요구사항 지시서에 명시된 요구사항을 충족하는지?
    • 데이터 편중, 편향, 오염 및 윤리적인 이슈는 없는지
    • 데이터 라벨링은 타당하게 이루어졌고, 일관성이 존재하는지
    • 소유권, 저작권, 지적재산권, 기밀성, 개인정보는 적절히 고려되고 있는지
  • 학계와 기업에서 보는 굿 데이터의 차이가 존재함
  • 좋은 데이터를 위한 가장 중요한 4가지
    • DMOps와 같은 체계적인 프로세스
    • 레이블 일관성을 고려해 어노테이터의 주관이 들어가지 않도록 적절히 설정된 가이드라인