데이터 거버넌스가 AI 피로를 해결할 수 있습니까? - KD너겟

데이터 거버넌스가 AI 피로를 해결할 수 있습니까? – KD너겟

소스 노드 : 3052543

데이터 거버넌스가 AI 피로를 해결할 수 있습니까?
작성자 별 이미지
 

데이터 거버넌스와 AI 피로는 서로 다른 두 가지 개념처럼 들리지만 둘 사이에는 본질적인 연관성이 있습니다. 더 잘 이해하기 위해 정의부터 시작하겠습니다. 

이는 오랫동안 데이터 산업의 핵심 초점이었습니다.

구글 잘 표현되어 있습니다. “데이터 거버넌스는 데이터의 보안, 비공개, 정확성, 가용성 및 사용성을 보장하기 위해 수행하는 모든 작업입니다. 여기에는 데이터를 수집, 저장, 처리 및 폐기하는 방법에 적용되는 내부 표준, 즉 데이터 정책을 설정하는 작업이 포함됩니다.”

이 정의가 강조하듯이 데이터 거버넌스는 데이터 관리, 즉 AI 모델을 구동하는 엔진에 관한 것입니다.

이제 데이터 거버넌스와 AI 간의 연결에 대한 첫 번째 징후가 나타나기 시작했으므로 이를 AI 피로와 연관시켜 보겠습니다. 이름에서 알 수 있듯이 이러한 피로를 유발하는 이유를 강조하면 게시물 전체에서 이 용어를 일관되게 사용할 수 있습니다.  

AI 피로는 조직, 개발자 또는 팀이 직면한 좌절과 과제로 인해 발생하며 종종 AI 시스템의 가치 실현이나 구현에 실패하게 됩니다.

대부분 AI가 할 수 있는 것에 대한 비현실적인 기대에서 시작됩니다. AI와 같은 정교한 기술의 경우 주요 이해관계자는 AI의 기능과 가능성뿐만 아니라 한계와 위험에도 부합해야 합니다.

위험에 대해 이야기하면 윤리는 규정을 준수하지 않는 AI 이니셔티브를 폐기하는 사후 고려 사항으로 간주되는 경우가 많습니다.

이 게시물의 전제인 AI 피로를 유발하는 데이터 거버넌스의 역할에 대해 궁금하실 것입니다.

그것이 우리가 다음으로 향하는 곳입니다. 

AI 피로는 크게 배포 전과 배포 후로 분류할 수 있습니다. 먼저 사전 배포에 중점을 두겠습니다.

배포 전

PoC(개념 증명)를 배포로 전환하는 데에는 다음과 같은 다양한 요소가 영향을 미칩니다.

  • 우리는 무엇을 해결하려고 합니까?
  • 지금 우선순위를 정하는 것이 왜 중요한 문제가 됩니까?
  • 어떤 데이터를 사용할 수 있습니까?
  • 애초에 ML로 해결이 가능한가요?
  • 데이터에 패턴이 있나요?
  • 현상이 반복되나요?
  • 모델 성능을 향상시키는 추가 데이터는 무엇입니까?

 

데이터 거버넌스가 AI 피로를 해결할 수 있습니까?
이미지 출처 : Freepik 
 

ML 알고리즘을 사용하여 문제를 가장 잘 해결할 수 있다고 평가한 후 데이터 과학 팀은 탐색적 데이터 분석을 수행합니다. 이 단계에서는 많은 기본 데이터 패턴이 발견되어 주어진 데이터에 신호가 풍부한지 여부가 강조됩니다. 또한 알고리즘의 학습 프로세스 속도를 높이기 위해 엔지니어링된 기능을 만드는 데 도움이 됩니다.

다음으로 팀은 첫 번째 기준 모델을 구축했는데, 종종 해당 모델이 허용 가능한 수준까지 성능을 발휘하지 못하는 것으로 나타났습니다. 동전 던지기만큼 출력이 좋은 모델은 가치를 더하지 않습니다. 이는 ML 모델을 구축하는 동안 첫 번째 좌절, 즉 교훈 중 하나입니다.

조직은 하나의 비즈니스 문제에서 다른 비즈니스 문제로 이동하여 피로를 유발할 수 있습니다. 그러나 기본 데이터가 풍부한 신호를 전달하지 않으면 AI 알고리즘이 이를 기반으로 구축될 수 없습니다. 모델은 보이지 않는 데이터를 일반화하기 위해 훈련 데이터로부터 통계적 연관성을 학습해야 합니다.

배포 후

훈련된 모델이 검증 세트에서 유망한 결과를 보여주었음에도 불구하고 70% 정밀도와 같은 적격 비즈니스 기준에 따라 모델이 프로덕션 환경에서 적절하게 수행되지 않으면 피로가 여전히 발생할 수 있습니다.

이러한 유형의 AI 피로를 배포 후 단계라고 합니다. 

수많은 이유로 성능 저하가 발생할 수 있으며, 여기서 열악한 데이터 품질은 모델을 괴롭히는 가장 일반적인 문제입니다. 이는 중요한 속성이 없을 때 목표 반응을 정확하게 예측하는 모델의 능력을 제한합니다. 

학습 데이터에서 10%만 누락된 필수 기능 중 하나가 이제 프로덕션 데이터에서 50%의 시간 동안 null이 되어 잘못된 예측으로 이어지는 경우를 생각해 보세요. 일관되게 수행되는 모델을 보장하기 위한 이러한 반복과 노력은 데이터 과학자와 비즈니스 팀의 피로감을 조성하여 데이터 파이프라인에 대한 신뢰를 약화시키고 프로젝트에 대한 투자를 위험에 빠뜨립니다.

두 가지 유형의 AI 피로를 해결하려면 강력한 데이터 거버넌스 조치가 중요합니다. 데이터가 ML 모델의 핵심이라는 점을 고려할 때 ML 프로젝트의 성공을 위해서는 신호가 풍부하고 오류가 없는 고품질 데이터가 필수입니다. AI 피로를 해결하려면 데이터 거버넌스에 중점을 두어야 합니다. 따라서 우리는 올바른 데이터 품질을 보장하고 최첨단 모델을 구축하고 신뢰할 수 있는 비즈니스 통찰력을 제공하기 위한 기반을 마련하기 위해 엄격하게 노력해야 합니다.

데이터 품질

성공적인 데이터 거버넌스의 핵심인 데이터 품질은 기계 학습 알고리즘의 중요한 성공 요인입니다. 조직은 데이터 소비자에게 보고서를 게시하는 등 데이터 품질에 투자해야 합니다. 데이터 과학 프로젝트에서 품질이 좋지 않은 데이터가 모델에 전달되어 성능이 저하될 때 어떤 일이 발생하는지 생각해 보세요.

오류 분석 중에만 팀은 데이터 품질 문제를 식별할 수 있으며, 이를 수정된 업스트림으로 전송하면 결국 팀 간에 피로를 초래하게 됩니다.

분명히 이는 단순히 노력이 소모된 것이 아니라 올바른 데이터가 파이프로 연결되기 시작할 때까지 많은 시간이 낭비되는 것입니다.

따라서 시간이 많이 걸리는 반복을 방지하려면 항상 소스에서 데이터 문제를 해결하는 것이 좋습니다. 결국 게시된 데이터 품질 보고서는 데이터 과학 팀(또는 다른 다운스트림 사용자 및 데이터 소비자)이 수신 데이터의 허용 가능한 품질을 이해하고 있음을 암시합니다.

데이터 품질 및 거버넌스 조치가 없으면 데이터 과학자는 데이터 문제로 인해 과도한 부담을 받게 되어 AI 피로를 유발하는 실패한 모델에 영향을 미칠 것입니다. 

이 게시물은 AI 피로가 시작되는 두 단계를 강조하고 데이터 품질 보고서와 같은 데이터 거버넌스 측정이 신뢰할 수 있고 강력한 모델을 구축하는 데 어떻게 도움이 될 수 있는지를 제시했습니다.

데이터 거버넌스를 통해 탄탄한 기반을 구축함으로써 조직은 성공적이고 원활한 AI 개발 및 채택을 위한 로드맵을 구축하고 열정을 고취할 수 있습니다.

게시물에서 AI 피로를 해결하는 다양한 방법에 대한 전체적인 개요를 제공하기 위해 데이터 거버넌스와 같은 다른 모범 사례와 결합하여 데이터 과학 팀이 더 빨리 의미 있는 AI 기여를 구축할 수 있도록 지원하고 권한을 부여하는 조직 문화의 역할을 강조합니다. 더 빠르게.
 
 

비디 추 확장 가능한 기계 학습 시스템을 구축하기 위해 제품, 과학 및 엔지니어링의 교차점에서 일하는 AI 전략가이자 디지털 혁신 리더입니다. 그녀는 수상 경력이 있는 혁신 리더이자 작가이자 국제 연사입니다. 그녀는 기계 학습을 민주화하고 모든 사람이 이 변화의 일부가 될 수 있도록 전문 용어를 깨는 임무를 수행하고 있습니다.

타임 스탬프 :

더보기 너 겟츠