데이터 과학 프로젝트 관리 방법론 가이드 - KDnuggets

플라톤에 의해 재발행

팔로워 : 0

데이터 과학 프로젝트 관리 방법론 가이드
작성자 별 이미지

데이터 과학 프로젝트에는 많은 요소가 있습니다. 그 과정에는 많은 사람들이 참여하고 있으며 그 과정에서 많은 어려움에 직면하게 됩니다. 많은 기업이 데이터 과학의 필요성을 인식하고 있으며 이는 오늘날 우리 삶에 구현되었습니다. 그러나 일부 사람들은 데이터 분석을 활용하는 방법과 거기에 도달하기 위해 어떤 경로를 사용해야 하는지에 대해 어려움을 겪고 있습니다.

데이터 과학을 사용할 때 기업이 하는 가장 큰 가정은 프로그래밍 언어를 사용하기 때문에 소프트웨어 엔지니어링과 동일한 방법론을 모방한다는 것을 암시하는 것입니다. 그러나 모델에 내장된 데이터 과학과 소프트웨어는 다릅니다.

데이터 과학이 성공하려면 고유한 수명주기와 방법론이 필요합니다.

데이터 과학 수명주기는 7단계로 나눌 수 있습니다.

비즈니스 이해

회사를 위해 무엇인가를 생산한다면 가장 먼저 묻는 질문은 '왜?'입니다. 왜 우리는 이것을 해야 합니까? 비즈니스에 왜 중요한가요? 왜? 왜? 왜?

데이터 과학 팀은 비즈니스에 필요한 사항을 기반으로 모델을 구축하고 데이터 분석을 생성하는 일을 담당합니다. 데이터 과학 수명주기의 이 단계에서 회사의 데이터 과학 팀과 경영진은 예측해야 하는 변수를 조사하는 등 프로젝트의 핵심 목표를 식별해야 합니다.

이것은 어떤 종류의 데이터 과학 프로젝트를 기반으로 합니까? 회귀 작업입니까, 분류 작업입니까, 클러스터링입니까, 아니면 이상 탐지입니까? 개체의 전반적인 목적을 이해하면 계속해서 왜, 무엇을, 어디서, 언제, 어떻게 질문할 수 있습니다! 올바른 질문을 하는 것은 예술이며 데이터 과학 팀에 프로젝트에 대한 심층적인 맥락을 제공할 것입니다.

데이터 마이닝

프로젝트에 필요한 모든 비즈니스 이해를 마쳤으면 다음 단계는 데이터를 수집하여 프로젝트를 시작하는 것입니다. 데이터 마이닝 단계에는 프로젝트 목표에 부합하는 다양한 소스에서 데이터를 수집하는 작업이 포함됩니다.

이 단계에서 귀하가 물어볼 질문은 다음과 같습니다: 이 프로젝트에 어떤 데이터가 필요합니까? 이 데이터는 어디서 얻을 수 있나요? 이 데이터가 내 목표를 달성하는 데 도움이 됩니까? 이 데이터는 어디에 저장되나요?

데이터 청소

일부 데이터 과학자는 데이터 마이닝과 데이터 정리 단계를 함께 혼합하기로 선택합니다. 그러나 더 나은 작업 흐름을 위해서는 단계를 구분하는 것이 좋습니다.

데이터 정리는 데이터 과학 워크플로우에서 가장 시간이 많이 걸리는 단계입니다. 데이터가 클수록 시간이 오래 걸립니다. 일반적으로 완료하는 데 데이터 과학자 시간의 최대 50-80%가 걸릴 수 있습니다. 이렇게 오래 걸리는 이유는 데이터가 절대 깨끗하지 않기 때문입니다. 불일치, 데이터 누락, 잘못된 라벨, 철자 오류 등이 있는 데이터를 처리해야 할 수 있습니다.

분석 작업을 수행하기 전에 작업하려는 데이터가 정확하고 정확한 출력을 생성할 수 있도록 이러한 오류를 수정해야 합니다.

데이터 탐색

많은 시간과 에너지를 들여 데이터를 정리한 후에는 이제 작업할 수 있는 깨끗하고 깨끗한 데이터를 갖게 되었습니다. 데이터 탐색 시간! 이 단계는 전반적인 프로젝트 목표를 브레인스토밍하는 단계입니다. 데이터, 숨겨진 패턴, 시각화를 생성하여 추가 통찰력 등을 찾을 수 있는 내용에 대해 자세히 알아보고 싶습니다.

이 정보를 사용하면 비즈니스 목표에 부합하는 가설을 만들고 이를 참조점으로 사용하여 작업을 수행할 수 있습니다.

기능 공학

기능 엔지니어링은 원시 데이터에서 새로운 데이터 기능을 개발하고 구성하는 것입니다. 원시 데이터를 가져와 비즈니스 목표에 부합하는 유익한 기능을 만듭니다. 기능 엔지니어링 단계는 기능 선택과 기능 구성으로 구성됩니다.

특징 선택은 실제 가치 있는 정보보다 데이터에 더 많은 노이즈를 추가하는 특징 수를 줄이는 것입니다. 기능이 너무 많으면 차원의 저주가 발생하여 모델이 쉽고 효과적으로 학습할 수 있는 데이터의 복잡성이 증가할 수 있습니다.

기능 구성은 이름에 있습니다. 새로운 기능을 구축하는 것입니다. 현재 가지고 있는 기능을 사용하여 새로운 기능을 만들 수 있습니다. 예를 들어 목표가 선배 회원에게 집중되어 있는 경우 원하는 연령에 대한 임계값을 만들 수 있습니다.

이 단계는 예측 모델의 정확성에 영향을 미치므로 매우 중요합니다.

예측 모델링

여기서 재미가 시작되며 비즈니스 목표를 달성했는지 확인할 수 있습니다. 예측 모델링은 데이터 교육, 테스트, 포괄적인 통계 방법 사용으로 구성되어 모델의 결과가 생성된 가설에 유의미한지 확인합니다.

'비즈니스 이해' 단계에서 묻는 모든 질문을 바탕으로 현재 작업에 적합한 모델을 결정할 수 있습니다. 모델 선택은 시행착오 과정일 수 있지만 이는 정확한 출력을 생성하는 성공적인 모델을 생성하는 데 중요합니다.

모델을 구축한 후에는 데이터 세트에서 모델을 훈련하고 성능을 평가하고 싶을 것입니다. k-겹 교차 검증과 같은 다양한 평가 지표를 사용하여 정확도를 측정하고 정확도 값에 만족할 때까지 이 작업을 계속할 수 있습니다.

테스트 및 검증 데이터를 사용하여 모델을 테스트하면 정확성이 보장되고 모델이 제대로 작동합니다. 보이지 않는 데이터를 데이터에 제공하는 것은 모델이 이전에 훈련되지 않은 데이터로 어떻게 작동하는지 확인하는 좋은 방법입니다. 그러면 모델이 작동하게 됩니다!

데이터 시각화

모델의 성능이 만족스러우면 다시 돌아가서 회사 경영진에게 모든 것을 설명할 준비가 된 것입니다. 데이터 시각화를 만드는 것은 기술적인 지식이 없는 사람들에게 결과를 설명할 수 있는 좋은 방법이자 데이터에 대한 스토리를 전달하는 좋은 방법이기도 합니다.

데이터 시각화는 커뮤니케이션, 통계, 예술의 결합입니다. 미학적으로 만족스러운 방식으로 데이터 결과를 제시할 수 있는 방법은 매우 많습니다. 다음과 같은 도구를 사용할 수 있습니다. Matplotlib 설명서, 씨본 튜토리얼및 플롯리 라이브러리. Python을 사용하는 경우 다음 내용을 읽어보세요. Python 그래프 갤러리로 놀라운 시각화 만들기.

그리고 마찬가지로 당신은 인생의 마지막 단계에 있습니다. 하지만 그것이 하나의 순환이라는 것을 기억하십시오. 따라서 처음으로 돌아가야 합니다. 비즈니스 이해. 생성된 가설과 함께 원래의 비즈니스 이해 및 목표와 관련하여 모델의 성공 여부를 평가해야 합니다.

이제 우리는 데이터 과학 수명주기를 거쳤습니다. 이것이 매우 간단해 보인다고 생각하실 것입니다. 그것은 단지 한 단계 뒤의 단계일 뿐입니다. 하지만 우리 모두는 상황이 그렇게 간단하지 않다는 것을 알고 있습니다. 이를 최대한 간단하고 효과적으로 만들기 위해서는 관리 방법론을 마련해야 합니다.

데이터 과학 프로젝트는 더 이상 데이터 과학자만의 책임이 아니며 팀 노력입니다. 따라서 프로젝트 관리 표준화는 필수적이며 이를 보장하기 위해 사용할 수 있는 방법이 있습니다. 그들을 살펴보자.

폭포수 방법론

폭포수와 마찬가지로 폭포수 방법론은 프로젝트의 모든 단계를 통과하는 순차적 개발 프로세스입니다. 다음 단계를 시작하려면 각 단계를 완료해야 합니다. 단계 간에 겹치는 부분이 없으므로 충돌이 없으므로 효과적인 방법입니다. 이전 단계를 다시 방문해야 한다면 팀의 계획이 잘못되었음을 의미합니다.

이는 XNUMX단계로 구성됩니다.

요구조건 니즈
디자인
실시
검증(테스트)
유지 관리(배포)

그렇다면 언제 폭포수 방법론을 사용해야 할까요? 물처럼 흐르기 때문에 모든 것이 맑아야 합니다. 이는 목표가 정의되고, 팀이 기술 스택을 완전히 알고 있으며, 원활하고 효과적인 프로세스를 보장하기 위한 프로젝트 요소가 모두 준비되어 있음을 의미합니다.

하지만 현실로 돌아오자. 데이터 과학 프로젝트가 물처럼 쉽게 흘러가나요? 아니요. 많은 실험과 요구 사항 변경 등이 필요합니다. 그러나 이것이 폭포수 방법론의 요소를 사용할 수 없다는 의미는 아닙니다. 폭포수 방법론에는 많은 계획이 필요합니다. 모든 것을 계획한다면, 도중에 여전히 한두 가지 문제에 직면할 수 있지만 프로세스에 대한 어려움은 줄어들고 가혹하지도 않을 것입니다.

애자일 방법론

XNUMXD덴탈의 민첩한 방법론 2001년 초 17명의 사람들이 모여 소프트웨어 개발의 미래에 대해 논의하면서 탄생했습니다. 4가지 핵심가치와 12가지 원칙을 바탕으로 설립되었습니다.

민첩한 방법론은 빠르게 변화하고 끊임없이 변화하는 기술 산업에서 작동하므로 오늘날의 기술과 더 일치합니다. 기술 전문가라면 데이터 과학이나 소프트웨어 프로젝트의 요구 사항이 항상 변한다는 것을 알고 있을 것입니다. 따라서 이러한 변화에 신속하게 적응할 수 있는 올바른 방법을 마련하는 것이 중요합니다.

애자일 방법론은 팀이 프로젝트 성장에 따라 요구 사항을 지속적으로 검토할 수 있게 해주기 때문에 완벽한 데이터 과학 프로젝트 관리 방법입니다. 경영진과 데이터 과학 관리자는 모든 작업이 완료된 후 개발 프로세스가 끝나는 것이 아니라 개발 프로세스 중에 이루어져야 하는 변경 사항에 대해 결정을 내릴 수 있습니다.

모델이 사용자 중심의 결과를 반영하여 시간, 비용, 에너지를 절약하도록 발전함에 따라 이는 매우 효과적인 것으로 나타났습니다.

민첩한 방법의 예는 다음과 같습니다. 스크럼. 스크럼 방법은 일련의 가치, 원칙 및 관행을 사용하여 팀의 구조를 만드는 데 도움이 되는 프레임워크를 사용합니다. 예를 들어, 데이터 과학 프로젝트는 스크럼을 사용하여 대규모 프로젝트를 일련의 소규모 프로젝트로 나눌 수 있습니다. 이러한 각 미니 프로젝트를 스프린트라고 하며 목표, 요구 사항, 책임 등을 정의하는 스프린트 계획으로 구성됩니다.

하이브리드 방법론

두 가지 다른 방법을 함께 사용하는 것은 어떨까요? 이를 하이브리드 방법이라고 하며 두 가지 이상의 방법론을 사용하여 비즈니스에 완전히 고유한 방법을 만듭니다. 기업은 모든 유형의 프로젝트에 하이브리드 방법을 사용할 수 있지만 그 이유는 제품 제공에 달려 있습니다.

예를 들어, 고객이 제품을 요구하지만 애자일 방법으로 스프린트를 사용하여 생산 기간이 만족스럽지 않은 경우입니다. 그럼 회사에서는 좀 더 계획을 세워야 할 것 같죠? 계획이 많은 방법은 무엇입니까? 응, 맞아, 워터폴. 회사는 고객의 요구 사항을 특별히 충족하기 위해 폭포수 방식을 채택할 수 있습니다.

일부 회사에서는 애자일 방법과 워터폴과 같은 비애자일 방법을 결합하는 것에 대해 엇갈린 감정을 가질 수 있습니다. 이 두 가지 방법은 공존할 수 있지만, 합리적인 단순한 접근 방식을 보장하고 하이브리드 방법의 성공을 측정하며 생산성을 제공하는 것은 회사의 책임입니다.

연구 및 개발

어떤 사람들은 이것을 방법론으로 생각할 수도 있지만, 저는 이것이 데이터 사이언스 프로젝트 프로세스의 중요한 기반이라고 믿습니다. 폭포수 방법론과 마찬가지로 최대한 많은 정보를 가지고 계획을 세우고 준비하는 것은 나쁠 것이 없습니다.

그러나 그것은 내가 여기서 말하는 것이 아닙니다. 네, 프로젝트를 시작하기 전에 모든 것을 조사해 보는 것이 좋습니다. 그러나 효과적인 프로젝트 관리를 보장하는 좋은 방법은 프로젝트를 연구 개발 프로젝트로 보는 것입니다. 데이터 과학 팀 협업을 위한 효과적인 도구입니다.

데이터 과학 프로젝트를 연구 논문처럼 실행하고 운영하기 전에 걷고 싶습니다. 일부 데이터 과학 프로젝트에는 마감 기한이 촉박하여 프로세스가 어려워지지만 최종 제품을 서두르면 항상 더 많은 어려움이 따릅니다. 초기 데이터 과학 수명주기 단계인 비즈니스 이해를 충족하는 효과적이고 성공적인 모델을 구축하고 싶습니다.

데이터 과학 프로젝트의 연구 및 개발은 혁신의 문을 열어주고 창의성을 높이며 팀이 훨씬 더 위대한 것에 안주하도록 제한하지 않습니다!

선택할 수 있는 방법은 다양하지만 궁극적으로 비즈니스 운영에 따라 결정됩니다. 어떤 회사에서는 인기 있는 일부 방법이 다른 회사에서는 최선의 접근 방식이 아닐 수도 있습니다.

개인마다 작업 방식이 다를 수 있으므로 가장 좋은 접근 방식은 모든 사람에게 적합한 방법을 만드는 것입니다.

데이터 과학 워크플로 자동화에 대해 알아보려면 다음 내용을 읽어보세요. 데이터 과학 워크플로우의 자동화.

니샤 아리아 KDnuggets의 데이터 과학자, 프리랜서 기술 작가 및 커뮤니티 관리자입니다. 그녀는 특히 데이터 과학 경력 조언 또는 데이터 과학에 대한 자습서 및 이론 기반 지식을 제공하는 데 관심이 있습니다. 그녀는 또한 인공 지능이 인간의 수명에 도움이 되는 다양한 방식을 탐구하고자 합니다. 기술 지식과 작문 기술을 넓히고 다른 사람을 안내하는 데 도움을 주고자 하는 예리한 학습자.