Четыре точки зрения на искусство анализа данных - DATAVERSITY

Четыре точки зрения на искусство анализа данных – DATAVERSITY

Исходный узел: 3059543

Нас, профессионалов в области науки о данных, часто считают людьми, которые делают выводы, основываясь только на данных, и минимизируют другие факторы. Такое восприятие обычно становится спорным, когда идеи и доказательства, полученные из данных, не согласуются с чьей-либо «гипотезой». Или мы сбиты с толку и, возможно, разочарованы, когда «качественный» анализ превосходит количественный анализ. В следующий раз, когда вы почувствуете это разочарование, рассмотрите эти четыре точки зрения на анализ данных, чтобы проверить и рассмотреть другие точки зрения, чтобы вы могли попытаться найти общий язык:  

1. «Выбросам равные возможности».  

Выбросы представляют собой в наборе данных как аномалии. Возможно, выбросы — это шум, но, возможно, они особенные. 

Выбросами могут быть уникальные идеи, новые тенденции или интересные сегменты. В медицинских исследованиях выбросы могут указывать на редкий, но опасный для жизни побочный эффект лекарства. В случае с данными о клиентах выбросом может оказаться ценная клиентская ниша, которая еще не исследована. Выбросы могут быть новой тенденцией. Розовый цвет изначально был необычным, но быстро стал самым популярным модным выбором. 

Прежде чем отклонять выбросы как шум, используйте их, чтобы вызвать вопросы и любопытство:   

  • Указывает ли выброс на возможность?   
  • Почему существует выброс?   
  • Если бы вы могли изменить отметку времени вашего набора данных, как это могло бы повлиять на выбросы? 
  • Придется ли вам предполагать, будет ли больше выбросов?  
  • Что выброс говорит нам об анализируемой системе или процессе?    
  • Что нужно, чтобы выброс стал отдельным профилем или сегментом?  

Понимание выбросов может привести к разработке инновационных продуктов, выявлению новых рыночных возможностей и признанию потенциальных рисков. В таких областях, как наука об окружающей среде или экономика, выбросы могут сигнализировать о важных изменениях закономерностей, таких как внезапные изменения климата или финансовые кризисы. Выбросы могут изменить то, как мы рассматриваем и интерпретируем данные, превращая их из неправильно понятых точек данных в ценные жемчужины информации. 

2. «Один раз — это случайность. Дважды — совпадение. Три раза — это действия противника». -Золотой палец  

Вы когда-нибудь задумывались, почему другим удобно делать «управляемых даннымирешения с очень ограниченной информацией? Больше точек данных дает нам больше уверенности и большей точности, но иногда нам нужно действовать быстро.  

Совсем недавно OpenAI запустила ChatGPT, несмотря на его недостатки, в то время как другие, у кого были аналогичные продукты, ждали, чтобы повысить уровень своей уверенности в точности ответов. Когда вы думаете, что кто-то принимает решение на основе данных с низким уровнем достоверности и ограниченной точностью, подумайте о стоимости времени. Возможно, противник ведет огонь. 

3. «Не все, что имеет значение, можно посчитать, и не все, что можно посчитать, имеет значение». – обычно приписывают Альберту Эйнштейну 

Другими словами: «Я ценю ваш анализ данных, но то, что я думаю или слышу, важнее. Это невозможно посчитать или измерить». 

Как вы ответите? В этой ситуации вам нужно проявить творческий подход.   

Например, поведение клиентов, включая их настроения, лояльность к бренду и тенденции, обусловленные культурными сдвигами, может быть неуловимым и трудно поддающимся количественной оценке. Если у вас есть только данные о поведении в Интернете, используйте другие методы для доступа к новым источникам данных, такие как тестовые программы, опросы, анализ социальных настроений, онлайн-этнография или первичные исследования клиентов, возвращающиеся к основам.  

Возможно, ничто не будет окончательным, но именно сочетание и последовательность различных методов и источников указывают на последовательный вывод.  

4. «Корреляция равна причинно-следственной связи?»  

Замена причинно-следственной связи корреляцией может привести к принятию ошибочных решений, если делать это без осознания. Однако бывают ситуации, когда у нас есть доступ только к данным корреляции. В этих случаях очень важно тщательно проверить, является ли корреляция простым совпадением или существует действительная основная причина. 

Например, рассмотрим задачу измерения атрибуции маркетинговых расходов и анализа продаж. Это сложные задачи, не имеющие прямой причинно-следственной связи. Когда клиенты посещают офис поставщика для брифинга, можно наблюдать показатель закрытия сделок в 90%, но важно не делать поспешных выводов и не предполагать причинно-следственную связь. Вместо этого необходим более тонкий подход.  

При более внимательном рассмотрении становится очевидным, что высокий коэффициент закрытия не является результатом простого планирования брифингов для клиентов для каждого взаимодействия по продажам. Вместо этого само взаимодействие вызывает у клиентов желание посещать эти брифинги, что впоследствии приводит к высокому проценту заключений. Этот пример иллюстрирует слияние искусства и науки в аналитика – процесс, который предполагает понимание лежащей в основе динамики, а не просто полагаться на поверхностные корреляции. 

Нам всем хотелось бы статистической достоверности большого количества данных с идеальным набором данных. Реальность такова, что иногда нам приходится проявлять творческий подход и изобретательность и изучать выбросы, корреляции и альтернативные наборы данных. А иногда нет времени, и действовать нужно на основе ограниченных данных. 

Отметка времени:

Больше от ДАТАВЕРСИЯ