Chcesz zostać analitykiem danych? Część 1: 10 twardych umiejętności, których potrzebujesz – KDnuggets

Chcesz zostać analitykiem danych? Część 1: 10 twardych umiejętności, których potrzebujesz – KDnuggets

Węzeł źródłowy: 2863483

Chcesz zostać analitykiem danych? Część 1: 10 twardych umiejętności, których potrzebujesz
Zdjęcie autora
 

Możesz natknąć się na wiele obszernych artykułów na temat tego, jak zostać analitykiem danych. Dostarczają wielu dobrych informacji, jednak mogą być bardzo przytłaczające. Zwłaszcza jako początkujący chcesz po prostu wiedzieć, co musisz wiedzieć i zacząć działać. 

Właśnie o tym będzie ten blog. Omówię 10 twardych umiejętności potrzebnych, aby zostać analitykiem danych. 

Chodźmy…

Jeśli nie umiesz kodować w żadnym języku programowania, Twoim pierwszym krokiem będzie nauczenie się kodowania. Moja rekomendacja będzie Python, ponieważ jest to prawdopodobnie najpopularniejszy język programowania w dziedzinie analityki danych. 

Inne języki, których możesz się nauczyć w zakresie analityki danych, to R, SQL, JuliaI więcej.

Temat, który według niektórych nie jest potrzebny w świecie kodowania. Uważam jednak, że jest to naprawdę błędne. Zrobiłem BootCamp, który nie dotyczył strony matematycznej – i zdecydowanie zdałem sobie sprawę, że stanowi to dużą słabość w mojej biegłości w tej dziedzinie. 

Dziedziny matematyki potrzebne do nauki o danych to algebra liniowa, regresja liniowa, prawdopodobieństwo i statystyka. Nauka matematyki stojącej za nauką o danych będzie bardzo korzystna dla Twojej kariery w dziedzinie analityki danych i zostanie zauważona przez Twojego pracodawcę. 

Nauka matematyki może być stresująca, dlatego całkowicie rozumiem Twoje wahania. Przeczytaj Jak pokonać strach przed matematyką i nauczyć się matematyki dla nauki o danych aby uspokoić umysł. 

Zintegrowane środowisko programistyczne (IDE) to aplikacja posiadająca kompleksowe środowisko zawierające kombinację narzędzi i funkcji specjalnie do tworzenia oprogramowania. IDE pomogą Ci w wykonywaniu zadań związanych z analizą danych, wizualizacją i uczeniem maszynowym. Wybór odpowiedniego IDE zależy bardziej od Twoich preferencji, na przykład:

Twoje IDE to miejsce, w którym nauczysz się, jak biegle posługiwać się językiem programowania, uczyć się matematyki i wykonywać wszystkie poniższe czynności. Jupyter Notebook i Visual Studio Code to moje ulubione! Przydadzą się one również, gdy zdobędziesz pracę, ponieważ pracodawcy oczekują od Ciebie znajomości popularnych IDE.

Na przestrzeni lat kodowanie stało się znacznie łatwiejsze, a wynika to z różnorodności dostępnych bibliotek. Biblioteki te to narzędzia, które można wykorzystać do usprawnienia procesów analizy danych i uczenia maszynowego. 

Jeśli zdecydowałeś się nauczyć Pythona, sugeruję zapoznanie się z tymi bibliotekami: 

Powodem, dla którego na początku udostępniam Ci listę bibliotek, jest to, że w miarę zdobywania wiedzy w zakresie analityki danych zaczniesz często widzieć te biblioteki. Dowiedz się, co zapewnia każdy z nich, a zobaczysz, gdzie możesz to zastosować. Na przykład Matplotlib można wykorzystać do wizualizacji danych. 

Dokładnie to, co mówi – przekształcanie Twoich danych. Transformacja danych to ważny etap dla analityka danych, ponieważ spędzasz dużo czasu na pobieraniu surowych danych, modyfikowaniu, dostosowywaniu i konwertowaniu ich do formatu, który można wykorzystać do analizy i innych zadań. 

Będziesz musiał dowiedzieć się o normalizacji, standaryzacji, skalowaniu, inżynierii funkcji i nie tylko. 

Artykuł, który możesz przeczytać: Transformacja danych: standaryzacja a normalizacja

Wizualizacja danych jest ważnym aspektem nauki o danych, ponieważ musisz być w stanie przekazać swoje ustalenia na więcej niż jeden sposób inny niż kodowanie. Nie wszyscy w Twoim zespole będą mieć zdolności techniczne, dlatego prezentacja wyników w formie wizualnej pomoże w tym, a także w procesie decyzyjnym. 

Przeczytaj: Wizualizacja danych Najlepsze praktyki i zasoby dla efektywnej komunikacji

Następną rzeczą, której chcesz się nauczyć, jest uczenie maszynowe. Istnieje wiele aspektów uczenia maszynowego i nie będziesz w stanie być ekspertem we wszystkim – ale nadal dobrze jest być specjalistą od wszystkiego w tej dziedzinie. Przygotuj się, bo jest wiele do nauczenia się. 

Będziesz chciał zacząć od podstawowych pojęć, takich jak uczenie się pod nadzorem, uczenie się bez nadzoru, zadania klasyfikacji i regresji. Kiedy już je dobrze zrozumiesz i potrafisz je rozróżnić, będziesz chciał dowiedzieć się więcej o różnych algorytmach uczenia maszynowego, takich jak maszyny wektorów nośnych i sieci neuronowe.

Gdy zrozumiesz modele uczenia maszynowego, będziesz musiał nauczyć się:

  • Budowanie modelu uczenia maszynowego
  • Ocena modelu
  • Rozlokowanie
  • Interpretowalność modelu
  • Nadmierne i niedopasowane
  • Dostrajanie hiperparametrów
  • Walidacja i walidacja krzyżowa
  • Metody zespołowe
  • Redukcja wymiarowości
  • Techniki regularyzacji
  • Gradientowe zejście
  • Sieci neuronowe i głębokie uczenie się
  • Uczenie się ze wzmocnieniem

Jak powiedziałem, jest wiele do nauczenia się w tej dziedzinie, więc radzę ci poświęcić czas i ćwiczyć!

Oto artykuł, który może Ci pomóc: 15 najlepszych kanałów YouTube, dzięki którym rozwiniesz swoje umiejętności uczenia maszynowego

Posiadanie całej tej wiedzy jest świetne, ale niektóre narzędzia mogą przenieść Twoją karierę w dziedzinie analityki danych na wyższy poziom. Zrozumienie różnych technologii, miejsc ich zastosowania oraz zalet i wad sprawi, że Twoja podróż do nauki o danych będzie bardziej wydajna. 

Istnieje wiele narzędzi i technologii, które mogą być bardzo przydatne dla każdego, kto pracuje z danymi. Wymienię jednak kilka popularnych, jak np Apache Spark, TensorFlow, PyTorch, Hadoop, Żywy obraz, gitI więcej. 

Przetwarzanie w chmurze jest bardzo ważnym elementem data science, ponieważ wszystkie projekty i zadania, nad którymi będziesz pracować, zamienią się w produkty. Usługi przetwarzania w chmurze umożliwiają skalowalne przechowywanie i moc obliczeniową oraz zapewniają łatwy dostęp do narzędzi i usług. 

Będziesz musiał poznać platformy chmurowe, takie jak Amazon Web Service, Azure firmy Microsoft, Platforma Google Cloud

Inne aspekty przetwarzania w chmurze, o których musisz wiedzieć, to przechowywanie danych, bazy danych, hurtownia danych, przetwarzanie dużych zbiorów danych, konteneryzacja i potoki danych. 

Przeczytaj: 

Mam zamiar dodać projekty jako ostatnią twardą umiejętność, której potrzebujesz, ponieważ prezentuje ona wszystkie powyższe. Nie idź i wykonuj kilka projektów tylko dlatego, że chcesz umieścić to w swoim CV i zdobyć pracę. Tak, to jest ostateczny cel, ale upewnij się, że w pełni rozumiesz swoje projekty. 

Podczas rozmowy kwalifikacyjnej zostaniesz zapytany o swoje projekty, tajniki i musisz być przygotowany, aby odpowiedzieć, mając jak największą wiedzę. Wykorzystaj swoje projekty, aby zaprezentować swoje umiejętności oraz sposób, w jaki zidentyfikowałeś swoje słabe strony i nad nimi pracowałeś. 

Przeczytaj: 

Starałem się, aby ten artykuł był jak najbardziej skondensowany, abyś nie czuł się przytłoczony. Mam nadzieję, że mi się udało i zapewniłem wystarczająco dużo szczegółów i zasobów, aby rozpocząć swoją przygodę z nauką o danych!

Zapoznaj się z częścią 2, w której znajdziesz informacje na temat umiejętności miękkich, których potrzebujesz jako analityk danych.
 
 
Nisza Arja jest analitykiem danych, niezależnym pisarzem technicznym i menedżerem ds. społeczności w KDnuggets. Jest szczególnie zainteresowana udzielaniem porad dotyczących kariery w Data Science lub samouczkami i wiedzą opartą na teorii wokół Data Science. Chciałaby również zbadać różne sposoby, w jakie sztuczna inteligencja jest / może korzystnie wpłynąć na długowieczność ludzkiego życia. Chętnie się uczy, stara się poszerzyć swoją wiedzę techniczną i umiejętności pisania, jednocześnie pomagając innym.
 

Znak czasu:

Więcej z Knuggety