Modele uczenia maszynowego to potężne narzędzia, które mogą pomóc firmom podejmować bardziej świadome decyzje i optymalizować swoje działania. Jednak w miarę wdrażania i uruchamiania modeli tych w środowisku produkcyjnym występuje zjawisko zwane dryfem modelu.
Dryf modelu ma miejsce, gdy wydajność modelu uczenia maszynowego pogarsza się z czasem ze względu na zmiany w danych źródłowych, co prowadzi do niedokładnych przewidywań i potencjalnie znaczących konsekwencji dla firmy. Aby sprostać temu wyzwaniu, organizacje zwracają się do MLOps, zestawu praktyk i narzędzi, które pomagają zarządzać cyklem życia produkcyjnego uczenia maszynowego.
W tym artykule przyjrzymy się dryfowi modelu, jego różnym typom, sposobom jego wykrywania i, co najważniejsze, sposobom radzenia sobie z nim w środowisku produkcyjnym przy użyciu MLOps. Rozumiejąc dryfowanie modeli i zarządzając nim, firmy mogą mieć pewność, że ich modele uczenia maszynowego pozostaną dokładne i skuteczne w miarę upływu czasu, dostarczając spostrzeżeń i wyników niezbędnych do prosperowania.
Photo by Nicolas Peyrol on Unsplash
Dryf modelu, znany również jako zanik modelu, to zjawisko w uczeniu maszynowym, w którym wydajność modelu maleje z czasem. Oznacza to, że model stopniowo zacznie dawać złe przewidywania, co z czasem zmniejszy dokładność.
Istnieją różne przyczyny zmiany modelu, takie jak zmiany w gromadzeniu danych lub podstawowe relacje między zmiennymi. Dlatego model nie będzie w stanie wychwycić tych zmian, a wydajność będzie spadać wraz ze wzrostem zmian.
Wykrywanie i radzenie sobie z dryfem modelu jest jednym z podstawowych zadań, które rozwiązuje MLOps. Do wykrywania dryftu modelu stosuje się techniki takie jak monitorowanie modelu, a przekwalifikowanie modelu jest jedną z głównych technik stosowanych w celu przezwyciężenia dryftu modelu.
Zrozumienie rodzaju dryfu modelu jest niezbędne do aktualizacji modelu na podstawie zmian, jakie zaszły w danych. Istnieją trzy główne typy dryfu:
Dryf koncepcji
Dryf koncepcji ma miejsce, gdy zmienia się relacja między celem a danymi wejściowymi. Dlatego algorytm uczenia maszynowego nie zapewni dokładnej predykcji. Istnieją cztery główne typy dryfu koncepcji:
- Nagły dryf: Nagła zmiana koncepcji ma miejsce, gdy nagle pojawia się związek między zmiennymi niezależnymi i zależnymi. Bardzo znanym przykładem jest nagłe wystąpienie pandemii Covid 19. Wystąpienie pandemii nagle zmieniło relację między zmienną docelową a cechami w różnych dziedzinach, więc model predykcyjny wyszkolony na wstępnie wyszkolonych danych nie będzie w stanie dokładnie przewidzieć czasu pandemii.
- Stopniowy dryf: Podczas stopniowego dryfu koncepcji relacja między danymi wejściowymi a celem może zmieniać się powoli i subtelnie. Może to skutkować powolnym spadkiem wydajności modelu uczenia maszynowego, ponieważ z biegiem czasu model staje się mniej dokładny. Przykładem stopniowego dryfowania koncepcji jest oszukańcze zachowanie. Oszuści zwykle rozumieją, jak działa system wykrywania oszustw, i z czasem zmieniają swoje zachowanie, aby uciec przed systemem. Dlatego model uczenia maszynowego wytrenowany na historycznych danych dotyczących fałszywych transakcji nie będzie dokładnie przewidywał stopniowych zmian w zachowaniu oszusta. Rozważmy na przykład model uczenia maszynowego używany do przewidywania cen akcji, w którym model jest szkolony na danych z ostatnich pięciu lat, a jego działanie jest oceniane na nowych danych z bieżącego roku. Jednak w miarę upływu czasu dynamika rynku może się zmieniać, a relacje pomiędzy zmiennymi wpływającymi na ceny akcji mogą stopniowo ewoluować. Może to skutkować dryfem przyrostowym, w wyniku którego dokładność modelu stopniowo pogarsza się z biegiem czasu, w miarę jak staje się on mniej skuteczny w uchwyceniu zmieniającej się zależności między zmiennymi.
- Dryft przyrostowy: Dryf przyrostowy ma miejsce, gdy relacja między zmienną docelową a danymi wejściowymi zmienia się stopniowo w czasie, co zwykle ma miejsce na skutek zmian w procesie generowania danych.
- Powtarzający się dryf: Nazywa się to również sezonowością. Typowym przykładem jest wzrost sprzedaży w okresie Świąt Bożego Narodzenia czy Czarnego Piątku. Model uczenia maszynowego, który nie będzie niedokładnie uwzględniał tych zmian sezonowych, zakończy się dostarczaniem niedokładnych prognoz dotyczących tych zmian sezonowych.
Te cztery rodzaje dryfu koncepcji pokazano na poniższym rysunku.
Rodzaje dryfu koncepcji | Obraz z Uczenie się w ramach dryfu koncepcji: przegląd.
Dryf danych
Dryf danych ma miejsce, gdy zmieniają się właściwości statystyczne danych wejściowych. Przykładem tego jest zmiana rozkładu wieku użytkownika określonej aplikacji w czasie, dlatego model wytrenowany na konkretnym rozkładzie wieku, używany w strategiach marketingowych, będzie musiał zostać zmieniony, ponieważ zmiana wieku będzie miała wpływ na strategie marketingowe.
Zmiany danych wyjściowych
Trzeci rodzaj dryfu to zmiany danych poprzedzających. Odnosi się to do zmian danych operacyjnych w potoku danych. Typowym przykładem jest sytuacja, gdy określona funkcja nie jest już generowana, co skutkuje brakiem wartości. Innym przykładem jest zmiana jednostki miary, na przykład wtedy, gdy określony czujnik mierzy wielkość w stopniach Celsjusza, a następnie zmienia się na stopnie Fahrenheita.
Wykrywanie dryfu modelu nie jest proste i nie ma uniwersalnej metody jego wykrywania. Omówimy jednak niektóre popularne metody jego wykrywania:
- Test Kołmogorowa-Smirnowa (test K-S): Test K-S jest testem nieparametrycznym mającym na celu wykrycie zmiany w rozkładzie danych. Służy do porównywania danych treningowych i danych potreningowych oraz znajdowania zmian rozkładu między nimi. Hipoteza zerowa dla tego zestawu testowego stwierdza, że rozkład z dwóch zbiorów danych jest taki sam, więc jeśli hipoteza zerowa zostanie odrzucona, nastąpi przesunięcie modelu.
- Wskaźnik stabilności populacji (PSI): PSI to miara statystyczna używana do pomiaru podobieństwa rozkładu zmiennych kategorycznych w dwóch różnych zbiorach danych. Można go zatem wykorzystać do pomiaru zmian charakterystyki zmiennych kategorycznych w zbiorze danych uczących i potreningowych.
- Metoda Page’a-Hinkley’a: Metoda Page-Hinkely'ego jest także metodą statystyczną stosowaną do obserwacji zmian średniej danych w czasie. Zwykle stosuje się go do wykrywania małych zmian średniej, które nie są widoczne, patrząc na dane.
- Monitoring wydajności: Jedną z najważniejszych metod wykrywania zmiany koncepcji jest monitorowanie wydajności modelu uczenia maszynowego w środowisku produkcyjnym i obserwowanie jego zmian, a jeśli przekroczy on pewien próg, możemy uruchomić określone działanie, aby skorygować tę zmianę koncepcji.
Radzenie sobie z dryfem w produkcji | Zdjęcie autorstwa ijeab na Freepiku.
Na koniec zobaczmy, jak poradzić sobie z wykrytym dryfem modelu w produkcji. Istnieje szerokie spektrum strategii stosowanych do radzenia sobie z dryfem modelu, w zależności od rodzaju dryftu, danych, nad którymi pracujemy i projektu w fazie produkcyjnej. Oto podsumowanie popularnych metod stosowanych do radzenia sobie z dryfem modelu w produkcji:
- Nauka online: Ponieważ większość rzeczywistych aplikacji działa na danych przesyłanych strumieniowo, nauka online jest jedną z powszechnych metod stosowanych w celu radzenia sobie z dryfem. W nauczaniu online model jest aktualizowany na bieżąco, gdy model zajmuje się jedną próbką na raz.
- Okresowe ponowne szkolenie modelu: Gdy wydajność modelu spadnie poniżej określonego progu lub zostanie zaobserwowane przesunięcie danych, można ustawić wyzwalacz w celu ponownego uczenia modelu z wykorzystaniem najnowszych danych.
- Okresowo trenuj ponownie na reprezentatywnej podpróbce: Bardziej skutecznym sposobem poradzenia sobie z dryfem koncepcji jest wybranie reprezentatywnej podpróby populacji i oznaczenie jej przy użyciu ludzkich ekspertów, a następnie ponowne przeszkolenie na nich modelu.
- Upuszczanie funkcji: Jest to prosta, ale skuteczna metoda, którą można wykorzystać do radzenia sobie z dryfem koncepcji. Stosując tę metodę, będziemy trenować wiele modeli, każdy korzystając z jednej cechy, i dla każdego modelu monitorowana będzie odpowiedź AUC-ROC i jeśli wartość AUC-ROC przekroczy pewien próg przy użyciu określonej cechy, możemy ją porzucić jako może to brać udział w driftingu.
Referencje
W tym artykule omówiliśmy dryf modelu, czyli zjawisko występujące w uczeniu maszynowym, w którym wydajność modelu pogarsza się z biegiem czasu ze względu na zmiany w danych źródłowych. Aby pokonać te wyzwania, firmy zwracają się do MLOps, zestawu praktyk i narzędzi zarządzających cyklem życia modeli uczenia maszynowego w środowisku produkcyjnym.
Nakreśliliśmy różne rodzaje dryfu, które mogą wystąpić, w tym dryf koncepcji, dryf danych i zmiany danych wyjściowych, a także sposoby wykrywania dryfu modelu za pomocą metod takich jak test Kołmogorowa-Smirnowa, wskaźnik stabilności populacji i metoda Page-Hinkleya. Na koniec omówiliśmy popularne techniki radzenia sobie z dryfem modelu w produkcji, w tym uczenie się online, okresowe ponowne uczenie modelu, okresowe ponowne uczenie na reprezentatywnej podpróbce i pomijanie funkcji.
Youssef Rafaat jest badaczem wizji komputerowej i naukowcem danych. Jego badania koncentrują się na opracowywaniu algorytmów widzenia komputerowego w czasie rzeczywistym do zastosowań w opiece zdrowotnej. Pracował również jako analityk danych przez ponad 3 lata w dziedzinie marketingu, finansów i opieki zdrowotnej.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoAiStream. Analiza danych Web3. Wiedza wzmocniona. Dostęp tutaj.
- Wybijanie przyszłości w Adryenn Ashley. Dostęp tutaj.
- Kupuj i sprzedawaj akcje spółek PRE-IPO z PREIPO®. Dostęp tutaj.
- Źródło: https://www.kdnuggets.com/2023/05/managing-model-drift-production-mlops.html?utm_source=rss&utm_medium=rss&utm_campaign=managing-model-drift-in-production-with-mlops
- :ma
- :Jest
- :nie
- :Gdzie
- $W GÓRĘ
- a
- Zdolny
- Konto
- precyzja
- dokładny
- dokładnie
- Działania
- adres
- adresowanie
- oddziaływać
- wiek
- algorytm
- Algorytmy
- również
- an
- i
- Inne
- pozorny
- Zastosowanie
- aplikacje
- SĄ
- artykuł
- AS
- At
- Łazienka
- na podstawie
- BE
- staje się
- poniżej
- pomiędzy
- Poza
- Czarny
- Czarny piątek
- biznes
- biznes
- ale
- by
- CAN
- Przechwytywanie
- zapasy
- Celsjusz
- pewien
- wyzwanie
- wyzwania
- zmiana
- zmieniony
- Zmiany
- wymiana pieniędzy
- Charakterystyka
- Boże Narodzenie
- kolekcja
- wspólny
- porównać
- komputer
- Wizja komputerowa
- pojęcie
- Konsekwencje
- Rozważać
- skorygowania
- mógłby
- Covidien
- Aktualny
- dane
- naukowiec danych
- zbiory danych
- sprawa
- Decyzje
- upadek
- spadek
- dostarczanie
- zależny
- W zależności
- wdrażane
- wykryte
- Wykrywanie
- rozwijanie
- różne
- dyskutować
- omówione
- 分配
- domena
- Spadek
- Rzut
- z powodu
- podczas
- dynamika
- każdy
- Efektywne
- zakończenia
- zapewnić
- uciec
- niezbędny
- Eter (ETH)
- oceniane
- ewoluuje
- przykład
- eksperci
- odkryj
- FAIL
- Spada
- sławny
- Cecha
- Korzyści
- Łąka
- Postać
- W końcu
- finansować
- Znajdź
- koncentruje
- W razie zamówieenia projektu
- cztery
- oszustwo
- wykrywanie oszustw
- oszuści
- nieuczciwy
- Piątek
- od
- wygenerowane
- generujący
- Dać
- Goes
- stopniowy
- stopniowo
- uchwyt
- Have
- he
- opieki zdrowotnej
- pomoc
- tutaj
- jego
- historyczny
- W jaki sposób
- How To
- Jednak
- HTTPS
- człowiek
- if
- obraz
- ważny
- in
- niedokładny
- Włącznie z
- Zwiększać
- niezależny
- wskaźnik
- wpływ
- poinformowany
- wkład
- spostrzeżenia
- najnowszych
- IT
- JEGO
- jpg
- Knuggety
- znany
- etykietowanie
- prowadzący
- nauka
- mniej
- wifecycwe
- ll
- dłużej
- poszukuje
- maszyna
- uczenie maszynowe
- Główny
- robić
- zarządzanie
- zarządzający
- rynek
- Marketing
- Strategie marketingowe
- Może..
- oznaczać
- znaczy
- zmierzyć
- pomiary
- metoda
- metody
- może
- brakujący
- MLOps
- model
- modele
- monitorowane
- monitorowanie
- jeszcze
- większość
- wielokrotność
- Potrzebować
- Nowości
- Nicolas
- Nie
- obserwować
- miejsce
- of
- on
- pewnego razu
- ONE
- Online
- Nauka online
- operacyjny
- operacje
- Optymalizacja
- or
- organizacji
- wyniki
- opisane
- koniec
- Przezwyciężać
- pandemiczny
- uczestniczyć
- szczególny
- Przeszłość
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- periodycznie
- zjawisko
- rurociąg
- plato
- Analiza danych Platona
- PlatoDane
- Popularny
- populacja
- potencjalnie
- mocny
- praktyki
- przewidzieć
- przewidywanie
- przepowiednia
- Przewidywania
- obecność
- Cennik
- wygląda tak
- Produkcja
- projekt
- niska zabudowa
- zapewniać
- że
- ilość
- Prawdziwy świat
- w czasie rzeczywistym
- Przyczyny
- niedawny
- odnosi
- relacja
- związek
- Relacje
- pozostawać
- przedstawiciel
- Badania naukowe
- badacz
- odpowiedź
- dalsze
- wynikły
- przekwalifikowanie
- run
- s
- sole
- taki sam
- Naukowiec
- sezonowy
- widzieć
- wybierając
- zestaw
- przesunięcie
- PRZESUNIĘCIE
- pokazane
- znaczący
- Prosty
- ponieważ
- powolny
- Powoli
- mały
- So
- ROZWIĄZANIA
- kilka
- specyficzny
- Widmo
- Stabilność
- początek
- Zjednoczone
- statystyczny
- stany magazynowe
- bezpośredni
- strategie
- Streaming
- przedmiot
- taki
- nagły
- PODSUMOWANIE
- system
- cel
- zadania
- Techniki
- test
- niż
- że
- Połączenia
- ich
- Im
- następnie
- Tam.
- w związku z tym
- Te
- one
- Trzeci
- to
- trzy
- próg
- Prosperować
- czas
- do
- narzędzia
- Pociąg
- przeszkolony
- Trening
- transakcja
- wyzwalać
- Obrócenie
- drugiej
- rodzaj
- typy
- typowy
- dla
- zasadniczy
- zrozumieć
- zrozumienie
- jednostka
- uniwersalny
- Aktualizacja
- zaktualizowane
- Dane upstream
- używany
- Użytkownik
- za pomocą
- zazwyczaj
- wartość
- początku.
- wizja
- Droga..
- we
- jeśli chodzi o komunikację i motywację
- który
- szeroki
- będzie
- w
- pracował
- pracujący
- działa
- rok
- lat
- zefirnet