Czy zarządzanie danymi może rozwiązać problem zmęczenia sztuczną inteligencją? - KDnuggets

Opublikowane ponownie przez Plato

Obserwuje: 0

Czy zarządzanie danymi może rozwiązać problem zmęczenia AI?
Zdjęcie autora

Zarządzanie danymi i zmęczenie sztuczną inteligencją brzmią jak dwie różne koncepcje, ale istnieje między nimi wewnętrzne powiązanie. Aby lepiej to zrozumieć, zacznijmy od ich definicji.

Od dawna jest to główny przedmiot zainteresowania branży danych.

Google dobrze to ujmuje – „Zarządzanie danymi to wszystko, co robisz, aby zapewnić bezpieczeństwo, prywatność, dokładność, dostępność i użyteczność danych. Wiąże się to z ustaleniem wewnętrznych standardów – zasad dotyczących danych – mających zastosowanie do sposobu gromadzenia, przechowywania, przetwarzania i usuwania danych.

Jak podkreśla ta definicja, zarządzanie danymi polega na zarządzaniu danymi – a dokładnie na silniku napędzającym modele sztucznej inteligencji.

Teraz, gdy zaczęły pojawiać się pierwsze oznaki powiązania między zarządzaniem danymi a sztuczną inteligencją, powiążmy to ze zmęczeniem sztuczną inteligencją. Choć nazwa zdradza, podkreślenie przyczyn prowadzących do takiego zmęczenia zapewnia konsekwentne używanie tego terminu w całym poście.

Zmęczenie sztuczną inteligencją pojawia się z powodu niepowodzeń i wyzwań stojących przed organizacjami, programistami lub zespołami, często prowadząc do nieudanej realizacji wartości lub wdrożenia systemów sztucznej inteligencji.

Zaczyna się przeważnie od nierealistycznych oczekiwań co do możliwości sztucznej inteligencji. W przypadku zaawansowanych technologii, takich jak sztuczna inteligencja, kluczowi interesariusze muszą uwzględnić nie tylko możliwości i możliwości sztucznej inteligencji, ale także jej ograniczenia i ryzyko.

Jeśli chodzi o ryzyko, etyka jest często uważana za kwestię refleksyjną, która prowadzi do wycofywania niezgodnych z przepisami inicjatyw w zakresie sztucznej inteligencji.

Pewnie zastanawiasz się nad rolą zarządzania danymi w powodowaniu zmęczenia AI – co jest założeniem tego wpisu.

To tam zmierzamy dalej.

Zmęczenie sztuczną inteligencją można ogólnie podzielić na występujące przed i po wdrożeniu. Najpierw skupmy się na etapie poprzedzającym wdrożenie.

Przed wdrożeniem

Na dopuszczenie weryfikacji koncepcji (PoC) do wdrożenia mają wpływ różne czynniki, takie jak:

Co próbujemy rozwiązać?
Dlaczego ustalenie priorytetów już teraz stanowi tak istotny problem?
Jakie dane są dostępne?
Czy jest to w ogóle rozwiązanie ML?
Czy dane mają wzór?
Czy zjawisko jest powtarzalne?
Jakie dodatkowe dane podniosłyby wydajność modelu?

Czy zarządzanie danymi może rozwiązać problem zmęczenia AI?
Obraz z Freepik

Po ocenie, że problem można najlepiej rozwiązać za pomocą algorytmów ML, zespół analityki danych przeprowadza eksploracyjną analizę danych. Na tym etapie odkrywa się wiele podstawowych wzorców danych, podkreślając, czy dane dane są bogate w sygnał. Pomaga także w tworzeniu funkcji inżynieryjnych przyspieszających proces uczenia się algorytmu.

Następnie zespół buduje pierwszy model bazowy, często stwierdzając, że nie działa on na akceptowalnym poziomie. Model, którego wydajność jest tak dobra jak rzut monetą, nie wnosi żadnej wartości. To jedna z pierwszych porażek, czyli lekcje, jakie można napotkać podczas budowania modeli uczenia maszynowego.

Organizacje mogą przechodzić od jednego problemu biznesowego do drugiego, powodując zmęczenie. Jeśli jednak podstawowe dane nie niosą bogatego sygnału, żaden algorytm sztucznej inteligencji nie będzie w stanie na nich zbudować. Model musi nauczyć się powiązań statystycznych z danych uczących, aby móc uogólniać niewidoczne dane.

Po wdrożeniu

Mimo że wytrenowany model wykazuje obiecujące wyniki w zestawie walidacyjnym, zgodnie z kwalifikującymi kryteriami biznesowymi, takimi jak precyzja na poziomie 70%, zmęczenie może nadal wystąpić, jeśli model nie będzie działał odpowiednio w środowisku produkcyjnym.

Ten rodzaj zmęczenia sztuczną inteligencją nazywany jest fazą po wdrożeniu.

Niezliczone przyczyny mogą prowadzić do pogorszenia wydajności, a najczęstszym problemem nękającym model jest niska jakość danych. Ogranicza to zdolność modelu do dokładnego przewidywania reakcji docelowej w przypadku braku kluczowych atrybutów.

Zastanów się, kiedy jedna z podstawowych funkcji, której brakowało tylko w 10% w danych szkoleniowych, teraz w 50% przypadków w danych produkcyjnych staje się zerowa, co prowadzi do błędnych przewidywań. Takie iteracje i wysiłki mające na celu zapewnienie spójnego działania modeli powodują zmęczenie badaczy danych i zespołów biznesowych, podważając w ten sposób zaufanie do potoków danych i ryzykując inwestycje poczynione w projekt.

Solidne środki zarządzania danymi mają kluczowe znaczenie w walce z obydwoma rodzajami zmęczenia sztuczną inteligencją. Biorąc pod uwagę, że dane stanowią rdzeń modeli ML, bogate w sygnały, wolne od błędów i wysokiej jakości dane są koniecznością dla powodzenia projektu ML. Rozwiązanie problemu zmęczenia sztuczną inteligencją wymaga skupienia się na zarządzaniu danymi. Musimy zatem rygorystycznie pracować, aby zapewnić odpowiednią jakość danych, kładąc podwaliny pod budowanie najnowocześniejszych modeli i dostarczanie wiarygodnych spostrzeżeń biznesowych.

Jakość danych

Jakość danych, klucz do sprawnego zarządzania danymi, jest krytycznym czynnikiem sukcesu algorytmów uczenia maszynowego. Organizacje muszą inwestować w jakość danych, na przykład publikując raporty dla odbiorców danych. W projektach związanych z analizą danych należy pomyśleć o tym, co się stanie, gdy do modeli trafią dane o złej jakości, co może prowadzić do niskiej wydajności.

Dopiero podczas analizy błędów zespoły będą w stanie zidentyfikować problemy z jakością danych, które po przesłaniu do naprawy w górę łańcucha dostaw powodują zmęczenie zespołów.

Oczywiście nie chodzi tylko o włożony wysiłek, ale o dużą stratę czasu, zanim zaczną napływać właściwe dane.

Dlatego zawsze zaleca się naprawianie problemów z danymi u źródła, aby zapobiec takim czasochłonnym iteracjom. Ostatecznie opublikowane raporty dotyczące jakości danych wspominają, że zespół zajmujący się analizą danych (lub, w tym przypadku, inni dalsi użytkownicy i konsumenci danych) rozumie akceptowalną jakość przychodzących danych.

Bez środków zapewniających jakość danych i zarządzanie badacze danych byliby przeciążeni problemami z danymi, co przyczyniłoby się do powstania nieudanych modeli powodujących zmęczenie sztucznej inteligencji.

W poście podkreślono dwa etapy, na których pojawia się zmęczenie sztuczną inteligencją, i przedstawiono, w jaki sposób środki zarządzania danymi, takie jak raporty dotyczące jakości danych, mogą umożliwić budowanie wiarygodnych i solidnych modeli.

Tworząc solidne podstawy poprzez zarządzanie danymi, organizacje mogą opracować plan działania prowadzący do pomyślnego i bezproblemowego rozwoju i wdrożenia sztucznej inteligencji, wzbudzając entuzjazm.

Aby post zawierał całościowy przegląd różnych sposobów radzenia sobie ze zmęczeniem sztuczną inteligencją, podkreślam również rolę kultury organizacyjnej, która w połączeniu z innymi najlepszymi praktykami, takimi jak zarządzanie danymi, umożliwi zespołom zajmującym się analityką danych szybsze i silniejsze budowanie znaczących wkładów w sztuczną inteligencję. szybciej.

Widhi Chugh jest strategiem sztucznej inteligencji i liderem transformacji cyfrowej, pracującym na styku produktów, nauk ścisłych i inżynierii w celu tworzenia skalowalnych systemów uczenia maszynowego. Jest wielokrotnie nagradzaną liderem innowacji, autorką i międzynarodową mówczynią. Jej misją jest demokratyzacja uczenia maszynowego i przełamywanie żargonu, aby wszyscy mogli być częścią tej transformacji.