Lektura obowiązkowa: 15 niezbędnych artykułów dotyczących sztucznej inteligencji dla programistów GenAI

Opublikowane ponownie przez Plato

Obserwuje: 0

Wprowadzenie

Ponieważ dziedzina sztucznej inteligencji (AI) stale się rozwija i ewoluuje, dla aspirujących twórców sztucznej inteligencji coraz ważniejsze staje się bycie na bieżąco z najnowszymi badaniami i osiągnięciami. Jednym z najlepszych sposobów na osiągnięcie tego jest czytanie artykułów AI dla programistów GenAI, które dostarczają cennych informacji na temat najnowocześniejszych technik i algorytmów. W tym artykule omówimy 15 niezbędnych artykułów dotyczących sztucznej inteligencji dla programistów GenAI. Artykuły te obejmują różne tematy, od przetwarzania języka naturalnego po wizję komputerową. Pogłębią Twoją wiedzę na temat sztucznej inteligencji i zwiększą Twoje szanse na zdobycie pierwszej pracy w tej ekscytującej dziedzinie.

Znaczenie dokumentów AI dla programistów GenAI

Dokumenty AI dla twórców GenAI umożliwiają badaczom i ekspertom dzielenie się swoimi odkryciami, metodologiami i przełomami z szerszą społecznością. Czytając te artykuły, zyskujesz dostęp do najnowszych osiągnięć w dziedzinie sztucznej inteligencji, dzięki czemu możesz wyprzedzać konkurencję i podejmować świadome decyzje w swojej pracy. Co więcej, dokumenty AI Papers dla programistów GenAI często zawierają szczegółowe wyjaśnienia algorytmów i technik, dając głębsze zrozumienie ich działania i sposobu, w jaki można je zastosować do problemów w świecie rzeczywistym.

Czytanie artykułów AI dla programistów GenAI oferuje kilka korzyści początkującym programistom AI. Po pierwsze, pomaga Ci być na bieżąco z najnowszymi badaniami i trendami w tej dziedzinie. Wiedza ta jest kluczowa przy ubieganiu się o stanowiska związane z AI, gdyż pracodawcy często poszukują kandydatów zaznajomionych z najnowszymi osiągnięciami. Dodatkowo czytanie artykułów AI pozwala poszerzyć swoją wiedzę i uzyskać głębsze zrozumienie koncepcji i metodologii AI. Tę wiedzę można zastosować w swoich projektach i badaniach, dzięki czemu staniesz się bardziej kompetentnym i wykwalifikowanym programistą AI.

Spis treści

Przegląd: Niezbędne dokumenty AI dla programistów GenAI z linkami

Przekaz 1: Transformatory: wystarczy uwaga

Połączyć: Czytaj tutaj

Podsumowanie papieru

W artykule przedstawiono Transformer, nowatorską architekturę sieci neuronowej do zadań transdukcji sekwencji, takich jak translacja maszynowa. W przeciwieństwie do tradycyjnych modeli opartych na rekurencyjnych lub splotowych sieciach neuronowych, Transformer opiera się wyłącznie na mechanizmach uwagi, eliminując potrzebę nawrotów i splotów. Autorzy argumentują, że ta architektura zapewnia doskonałą wydajność pod względem jakości tłumaczenia, zwiększoną możliwość równoległości i skrócony czas szkolenia.

Kluczowe spostrzeżenia z dokumentów AI dla programistów GenAI

Mechanizm uwagi

Transformator jest zbudowany w całości na mechanizmach uwagi, co pozwala mu uchwycić globalne zależności pomiędzy sekwencjami wejściowymi i wyjściowymi. Takie podejście umożliwia modelowi uwzględnienie relacji bez ograniczania się odległością między elementami w sekwencjach.

Równoległość
Jedną z głównych zalet architektury Transformer jest jej zwiększona możliwość równoległości. W tradycyjnych modelach rekurencyjnych występują problemy z obliczeniami sekwencyjnymi, co utrudnia równoległość. Konstrukcja Transformera pozwala na bardziej wydajne przetwarzanie równoległe podczas treningu, skracając czas szkolenia.

Najwyższa jakość i wydajność

W artykule przedstawiono wyniki eksperymentów zadań tłumaczenia maszynowego, wykazując, że Transformer osiąga wyższą jakość tłumaczenia w porównaniu z istniejącymi modelami. Znacznie przewyższa wcześniejsze, najnowocześniejsze wyniki, w tym modele zespołowe. Dodatkowo Transformer osiąga te wyniki przy znacznie krótszym czasie szkolenia.

Wydajność tłumaczenia

W zadaniu tłumaczenia z języka angielskiego na niemiecki WMT 2014 proponowany model uzyskał wynik BLEU na poziomie 28.4, przewyższając istniejące najlepsze wyniki o ponad 2 BLEU. W przypadku zadania z języka angielskiego na francuski model uzyskał nowy, najnowocześniejszy wynik BLEU w pojedynczym modelu na poziomie 41.8 po treningu trwającym zaledwie 3.5 dnia na ośmiu procesorach graficznych.

Uogólnienie na inne zadaniaAutorzy wykazują, że architektura Transformera dobrze uogólnia zadania wykraczające poza tłumaczenie maszynowe. Z powodzeniem zastosowali model do analizowania okręgów wyborczych w języku angielskim, wykazując jego zdolność do adaptacji do różnych problemów transdukcji sekwencji.

Artykuł 2: BERT: Wstępne szkolenie głębokich transformatorów dwukierunkowych w zakresie rozumienia języka

Połączyć: Czytaj tutaj

Podsumowanie papieru

Wstępne szkolenie z modelu języka okazało się skuteczne w usprawnianiu różnych zadań związanych z przetwarzaniem języka naturalnego. W artykule dokonano rozróżnienia pomiędzy podejściem opartym na cechach a podejściem dostrajającym w zakresie stosowania wstępnie wytrenowanych reprezentacji językowych. BERT został wprowadzony, aby zająć się ograniczeniami w podejściach dostrajających, w szczególności ograniczeniem jednokierunkowości standardowych modeli językowych. W artykule zaproponowano cel przedszkoleniowy „Model języka maskowanego” (MLM), zainspirowany zadaniem Cloze, aby umożliwić dwukierunkową reprezentację. Zadanie „przewidywania następnego zdania” jest również wykorzystywane do wspólnego wstępnego uczenia reprezentacji par tekstowych.

Kluczowe spostrzeżenia z dokumentów AI dla programistów GenAI

Dwukierunkowe znaczenie przedtreningowe

W artykule podkreślono znaczenie dwukierunkowego treningu wstępnego dla reprezentacji językowych. W przeciwieństwie do poprzednich modeli, BERT wykorzystuje modele języka zamaskowanego, aby umożliwić głęboką reprezentację dwukierunkową, przewyższającą modele języka jednokierunkowego stosowane we wcześniejszych pracach.

Redukcja architektur specyficznych dla zadań

BERT pokazuje, że wstępnie wytrenowane reprezentacje zmniejszają potrzebę stosowania skomplikowanych architektur dostosowanych do konkretnych zadań. Staje się pierwszym modelem reprezentacji opartym na dostrajaniu, zapewniającym najnowocześniejszą wydajność w różnorodnych zadaniach na poziomie zdania i tokenu, przewyższającym architektury specyficzne dla zadań.

Najnowocześniejsze osiągnięcia

BERT osiąga nowe, najnowocześniejsze wyniki w jedenastu zadaniach przetwarzania języka naturalnego, demonstrując swoją wszechstronność. Godne uwagi ulepszenia obejmują znaczny wzrost wyniku GLUE, dokładność MultiNLI i ulepszenia w zadaniach odpowiadania na pytania SQuAD v1.1 i v2.0.

Możesz także przeczytać: Dostrajanie BERT za pomocą modelowania języka maskowanego

Artykuł 3: GPT: Modele językowe to nieliczni uczniowie

Połączyć: Czytaj tutaj

Podsumowanie papieru

W artykule omówiono ulepszenia osiągnięte w zadaniach przetwarzania języka naturalnego (NLP) poprzez skalowanie modeli językowych, koncentrując się na GPT-3 (Generative Pre-trained Transformer 3), model języka autoregresyjnego ze 175 miliardami parametrów. Autorzy podkreślają to, choć niedawno Modele NLP wykazują znaczne korzyści dzięki wstępnemu szkoleniu i dostrajaniu, często wymagają zestawów danych dotyczących konkretnego zadania z tysiącami przykładów do dostrojenia. W przeciwieństwie do tego ludzie mogą wykonywać nowe zadania językowe, korzystając z kilku przykładów lub prostych instrukcji.

Kluczowe spostrzeżenia z dokumentów AI dla programistów GenAI

Skalowanie w górę poprawia wydajność kilku strzałów
Autorzy wykazują, że skalowanie modeli językowych w górę znacznie zwiększa wydajność niezależną od zadań i wymagającą kilku strzałów. GPT-3, dzięki swoim dużym rozmiarom parametrów, czasami osiąga konkurencyjność dzięki najnowocześniejszym metodom dostrajania, bez dostrajania specyficznego dla zadania lub aktualizacji gradientu.
Szerokie zastosowanie

GPT-3 wykazuje dobrą wydajność w różnych zadaniach NLP, w tym w tłumaczeniu, odpowiadaniu na pytania, zadaniach zamykania i zadaniach wymagających szybkiego rozumowania lub adaptacji domeny.
Wyzwania i ograniczenia

Chociaż GPT-3 wykazuje niezwykłe możliwości uczenia się w kilku etapach, autorzy identyfikują zbiory danych, w których ma on problemy i podkreślają kwestie metodologiczne związane ze szkoleniem w dużych korpusach internetowych.
Generowanie artykułów na wzór człowieka

GPT-3 może generować artykuły prasowe, które osobom oceniającym trudno odróżnić od artykułów napisanych przez ludzi.
Skutki społeczne i szersze rozważania

W artykule omówiono szersze skutki społeczne możliwości GPT-3, szczególnie w zakresie generowania tekstu podobnego do ludzkiego. Konsekwencje jego wykonania w różnych zadaniach są rozważane pod kątem praktycznych zastosowań i potencjalnych wyzwań.
Ograniczenia obecnych podejść NLP

Autorzy podkreślają ograniczenia obecnych podejść NLP, w szczególności ich poleganie na dostrajających zbiorach danych specyficznych dla zadania, które stwarzają wyzwania, takie jak wymóg stosowania dużych, oznakowanych zbiorów danych i ryzyko nadmiernego dopasowania do wąskich rozkładów zadań. Ponadto pojawiają się obawy dotyczące możliwości uogólnienia tych modeli poza granice ich dystrybucji szkoleniowej.

Artykuł 4: CNN: Klasyfikacja ImageNet z głębokimi splotowymi sieciami neuronowymi

Połączyć: Czytaj tutaj

Podsumowanie papieru

W artykule opisano rozwój i szkolenie dużej, głębokiej splotowej sieci neuronowej (CNN) do klasyfikacji obrazów w zbiorach danych ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Model osiąga znaczną poprawę dokładności klasyfikacji w porównaniu z poprzednimi, najnowocześniejszymi metodami.

Kluczowe spostrzeżenia z dokumentów AI dla programistów GenAI

Architektura modelu
Sieć neuronowa wykorzystana w badaniu to głęboka sieć CNN z 60 milionami parametrów i 650,000 1000 neuronów. Składa się z pięciu warstw splotowych, po niektórych następują warstwy o maksymalnym łączeniu i trzech w pełni połączonych warstw z końcowym XNUMX-kierunkowym softmaxem do klasyfikacji.

Dane treningowe

Model jest szkolony na obszernym zbiorze danych składającym się z 1.2 miliona obrazów o wysokiej rozdzielczości z konkursu ImageNet ILSVRC-2010. Proces uczenia polega na klasyfikacji obrazów na 1000 różnych klas.

Wydajność
Model osiąga współczynniki błędów pierwszej i piątej wartości odpowiednio 1% i 5% w przypadku danych testowych. Te poziomy błędu są znacznie wyższe niż w poprzednim stanie wiedzy, co wskazuje na skuteczność proponowanego podejścia.

Ulepszenia w zakresie nadmiernego dopasowania

W artykule przedstawiono kilka technik rozwiązywania problemów związanych z nadmiernym dopasowaniem, w tym nienasycające się neurony, wydajną implementację procesora graficznego w celu szybszego uczenia oraz metodę regularyzacji zwaną „porzucaniem” w całkowicie połączonych warstwach.
Wydajność obliczeniowa
Pomimo wymagań obliczeniowych związanych ze szkoleniem dużych sieci CNN w artykule zauważono, że obecne procesory graficzne i zoptymalizowane implementacje umożliwiają uczenie takich modeli na obrazach o wysokiej rozdzielczości.

Wpłaty na siódmą tradycję
W artykule podkreślono wkład badania, w tym wyszkolenie jednej z największych splotowych sieci neuronowych na zbiorach danych ImageNet i osiągnięcie najnowocześniejszych wyników w konkursach ILSVRC.

Możesz także przeczytać: Kompleksowy samouczek do nauki splotowych sieci neuronowych

Artykuł 5: GAT: Sieci uwagi na grafach

Połączyć: Czytaj tutaj

Podsumowanie papieru

W artykule przedstawiono architekturę opartą na uwadze do klasyfikacji węzłów w danych o strukturze graficznej, pokazując jej efektywność, wszechstronność i konkurencyjność w różnych testach porównawczych. Włączenie mechanizmów uwagi okazuje się potężnym narzędziem do obsługi wykresów o dowolnej strukturze.

Kluczowe spostrzeżenia z dokumentów AI dla programistów GenAI

Grafowe sieci uwagi (GAT)GAT wykorzystują zamaskowane warstwy samouważności, aby wyeliminować ograniczenia poprzednich metod opartych na splotach grafów. Architektura umożliwia węzłom kontrolowanie cech ich sąsiedztwa, w sposób dorozumiany określając różne wagi dla różnych węzłów bez polegania na kosztownych operacjach na macierzach lub apriorycznej znajomości struktury grafu.

Sprostanie wyzwaniom związanym z widmem

GAT jednocześnie rozwiązują kilka problemów związanych z grafowymi sieciami neuronowymi opartymi na widmach. Wyzwania Graph Attention Network (GAT) obejmują filtry zlokalizowane przestrzennie, intensywne obliczenia i filtry niezlokalizowane przestrzennie. Dodatkowo GAT zależą od podstawy własnej Laplaciana, co przyczynia się do ich zastosowania do problemów indukcyjnych i transdukcyjnych.

Wydajność w benchmarkach

Modele GAT osiągają lub dorównują najnowocześniejszym wynikom w czterech ustalonych wykresach porównawczych: zbiorach danych sieci cytowań Cora, Citeseer i Pubmed, a także zbiorze danych dotyczących interakcji białko-białko. Te testy porównawcze obejmują zarówno scenariusze uczenia się transdukcyjnego, jak i indukcyjnego, ukazując wszechstronność GAT.

Porównanie z poprzednimi podejściami

Artykuł zawiera kompleksowy przegląd dotychczasowych podejść, w tym rekurencyjnych sieci neuronowych, Grafuj sieci neuronowe (GNN), metody spektralne i niespektralne oraz mechanizmy uwagi. GAT zawierają mechanizmy uwagi, umożliwiające efektywną równoległość par węzeł-sąsiad i zastosowanie do węzłów o różnym stopniu.

Wydajność i zastosowanieGAT oferują możliwość równoległego, wydajnego działania, które można zastosować do węzłów wykresu o różnym stopniu, określając dowolne wagi sąsiadom. Model ma bezpośrednie zastosowanie do problemów uczenia się indukcyjnego, dzięki czemu nadaje się do zadań, w których należy uogólniać na zupełnie niewidoczne wykresy.

Związek z poprzednimi modelami

Autorzy zauważają, że GAT można przeformułować jako konkretny przykład MoNet, wykazując podobieństwa z sieciami relacyjnymi i łącząc się z dziełami wykorzystującymi operacje uwagi sąsiedzkiej. Proponowany model uwagi porównuje się z pokrewnymi podejściami, takimi jak Duan i in. (2017) oraz Denil i in. (2017).

Artykuł 6: ViT: Obraz jest wart 16×16 słów: Transformatory do rozpoznawania obrazów w dużej skali

Połączyć: Czytaj tutaj

Podsumowanie papieru

W artykule uznano dominację architektur splotowych w widzeniu komputerowym, pomimo sukcesu architektur Transformer w przetwarzaniu języka naturalnego. Zainspirowani wydajnością i skalowalnością transformatorów w NLP, autorzy zastosowali standardowy transformator bezpośrednio do obrazów przy minimalnych modyfikacjach.

Przedstawiają Transformator wizyjny (ViT), gdzie obrazy są dzielone na obszary, a sekwencja liniowego osadzania tych fragmentów służy jako sygnał wejściowy dla Transformatora. Model jest szkolony w zakresie zadań klasyfikacji obrazów w sposób nadzorowany. Początkowo, trenowany na średniej wielkości zbiorach danych, takich jak ImageNet, bez silnej regularyzacji, ViT osiąga dokładność nieco poniżej porównywalnych ResNets.

Autorzy ujawniają jednak, że szkolenie na dużą skalę ma kluczowe znaczenie dla sukcesu ViT, przekraczając ograniczenia narzucone przez brak pewnych uprzedzeń indukcyjnych. Po wstępnym przeszkoleniu na ogromnych zbiorach danych, ViT przewyższa najnowocześniejsze sieci splotowe w wielu testach porównawczych, w tym ImageNet, CIFAR-100 i VTAB. W artykule podkreślono wpływ skalowania na osiąganie niezwykłych wyników przy zastosowaniu architektur Transformer w wizji komputerowej.

Kluczowe spostrzeżenia z dokumentów AI dla programistów GenAI

Transformator w wizji komputerowej

W artykule podważono powszechne poleganie na splotowych sieciach neuronowych (CNN) w zadaniach widzenia komputerowego. Pokazuje, że czysty transformator zastosowany bezpośrednio do sekwencji fragmentów obrazu może osiągnąć doskonałą wydajność w zadaniach klasyfikacji obrazów.

Transformator wizyjny (ViT)

Autorzy przedstawiają Transformator Wizji (ViT), model wykorzystujący mechanizmy samouważności podobne do Transformatorów w NLP. ViT może osiągnąć konkurencyjne wyniki w różnych testach rozpoznawania obrazów, w tym ImageNet, CIFAR-100 i VTAB.

Szkolenie wstępne i nauka transferowa

W artykule podkreślono znaczenie wstępnego uczenia się na dużych ilościach danych, podobnie jak w podejściu NLP, a następnie przenoszenia wyuczonych reprezentacji do konkretnych zadań rozpoznawania obrazu. ViT, po wstępnym przeszkoleniu na ogromnych zbiorach danych, takich jak ImageNet-21k lub JFT-300M, przewyższa najnowocześniejsze sieci splotowe w różnych testach.

Wydajność obliczeniowaViT osiąga niezwykłe wyniki przy znacznie mniejszych zasobach obliczeniowych podczas szkolenia niż ViT najnowocześniejsze sieci splotowe. Wydajność ta jest szczególnie zauważalna, gdy model jest wstępnie szkolony na dużą skalę.

Wpływ skalowania

W artykule podkreślono znaczenie skalowania w osiąganiu najwyższej wydajności architektur Transformer w wizji komputerowej. Szkolenie na dużą skalę na zbiorach danych zawierających od milionów do setek milionów obrazów pomaga ViT przezwyciężyć brak pewnych uprzedzeń indukcyjnych występujących w CNN.

Artykuł 7: AlphaFold2: Bardzo dokładna struktura białek dzięki AlphaFold

Połączyć: Czytaj tutaj

Podsumowanie papieru

Artykuł „AlphaFold2: Bardzo dokładna struktura białek z AlphaFold” przedstawia AlphaFold2, model głębokiego uczenia się, który dokładnie przewiduje struktury białek. AlphaFold2 wykorzystuje nowatorską architekturę opartą na uwadze i osiąga przełom w zwijaniu białek.

Kluczowe spostrzeżenia z dokumentów AI dla programistów GenAI

AlfaFold2 wykorzystuje głęboką sieć neuronową z mechanizmami uwagi do przewidywania struktury 3D białek na podstawie ich sekwencji aminokwasowych.
Model został wyszkolony na dużym zbiorze danych dotyczących znanych struktur białkowych i osiągnął niespotykaną dotąd dokładność w 14. konkursie na zwijanie białek w ramach krytycznej oceny struktury białka (CASP14).
Dokładne przewidywania AlphaFold2 mogą potencjalnie zrewolucjonizować odkrywanie leków, inżynierię białek i inne obszary biochemii.

Artykuł 8: GAN: Generacyjne sieci kontradyktoryjne

Połączyć: Czytaj tutaj

Podsumowanie papieru

W artykule omówiono wyzwania związane z trenowaniem głębokich modeli generatywnych i przedstawiono innowacyjne podejście zwane sieciami kontradyktoryjnymi. W tym kontekście modele generatywne i dyskryminacyjne biorą udział w grze, w której model generatywny ma na celu wytworzenie próbek nie do odróżnienia od danych rzeczywistych. Natomiast model dyskryminacyjny rozróżnia próbki rzeczywiste i wygenerowane. Proces szkolenia kontradyktoryjnego prowadzi do unikalnego rozwiązania, w którym model generatywny odtwarza dystrybucję danych.

Kluczowe spostrzeżenia z dokumentów AI dla programistów GenAI

Ramy kontradyktoryjne

Autorzy przedstawiają platformę kontradyktoryjną, w której jednocześnie szkolone są dwa modele — model generatywny (G), który przechwytuje rozkład danych, oraz model dyskryminacyjny (D), który szacuje prawdopodobieństwo, że próbka pochodzi z danych uczących, a nie z modelu generatywnego.

Gra MinimaxProcedura uczenia polega na maksymalizacji prawdopodobieństwa popełnienia błędu przez model dyskryminacyjny. Ramy te zostały sformułowane jako minimaksowa gra dla dwóch graczy, w której model generatywny ma na celu generowanie próbek nie do odróżnienia od danych rzeczywistych, a model dyskryminacyjny ma na celu klasyfikację, czy próbka jest rzeczywista, czy wygenerowana prawidłowo.

Unikalne rozwiązanie

Istnieje unikalne rozwiązanie w dowolnych funkcjach dla G i D, przy czym G odzyskuje rozkład danych szkoleniowych, a D jest wszędzie równe 1/2. Równowagę tę osiąga się poprzez proces treningu kontradyktoryjnego.

Perceptrony wielowarstwowe (MLP)Autorzy wykazali, że cały system można trenować za pomocą propagacji wstecznej, gdy wielowarstwowe perceptrony reprezentują G i D. Eliminuje to potrzebę stosowania łańcuchów Markowa lub rozwijanych przybliżonych sieci wnioskowania podczas uczenia i generowania próbek.

Brak przybliżonych wniosków

Proponowane ramy pozwalają uniknąć trudności związanych z przybliżaniem trudnych obliczeń probabilistycznych w estymacji maksymalnego prawdopodobieństwa. Pokonuje także wyzwania związane z wykorzystaniem zalet odcinkowych jednostek liniowych w kontekście generatywnym.

Artykuł 9: RoBERTa: Solidnie zoptymalizowane podejście do szkolenia wstępnego BERT

Połączyć: Czytaj tutaj

Podsumowanie papieru

Artykuł porusza problem niedoszkolenia BERT i przedstawia RoBERTa, zoptymalizowaną wersję, która przewyższa wydajność BERT. Modyfikacje procedury szkoleniowej RoBERTa i wykorzystanie nowatorskiego zbioru danych (CC-NEWS) przyczyniają się do uzyskania najnowocześniejszych wyników w wielu zadaniach związanych z przetwarzaniem języka naturalnego. Wyniki podkreślają znaczenie wyborów projektowych i strategii szkoleniowych dla skuteczności wstępnego szkolenia w zakresie modelu językowego. Uwolnione zasoby, w tym model i kod RoBERTa, wnoszą wkład do społeczności badawczej.

Kluczowe spostrzeżenia z dokumentów AI dla programistów GenAI

Szkolenie BERT

Autorzy stwierdzają, że BERTI, powszechnie używany model językowy, był znacznie niedostatecznie przeszkolony. Dokładna ocena wpływu dostrajania hiperparametrów i rozmiaru zestawu treningowego pokazuje, że BERT można ulepszyć, aby dorównywał lub przewyższał wydajność wszystkich opublikowanych po nim modeli.

Ulepszona receptura treningowa (RoBERTa)

Autorzy wprowadzają modyfikacje do procedury szkoleniowej BERT, w wyniku czego otrzymujemy RoBERTa. Zmiany te obejmują wydłużone okresy uczenia się z większymi partiami, eliminację celu przewidywania następnego zdania, trenowanie na dłuższych sekwencjach i dynamiczne dostosowywanie wzorca maskowania dla danych szkoleniowych.

Wkład zbioru danychW artykule wprowadzono nowy zbiór danych o nazwie CC-NEWS, który jest porównywalny pod względem wielkości z innymi zbiorami danych używanymi prywatnie. Uwzględnienie tego zestawu danych pomaga lepiej kontrolować efekty wielkości zestawu szkoleniowego i przyczynia się do poprawy wydajności dalszych zadań.

Osiągnięcia wydajności

RoBERTa, z sugerowanymi modyfikacjami, osiąga najnowocześniejsze wyniki w różnych zadaniach porównawczych, w tym GLUE, RACE i SQuAD. Dorównuje lub przewyższa wydajność wszystkich metod post-BERT w zadaniach takich jak MNLI, QNLI, RTE, STS-B, SQuAD i RACE.

Konkurencyjność wstępnego szkolenia modelu języka zamaskowanego

Artykuł potwierdza, że cel szkolenia wstępnego w zakresie zamaskowanego modelu języka, przy odpowiednich wyborach projektowych, jest konkurencyjny w stosunku do innych niedawno zaproponowanych celów szkoleniowych.

Udostępnione zasoby

Autorzy udostępniają swój model RoBERTa wraz z kodem do wstępnego uczenia i dostrajania zaimplementowanym w PyTorch, przyczyniając się do powtarzalności i dalszej eksploracji ich ustaleń.

Przeczytaj także: Delikatne wprowadzenie do RoBERTa

Artykuł 10: NeRF: Reprezentowanie scen jako neuronowych pól promieniowania do syntezy widoków

Połączyć: Czytaj tutaj

Podsumowanie papieru

Optymalizacja polega na minimalizowaniu błędu pomiędzy obserwowanymi obrazami przy znanych pozycjach kamery a widokami renderowanymi z ciągłej reprezentacji sceny. W artykule podjęto wyzwania związane ze zbieżnością i wydajnością, wprowadzając kodowanie pozycyjne do obsługi funkcji o wyższych częstotliwościach i proponując hierarchiczną procedurę próbkowania w celu zmniejszenia liczby zapytań potrzebnych do odpowiedniego próbkowania.

Kluczowe spostrzeżenia z dokumentów AI dla programistów GenAI

Ciągła reprezentacja sceny

W artykule przedstawiono metodę reprezentacji złożonych scen w postaci trójwymiarowych pól radiancji neuronowej z wykorzystaniem podstawowych wielowarstwowych sieci perceptronowych (MLP).

Różniczkowe renderowanie

Proponowana procedura renderowania opiera się na klasycznych technikach renderowania wolumenowego, umożliwiając optymalizację opartą na gradientach przy użyciu standardowych obrazów RGB.

Hierarchiczna strategia próbkowania

Wprowadzono hierarchiczną strategię próbkowania w celu optymalizacji wydajności MLP w odniesieniu do obszarów z widoczną zawartością sceny, rozwiązując problemy zbieżności.

Kodowanie pozycyjneUżycie kodowania pozycyjnego do mapowania wejściowych współrzędnych 5D na przestrzeń o wyższych wymiarach umożliwia skuteczną optymalizację neuronowych pól promieniowania dla treści scen o wysokiej częstotliwości.

Zaproponowana metoda przewyższa najnowocześniejsze podejścia do syntezy widoków, w tym dopasowywanie neuronowych reprezentacji 3D i trenowanie głębokich sieci splotowych. W artykule przedstawiono ciągłą reprezentację sceny neuronowej do renderowania fotorealistycznych, nowatorskich widoków o wysokiej rozdzielczości z obrazów RGB w naturalnych warunkach, z dodatkowymi porównaniami zaprezentowanymi w dodatkowym filmie, aby podkreślić jej skuteczność w obsłudze złożonej geometrii i wyglądu sceny.

Artykuł 11: FunSearch: Odkrycia matematyczne z wyszukiwania programów z dużymi modelami językowymi

Połączyć: Czytaj tutaj

Podsumowanie papieru

W artykule przedstawiono FunSearch, nowatorskie podejście do wykorzystania modeli wielkojęzykowych (LLM) do rozwiązywania złożonych problemów, szczególnie w zakresie odkryć naukowych. Podstawowym wyzwaniem, na które należy zwrócić uwagę, jest występowanie konfabulacji (halucynacji) w LLM, prowadzących do wiarygodnych, ale błędnych stwierdzeń. FunSearch łączy wstępnie przeszkolony LLM z systematycznym oceniającym w procedurze ewolucyjnej, aby pokonać to ograniczenie.

Kluczowe spostrzeżenia z dokumentów AI dla programistów GenAI

Rozwiązywanie problemów za pomocą LLM
Artykuł porusza kwestię konfabulacji LLM lub niegenerowania nowatorskich pomysłów i prawidłowych rozwiązań złożonych problemów. Podkreśla znaczenie znajdowania nowych, weryfikowalnych, poprawnych pomysłów, szczególnie w przypadku wyzwań matematycznych i naukowych.

Procedura ewolucyjna – FunSearch

FunSearch łączy wstępnie przeszkolonego LLM z oceniającym w procesie ewolucyjnym. Iteracyjnie przekształca programy o niskiej punktacji w programy o wysokiej punktacji, zapewniając odkrycie nowej wiedzy. Proces ten obejmuje podpowiadanie najlepszych wyników, rozwijanie szkieletów programów, utrzymywanie różnorodności programów i asynchroniczne skalowanie.

Zastosowanie do ekstremalnej kombinatoryki

W artykule zademonstrowano skuteczność FunSearch w rozwiązaniu problemu ograniczenia wartości w kombinatoryce ekstremalnej. FunSearch odkrywa nowe konstrukcje zbiorów o dużej kapitalizacji, przewyższając najbardziej znane wyniki i zapewniając największą poprawę od 20 lat w stosunku do asymptotycznej dolnej granicy.

Problem algorytmiczny – pakowanie do pojemników online

FunSearch zastosowano do problemu pakowania pojemników online, co doprowadziło do odkrycia nowych algorytmów, które przewyższają tradycyjne algorytmy w przypadku dobrze zbadanych rozkładów odsetek. Potencjalne zastosowania obejmują ulepszanie algorytmów planowania zadań.

Programy a rozwiązaniaFunSearch koncentruje się na generowaniu programów opisujących sposób rozwiązania problemu, a nie na bezpośrednim wyświetlaniu rozwiązań. Programy te są zazwyczaj łatwiejsze do interpretacji, ułatwiają interakcję z ekspertami dziedzinowymi i są łatwiejsze do wdrożenia niż inne rodzaje opisów, takie jak sieci neuronowe.

Wpływ interdyscyplinarny

Metodologia FunSearch pozwala na badanie szerokiego zakresu problemów, co czyni ją wszechstronnym podejściem o zastosowaniach interdyscyplinarnych. W artykule podkreślono jego potencjał w zakresie dokonywania weryfikowalnych odkryć naukowych przy użyciu LLM.

Artykuł 12: VAE: automatyczne kodowanie wariacyjnych Bayesów

Połączyć: Czytaj tutaj

Podsumowanie papieru

Artykuł „Auto-Encoding Variational Bayes” porusza wyzwanie, jakim jest efektywne wnioskowanie i uczenie się w ukierunkowanych modelach probabilistycznych z ciągłymi zmiennymi ukrytymi, szczególnie gdy rozkłady późniejsze są trudne do rozwiązania i mają do czynienia z dużymi zbiorami danych. Autorzy proponują stochastyczny algorytm wnioskowania wariacyjnego i uczenia się, który dobrze skaluje się w przypadku dużych zbiorów danych i pozostaje możliwy do zastosowania nawet w przypadku trudnych do rozwiązania rozkładów późniejszych.

Kluczowe spostrzeżenia z dokumentów AI dla programistów GenAI

Reparametryzacja dolnej granicy wariacyjnej

W artykule przedstawiono reparametryzację dolnej granicy wariacyjnej, w wyniku której otrzymano estymator dolnej granicy. Estymator ten można optymalizować przy użyciu standardowych metod gradientu stochastycznego, co czyni go wydajnym obliczeniowo.

Efektywne wnioskowanie późniejsze dla ciągłych zmiennych ukrytychAutorzy proponują algorytm Auto-Encoding VB (AEVB) dla zbiorów danych z ciągłymi zmiennymi ukrytymi na punkt danych. Algorytm ten wykorzystuje estymator Stochastic Gradient Variational Bayes (SGVB) do optymalizacji modelu rozpoznawania, umożliwiając wydajne przybliżone wnioskowanie późniejsze poprzez próbkowanie przodków. Podejście to pozwala uniknąć kosztownych iteracyjnych schematów wnioskowania, takich jak łańcuch Markowa Monte Carlo (MCMC), dla każdego punktu danych.

Zalety teoretyczne i wyniki eksperymentów

Teoretyczne zalety proponowanej metody znajdują odzwierciedlenie w wynikach eksperymentalnych. W artykule sugeruje się, że model reparametryzacji i rozpoznawania prowadzi do wydajności obliczeniowej i skalowalności, dzięki czemu podejście to można zastosować w przypadku dużych zbiorów danych oraz w sytuacjach, w których późniejsza analiza jest trudna.

Przeczytaj także: Odkrywanie istoty stochastyki w uczeniu maszynowym

Przekaz 13: PAMIĘĆ KRÓTKOTERMINOWA DŁUGOTERMINOWA

Połączyć: Czytaj tutaj

Podsumowanie papieru

W artykule podjęto wyzwanie, jakim jest nauczenie się przechowywania informacji w dłuższych odstępach czasu w rekurencyjnych sieciach neuronowych. Wprowadza nowatorską, wydajną metodę opartą na gradiencie zwaną „Long Short-Term Memory” (LSTM), eliminującą problemy z niewystarczającym i zanikającym przepływem wstecznym błędów. LSTM wymusza stały przepływ błędów przez „karuzele ciągłych błędów” i wykorzystuje multiplikatywne jednostki bramkowe do kontroli dostępu. Przy lokalnej złożoności czasoprzestrzennej (O(1) na krok czasowy i wagę) wyniki eksperymentów pokazują, że LSTM przewyższa istniejące algorytmy pod względem szybkości uczenia się i współczynników powodzenia, szczególnie w przypadku zadań o dłuższych opóźnieniach czasowych.

Kluczowe spostrzeżenia z dokumentów AI dla programistów GenAI

Analiza problemu

Artykuł zawiera szczegółową analizę wyzwań związanych z przepływem zwrotnym błędów w rekurencyjnych sieciach neuronowych, podkreślając problemy związane z eksplozją lub zanikiem sygnałów błędów w czasie.

Wprowadzenie LSTM

Autorzy przedstawiają LSTM jako nowatorską architekturę zaprojektowaną w celu rozwiązania problemów znikających i eksplodujących sygnałów błędów. LSTM obejmuje stały przepływ błędów przez wyspecjalizowane jednostki i wykorzystuje multiplikatywne jednostki bramkowe do regulowania dostępu do tego przepływu błędów.

Wyniki eksperymentalne

Poprzez eksperymenty ze sztucznymi danymi w artykule wykazano, że LSTM przewyższa inne algorytmy sieci rekurencyjnych, w tym BPTT, RTRL, korelację kaskadową rekurencyjną, sieci Elmana i fragmentowanie sekwencji neuronowych. LSTM wykazuje szybsze uczenie się i wyższe wskaźniki sukcesu, szczególnie w rozwiązywaniu złożonych zadań z długimi opóźnieniami.

Lokalne w przestrzeni i czasie

LSTM opisuje się jako lokalną architekturę w przestrzeni i czasie, ze złożonością obliczeniową na krok czasowy i wagą O(1).

Możliwość zastosowania
Proponowana architektura LSTM skutecznie rozwiązuje złożone, sztuczne, długotrwałe zadania z opóźnieniami, których nie udało się rozwiązać wcześniejszymi algorytmami sieci rekurencyjnej.

Ograniczenia i zalety

W artykule omówiono ograniczenia i zalety LSTM, dostarczając wglądu w praktyczne zastosowanie proponowanej architektury.

Przeczytaj także: Co to jest LSTM? Wprowadzenie do pamięci długotrwałej i krótkotrwałej

Artykuł 14: Uczenie się możliwych do przeniesienia modeli wizualnych na podstawie nadzoru nad językiem naturalnym

Połączyć: Czytaj tutaj

Podsumowanie papieru

W artykule zbadano kwestię uczenia najnowocześniejszych komputerowych systemów wizyjnych poprzez bezpośrednie uczenie się na temat obrazów na podstawie surowego tekstu, zamiast polegać na ustalonych zestawach z góry określonych kategorii obiektów. Autorzy proponują przedtreningowe zadanie polegające na przewidzeniu, który podpis odpowiada danemu obrazowi, wykorzystując zbiór danych składający się z 400 milionów par (obraz, tekst) zebranych z Internetu. Powstały model CLIP (Contrastive Language-Image Pre-training) demonstruje wydajne i skalowalne uczenie się reprezentacji obrazów. Po szkoleniu wstępnym język naturalny odwołuje się do koncepcji wizualnych, umożliwiając natychmiastowe przeniesienie do różnych dalszych zadań. CLIP jest porównywany z ponad 30 zbiorami danych z zakresu wizji komputerowej, co pozwala wykazać konkurencyjną wydajność bez szkolenia w zakresie konkretnego zadania.

Kluczowe spostrzeżenia z dokumentów AI dla programistów GenAI

Szkolenie z języka naturalnego dla widzenia komputerowego

W artykule zbadano wykorzystanie nadzoru języka naturalnego do uczenia komputerowych modeli widzenia zamiast tradycyjnego podejścia do uczenia na zbiorach danych oznaczonych etykietami tłumu, takich jak ImageNet.

Zadanie przedtreningoweAutorzy proponują proste zadanie przedtreningowe: przewidzenie, jaki podpis odpowiada danemu obrazkowi. Zadanie to służy do uczenia się od podstaw najnowocześniejszych reprezentacji obrazów na ogromnym zbiorze danych składającym się z 400 milionów par (obraz, tekst) zebranych online.

Transfer zerowy

Po wstępnym przeszkoleniu model wykorzystuje język naturalny do odwoływania się do wyuczonych koncepcji wizualnych lub opisywania nowych. Umożliwia to bezproblemowe przeniesienie modelu do dalszych zadań bez konieczności specjalnego szkolenia w zakresie zbioru danych.

Benchmarking dla różnych zadań

W artykule dokonano oceny wydajności proponowanego podejścia na ponad 30 różnych zbiorach danych z zakresu wizji komputerowej, obejmujących takie zadania, jak OCR, rozpoznawanie działań w filmach, geolokalizacja i precyzyjna klasyfikacja obiektów.

Konkurencyjna wydajność

Model wykazuje konkurencyjną wydajność przy w pełni nadzorowanych liniach bazowych dla różnych zadań, często dorównującą lub przewyższającą dokładność modeli wytrenowanych na zbiorach danych specyficznych dla zadań bez dodatkowego szkolenia dotyczącego konkretnego zbioru danych.

Badanie skalowalności

Autorzy badają skalowalność swojego podejścia, ucząc serię ośmiu modeli o różnych poziomach zasobów obliczeniowych. Stwierdzono, że wydajność transferu jest łatwo przewidywalną funkcją obliczeniową.

Solidność modelu

W artykule podkreślono, że modele CLIP zerowego strzału są solidniejsze niż modele ImageNet z nadzorowaną równoważną dokładnością, co sugeruje, że ocena zerowego modelu niezależnego od zadania zapewnia bardziej reprezentatywną miarę możliwości modelu.

Artykuł 15: LORA: ADAPTACJA NISKIEJ RANGI DUŻYCH MODELI JĘZYKOWYCH

Połączyć: Czytaj tutaj

Podsumowanie papieru

W artykule zaproponowano LoRA jako skuteczną metodę adaptacji dużych, wstępnie wyszkolonych modeli językowych do konkretnych zadań, mierząc się z wyzwaniami wdrożeniowymi związanymi z ich rosnącym rozmiarem. Metoda ta znacznie zmniejsza możliwe do wyszkolenia parametry i wymagania dotyczące pamięci GPU, utrzymując lub poprawiając jakość modelu w różnych testach porównawczych. Implementacja open source dodatkowo ułatwia przyjęcie LoRA w praktycznych zastosowaniach.

Kluczowe spostrzeżenia z dokumentów AI dla programistów GenAI

1. Problem Statement

Szkolenie wstępne na dużą skalę, a następnie dostrajanie jest powszechnym podejściem w przetwarzaniu języka naturalnego.
Dostrajanie staje się mniej wykonalne w miarę powiększania się modeli, szczególnie przy wdrażaniu modeli o ogromnych parametrach, takich jak GPT-3 (175 miliardów parametrów).

2. Proponowane rozwiązanie: Adaptacja niskiej rangi (LoRA)

W artykule przedstawiono LoRA, metodę zamrażającą wstępnie wytrenowane wagi modeli i wprowadzającą możliwe do wytrenowania macierze dekompozycji rang do każdej warstwy architektury Transformera.
LoRA znacznie zmniejsza liczbę możliwych do wyszkolenia parametrów dla dalszych zadań w porównaniu z pełnym dostrajaniem.

3. Korzyści z LoRA

Redukcja parametrów: w porównaniu z dostrajaniem LoRA może zmniejszyć liczbę możliwych do wytrenowania parametrów nawet 10,000 XNUMX razy, co zwiększa wydajność obliczeniową.
Wydajność pamięci: LoRA zmniejsza wymagania dotyczące pamięci GPU nawet 3 razy w porównaniu z funkcją dostrajania.
Jakość modelu: Pomimo mniejszej liczby parametrów, które można wytrenować, LoRA działa na równi lub lepiej niż dostrajanie pod względem jakości modelu w różnych modelach, w tym RoBERTa, DeBERTa, GPT-2 i GPT-3.

4. Pokonywanie wyzwań związanych z wdrażaniem

W artykule podjęto wyzwanie wdrożenia modeli o wielu parametrach poprzez wprowadzenie LoRA, umożliwiającej efektywne przełączanie zadań bez konieczności ponownego uczenia całego modelu.

5. Wydajność i niskie opóźnienia wnioskowania

LoRA ułatwia udostępnianie wstępnie wyszkolonego modelu do budowania wielu modułów LoRA do różnych zadań, redukując wymagania dotyczące pamięci masowej i narzut związany z przełączaniem zadań.
Szkolenie staje się bardziej wydajne, obniżając barierę wejścia na rynek nawet 3-krotnie w przypadku korzystania z optymalizatorów adaptacyjnych.

6. Kompatybilność i integracja

LoRA jest kompatybilna z różnymi wcześniejszymi metodami i można ją z nimi łączyć, np. dostrajając prefiksy.
Proponowany projekt liniowy umożliwia łączenie trenowanych macierzy z zamrożonymi ciężarami podczas wdrażania, nie wprowadzając żadnych dodatkowych opóźnień w wnioskowaniu w porównaniu z w pełni dostrojonymi modelami.

7. Badanie empiryczne

Artykuł zawiera badanie empiryczne dotyczące niedoborów rang w adaptacji modelu językowego, dostarczające wglądu w skuteczność podejścia LoRA.

8. Implementacja open source

Autorzy udostępniają pakiet ułatwiający integrację LoRA z modelami PyTorch oraz implementacje wydań i punkty kontrolne modeli dla RoBERTa, DeBERTa i GPT-2.

Możesz także przeczytać: Efektywne parametryczne dostrajanie modeli wielkojęzycznych za pomocą LoRA i QLoRA

Wnioski

Podsumowując, zapoznanie się z 15 najważniejszymi dokumentami AI dla programistów GenAI przedstawionymi w tym artykule to nie tylko rekomendacja, ale strategiczny imperatyw dla każdego początkującego programisty. Te artykuły dotyczące sztucznej inteligencji oferują wszechstronną podróż przez zróżnicowany krajobraz sztucznej inteligencji, obejmujący krytyczne domeny, takie jak przetwarzanie języka naturalnego, widzenie komputerowe i nie tylko. Zagłębiając się w spostrzeżenia i innowacje przedstawione w tych dokumentach, programiści zyskują głęboką wiedzę na temat najnowocześniejszych technik i algorytmów w tej dziedzinie.