Lepszy sposób oceny LLM - KDnuggets

Opublikowane ponownie przez Plato

Obserwuje: 0

Niedawne postępy w rozwoju LLM spopularyzowały ich wykorzystanie do różnorodnych zadań NLP, które wcześniej były rozwiązywane przy użyciu starszych metod uczenia maszynowego. Duże modele językowe są w stanie rozwiązywać różnorodne problemy językowe, takie jak klasyfikacja, podsumowywanie, wyszukiwanie informacji, tworzenie treści, odpowiadanie na pytania i utrzymywanie konwersacji – a wszystko to przy użyciu tylko jednego modelu. Ale skąd wiemy, że dobrze sobie radzą z tymi wszystkimi różnymi zadaniami?

Rozwój LLM ujawnił nierozwiązany problem: nie mamy wiarygodnych standardów ich oceny. To, co utrudnia ocenę, to fakt, że wykorzystuje się je do bardzo różnorodnych zadań i brakuje nam jasnej definicji dobrej odpowiedzi w każdym przypadku użycia.

W tym artykule omówiono obecne podejścia do oceny LLM i przedstawiono nową tabelę liderów LLM wykorzystującą ocenę ludzką, która stanowi ulepszenie istniejących technik oceny.

Pierwszą i typową początkową formą oceny jest uruchomienie modelu na kilku wybranych zbiorach danych i sprawdzenie jego wydajności. HuggingFace utworzył Otwórz tabelę liderów LLM gdzie duże modele o otwartym dostępie są oceniane przy użyciu czterech dobrze znanych zbiorów danych (Wyzwanie rozumowania AI2 , HellaSwag , MMLU , Prawdziwa kontrola jakości). Odpowiada to automatycznej ocenie i sprawdza zdolność modelu do uzyskania faktów w przypadku niektórych konkretnych pytań.

To jest przykładowe pytanie z MMLU zestaw danych.

Temat: college_medicine

Pytanie: Oczekiwanym skutkiem ubocznym suplementacji kreatyną jest.

A) osłabienie mięśni
B) przyrost masy ciała
C) skurcze mięśni
D) utrata elektrolitów

Odpowiedź: (B)

Ocena modelu na podstawie odpowiedzi na tego typu pytania jest ważnym miernikiem i dobrze służy do sprawdzania faktów, ale nie sprawdza zdolności generatywnych modelu. Jest to prawdopodobnie największa wada tej metody oceny, ponieważ generowanie dowolnego tekstu jest jedną z najważniejszych cech LLM.

Wydaje się, że w społeczności panuje zgoda co do tego, że aby właściwie ocenić model, potrzebna jest ocena człowieka. Zwykle dokonuje się tego poprzez porównanie odpowiedzi z różnych modeli.

Lepszy sposób oceny LLM
Porównanie dwóch szybkich realizacji w projekcie LMSYS – zrzut ekranu autorstwa Autora

Adnotatorzy decydują, która odpowiedź jest lepsza, jak pokazano w powyższym przykładzie, i czasami określają ilościowo różnicę w jakości szybkich uzupełnień. Organizacja LMSYS Org utworzyła liderów która wykorzystuje tego rodzaju ocenę ludzką i porównuje 17 różnych modeli, zgłaszając Ocena Elo dla każdego modelu.

Ponieważ ocena człowieka może być trudna do skalowania, podjęto wysiłki mające na celu zwiększenie skali i przyspieszenie procesu oceny, co zaowocowało interesującym projektem pod nazwą AlpakaEval. Tutaj każdy model jest porównywany z wartością bazową (text-davinci-003 dostarczony przez GPT-4), a ocena człowieka zostaje zastąpiona oceną GPT-4. To rzeczywiście jest szybkie i skalowalne, ale czy możemy zaufać modelowi, który przeprowadzi punktację? Musimy być świadomi błędów w modelu. Projekt faktycznie wykazał, że GPT-4 może sprzyjać dłuższym odpowiedziom.

Metody oceny LLM stale ewoluują, ponieważ społeczność AI poszukuje łatwych, uczciwych i skalowalnych podejść. Najnowsze osiągnięcie pochodzi od zespołu Toloka z nowością liderów w celu dalszego doskonalenia obecnych standardów oceny.

Nowa liderów porównuje odpowiedzi modelu z podpowiedziami użytkowników w świecie rzeczywistym, które są podzielone na kategorie według przydatnych zadań NLP, jak opisano w ten dokument InstructGPT. Pokazuje także ogólny współczynnik zwycięstw każdego modelu we wszystkich kategoriach.

Lepszy sposób oceny LLM
Tablica liderów Toloki – zrzut ekranu autorstwa Autora

Ocena zastosowana w tym projekcie jest podobna do tej przeprowadzonej w AlpacaEval. Wyniki w tabeli liderów reprezentują współczynnik wygranych danego modelu w porównaniu do Guanako 13B model, który służy tutaj jako porównanie bazowe. Wybór Guanaco 13B stanowi ulepszenie metody AlpacaEval, która jako punkt odniesienia wykorzystuje wkrótce przestarzały model Text-davinci-003.

Rzeczywistej oceny dokonują eksperci-komentatorzy na podstawie zestawu podpowiedzi ze świata rzeczywistego. Dla każdego podpowiedzi adnotatorzy otrzymują dwa uzupełnienia i pytają, które z nich wolą. Możesz znaleźć szczegółowe informacje na temat metodologii tutaj.

Ten rodzaj oceny przez człowieka jest bardziej użyteczny niż jakakolwiek inna metoda automatycznej oceny i powinien ulepszyć ocenę przez człowieka stosowaną w tym celu Tabela liderów LMSYS. Wadą metody LMSYS jest to, że każdy, kto ma link mogą wziąć udział w ewaluacji, stawiając poważne pytania dotyczące jakości zebranych w ten sposób danych. Zamknięty tłum ekspertów-komentatorów ma większy potencjał w zakresie wiarygodnych wyników, a Toloka stosuje dodatkowe techniki kontroli jakości, aby zapewnić jakość danych.

W tym artykule przedstawiliśmy nowe, obiecujące rozwiązanie do oceny LLM — Tablicę Liderów Toloka. Podejście jest innowacyjne, łączy w sobie zalety istniejących metod, dodaje szczegółowości specyficznej dla zadania i wykorzystuje niezawodne techniki adnotacji ludzkich do porównywania modeli.

Przeglądaj tablicę i dziel się z nami swoimi opiniami i sugestiami dotyczącymi ulepszeń.

Magdaleny Konkiewicz jest Data Evangelist w Toloka, globalnej firmie wspierającej szybki i skalowalny rozwój AI. Uzyskała tytuł magistra w dziedzinie sztucznej inteligencji na Uniwersytecie w Edynburgu i pracowała jako inżynier, programista i analityk NLP dla firm w Europie i Ameryce. Była również zaangażowana w nauczanie i mentoring dla analityków danych i regularnie publikuje publikacje dotyczące Data Science i Machine Learning.