Yüksek Lisans Derecelerini Değerlendirmenin Daha İyi Bir Yolu - KDnuggets

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

LLM'lerin geliştirilmesindeki son gelişmeler, daha önce eski makine öğrenimi yöntemleri kullanılarak ele alınan çeşitli NLP görevlerinde bunların kullanımını yaygınlaştırdı. Büyük dil modelleri, sınıflandırma, özetleme, bilgi alma, içerik oluşturma, soru yanıtlama ve konuşmayı sürdürme gibi çeşitli dil sorunlarını tek bir model kullanarak çözebilir. Peki tüm bu farklı görevlerde iyi bir iş çıkardıklarını nasıl bileceğiz?

Yüksek Lisans'ın yükselişi çözülmemiş bir sorunu gün ışığına çıkardı: Onları değerlendirmek için güvenilir bir standardımız yok. Değerlendirmeyi zorlaştıran şey, bunların çok çeşitli görevler için kullanılması ve her kullanım durumu için iyi bir cevabın ne olduğuna dair net bir tanımdan yoksun olmamızdır.

Bu makale, Yüksek Lisans'ların değerlendirilmesine yönelik güncel yaklaşımları tartışmakta ve mevcut değerlendirme tekniklerini geliştiren, insan değerlendirmesinden yararlanan yeni bir Yüksek Lisans liderlik tablosunu tanıtmaktadır.

İlk ve olağan ilk değerlendirme şekli, modeli çeşitli seçilmiş veri kümeleri üzerinde çalıştırmak ve performansını incelemektir. HuggingFace şunu oluşturdu: LLM Skor Tablosunu Aç açık erişimli büyük modellerin dört iyi bilinen veri kümesi kullanılarak değerlendirildiği yer (AI2 Muhakeme Mücadelesi , HellaSwag , MMLU , DoğruQA). Bu, otomatik değerlendirmeye karşılık gelir ve modelin bazı spesifik sorular için gerçekleri elde etme yeteneğini kontrol eder.

Bu, şu sorudan bir örnek: MMLU Veri kümesi.

Konu: kolej_tıp

Soru: Kreatin takviyesinin beklenen bir yan etkisi:

A)kas zayıflığı
B) vücut kitlesinde artış
C) kas krampları
D) elektrolit kaybı

Cevap: (B)

Bu tür soruları yanıtlayarak modelin puanlanması önemli bir ölçümdür ve doğruluk kontrolü için iyi bir hizmettir ancak modelin üretken yeteneğini test etmez. Bu muhtemelen bu değerlendirme yönteminin en büyük dezavantajıdır çünkü serbest metin oluşturmak Yüksek Lisans'ın en önemli özelliklerinden biridir.

Toplumda, modeli doğru bir şekilde değerlendirmek için insan değerlendirmesine ihtiyacımız olduğu konusunda bir fikir birliği var gibi görünüyor. Bu genellikle farklı modellerden gelen yanıtları karşılaştırarak yapılır.

Yüksek Lisans Derecelerini Değerlendirmenin Daha İyi Bir Yolu
LMSYS projesinde iki istem tamamlamanın karşılaştırılması – Yazarın ekran görüntüsü

Ek açıklamalar, yukarıdaki örnekte görüldüğü gibi hangi yanıtın daha iyi olduğuna karar verir ve bazen hızlı tamamlamaların kalitesindeki farkı ölçer. LMSYS Organizasyonu bir Liderler Sıralaması Bu tür insan değerlendirmesini kullanan ve 17 farklı modeli karşılaştıran, Elo derecesi her model için.

İnsan değerlendirmesinin ölçeklendirilmesi zor olabileceğinden, değerlendirme sürecini ölçeklendirmek ve hızlandırmak için çabalar olmuştur ve bu, adı verilen ilginç bir projeyle sonuçlanmıştır. AlpakaEval. Burada her model bir temel değerle (GPT-003 tarafından sağlanan text-davinci-4) karşılaştırılır ve insan değerlendirmesinin yerini GPT-4 kararı alır. Bu gerçekten hızlı ve ölçeklenebilir ancak puanlamayı gerçekleştirmesi için buradaki modele güvenebilir miyiz? Model önyargılarının farkında olmamız gerekiyor. Proje aslında GPT-4'ün daha uzun yanıtları tercih edebileceğini gösterdi.

Yapay zeka topluluğu kolay, adil ve ölçeklenebilir yaklaşımlar ararken LLM değerlendirme yöntemleri de gelişmeye devam ediyor. En son gelişme Toloka ekibinden yeni bir özellik ile geliyor Liderler Sıralaması Mevcut değerlendirme standartlarını daha da geliştirmek.

Yeni Liderler Sıralaması model yanıtlarını, aşağıda belirtildiği gibi yararlı NLP görevlerine göre kategorize edilen gerçek dünyadaki kullanıcı istemleriyle karşılaştırır. bu InstructGPT makalesi. Ayrıca her modelin tüm kategorilerdeki genel kazanma oranını da gösterir.

Yüksek Lisans Derecelerini Değerlendirmenin Daha İyi Bir Yolu
Toloka liderlik tablosu – Yazarın ekran görüntüsü

Bu proje için kullanılan değerlendirme AlpacaEval'de yapılan değerlendirmeye benzer. Liderlik tablosundaki puanlar, ilgili modelin kazanma oranını temsil eder. Guanako 13B Burada temel bir karşılaştırma görevi gören model. Guanaco 13B'nin seçimi, yakında güncelliğini yitirecek olan text-davinci-003 modelini temel olarak kullanan AlpacaEval yönteminde yapılan bir gelişmedir.

Gerçek değerlendirme, bir dizi gerçek dünya istemi üzerine uzman yorumcular tarafından yapılır. Her bilgi istemi için ek açıklamalara iki tamamlama verilir ve hangisini tercih ettikleri sorulur. Metodoloji ile ilgili detayları bulabilirsiniz. okuyun.

Bu tür insan değerlendirmesi, diğer otomatik değerlendirme yöntemlerinden daha faydalıdır ve araştırma için kullanılan insan değerlendirmesini geliştirmelidir. LMSYS liderlik tablosu. LMSYS yönteminin dezavantajı, Link değerlendirmede yer alabilir ve bu şekilde toplanan verilerin kalitesi hakkında ciddi sorular ortaya çıkabilir. Uzman açıklayıcılardan oluşan kapalı bir kalabalık, güvenilir sonuçlar için daha iyi bir potansiyele sahiptir ve Toloka, veri kalitesini sağlamak için ek kalite kontrol teknikleri uygular.

Bu makalede, LLM'leri değerlendirmek için umut verici yeni bir çözüm olan Toloka Liderlik Tablosunu tanıttık. Yaklaşım yenilikçidir, mevcut yöntemlerin güçlü yönlerini birleştirir, göreve özgü ayrıntı düzeyi ekler ve modelleri karşılaştırmak için güvenilir insan açıklama teknikleri kullanır.

Panoyu inceleyin ve iyileştirmelere yönelik görüş ve önerilerinizi bizimle paylaşın.

Magdalena Konkiewicz Hızlı ve ölçeklenebilir yapay zeka gelişimini destekleyen küresel bir şirket olan Toloka'da Veri Evangelistidir. Edinburgh Üniversitesi'nden Yapay Zeka alanında yüksek lisans derecesine sahiptir ve Avrupa ve Amerika'daki işletmelerde NLP Mühendisi, Geliştirici ve Veri Bilimcisi olarak çalışmıştır. Aynı zamanda Veri Bilimcilerine eğitim verme ve mentorluk yapma konularında da görev almaktadır ve Veri Bilimi ve Makine Öğrenimi yayınlarına düzenli olarak katkıda bulunmaktadır.