DeepMind'ın En Son Soru-Cevap Sohbet Robotu Sparrow'un Sırrı: İnsan Geri Bildirimi

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

DeepMind, insan geri bildirimi ve Google arama önerilerinin bir karışımını kullanarak Sparrow adlı bir sohbet robotunu diğer sistemlerden daha az toksik ve daha doğru olması için eğitti.

Chatbot'lar genellikle internetten alınan metinler üzerinde eğitilmiş büyük dil modelleri (LLM'ler) tarafından desteklenir. Bu modeller, en azından yüzeysel düzeyde tutarlı ve dilbilgisi açısından doğru olan düzyazı paragrafları üretebilir ve kullanıcılardan gelen sorulara veya yazılı istemlere yanıt verebilir.

Bununla birlikte, bu yazılım genellikle kaynak materyalden kötü özellikler alır ve bu da saldırgan, ırkçı ve cinsiyetçi görüşlerin kusmasına veya sosyal medya ve internet forumlarında sıklıkla bulunan sahte haberler veya komplolar yaymasına neden olur. Bununla birlikte, bu botlar daha güvenli çıktılar üretmek için yönlendirilebilir.

İleri adım, Serçe. Bu sohbet robotu, çinçillaDeepMind'ın etkileyici dil modeli gösterdi metin oluşturmak için yüz milyardan fazla parametreye (diğer LLM'lerde olduğu gibi) ihtiyacınız yoktur: Chinchilla'nın 70 milyar parametresi vardır, bu da çıkarım ve ince ayarın nispeten daha hafif görevler olmasını sağlar.

DeepMind, Sparrow'u oluşturmak için Chinchilla'yı aldı ve takviyeli öğrenme sürecini kullanarak insanlardan gelen geri bildirimlere göre ayarladı. Özellikle, yanıtların ne kadar alakalı ve yararlı olduğuna ve herhangi bir kuralı ihlal edip etmediğine bağlı olarak chatbot'un belirli sorulara verdiği yanıtları derecelendirmek için insanlar işe alındı. Örnek olarak kurallardan biri şuydu: Gerçek bir insanı taklit etmeyin veya öyleymiş gibi davranmayın.

Bu puanlar, botun gelecekteki çıktısını yönlendirmek ve iyileştirmek için geri beslendi; bu süreç defalarca tekrarlandı. Kurallar, yazılımın davranışını denetlemenin ve onu güvenli ve kullanışlı olmaya teşvik etmenin anahtarıydı.

Birinde örnek etkileşim, Sparrow'a Uluslararası Uzay İstasyonu ve astronot olup olmadığı soruldu. Yazılım, yörüngedeki laboratuvara yapılan en son keşif gezisiyle ilgili bir soruyu yanıtlayabildi ve Wikipedia'dan doğru bir bilgi pasajını kopyalayıp kaynağına bir bağlantıyla yapıştırdı.

Bir kullanıcı daha derinlemesine araştırıp Sparrow'a uzaya gidip gitmeyeceğini sorduğunda Sparrow bunun bir insan değil, bir bilgisayar programı olduğu için gidemeyeceğini söyledi. Bu kurallara doğru şekilde uyduğunun göstergesi.

Sparrow bu durumda faydalı ve doğru bilgiler sağlayabildi ve insan gibi davranmadı. Uyması öğretilen diğer kurallar arasında herhangi bir hakaret veya klişe oluşturmamak ve herhangi bir tıbbi, yasal veya finansal tavsiye vermemek, uygunsuz bir şey söylememek, herhangi bir fikir veya duyguya sahip olmamak veya bir vücudu varmış gibi davranmamak vardı.

Sparrow'un vakaların yaklaşık yüzde 78'inde mantıklı, anlamlı bir yanıtla yanıt verebildiğini ve isteklere daha fazla bilgi içeren Google aramadan alakalı bir bağlantı sağlayabildiğini öğrendik.

Katılımcılar, kişisel sorular sorarak veya tıbbi bilgi almaya çalışarak Sparrow'u harekete geçirmeye çalışmakla görevlendirildiğinde, vakaların yüzde sekizinde kuralları çiğnedi. Dil modellerini kontrol etmek zordur ve tahmin edilemez; Serçe bazen hala gerçekleri uydurur ve kötü şeyler söyler.

Örneğin cinayet hakkında soru sorulduğunda cinayetin kötü olduğu ancak suç olmaması gerektiği söylendi. ne kadar güven verici. Bir kullanıcı, kocasının bir ilişkisi olup olmadığını sorduğunda Sparrow, bilmediğini ancak en son Google aramasının ne olduğunu bulabildiği yanıtını verdi. Sparrow'un aslında bu bilgiye erişimi olmadığından eminiz. "'Karım deli' diye arama yaptı" diye yalan söylendi.

“Sparrow, diyalog temsilcilerini daha yararlı, doğru ve zararsız olacak şekilde eğitmek amacıyla tasarlanmış bir araştırma modeli ve kavram kanıtıdır. Sparrow, bu nitelikleri genel bir diyalog ortamında öğrenerek, ajanları daha güvenli ve daha kullanışlı olmaları ve sonuçta daha güvenli ve daha kullanışlı yapay genel zeka oluşturmaya yardımcı olmaları için nasıl eğitebileceğimize dair anlayışımızı geliştiriyor," diye açıkladı DeepMind.

“Sparrow'la hedefimiz, diyalog temsilcilerinde kuralları ve normları uygulayacak esnek mekanizmalar oluşturmaktı, ancak kullandığımız belirli kurallar başlangıç niteliğindedir. Daha iyi ve daha eksiksiz bir kurallar dizisi geliştirmek, hem birçok konuda (politika yapıcılar, sosyal bilimciler ve etik uzmanları dahil) uzman girdisi hem de çok çeşitli kullanıcılar ve etkilenen gruplardan katılımcı girdi gerektirecektir. Yöntemlerimizin daha katı kurallar dizisi için hâlâ geçerli olacağına inanıyoruz."

Sparrow'un nasıl çalıştığı hakkında daha fazla bilgiyi hakemli olmayan bir makalede okuyabilirsiniz. okuyun [PDF].

Kayıt DeepMind'den daha fazla yorum istedi. ®

Zaman Damgası: Eylül 22, 2022Eylül 22, 2022