İş Liderleri İçin Adım Adım Yüksek Lisans Ürün Geliştirme

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

LLMOps teknoloji yığını

Midjourney ile oluşturuldu

Dünyanın her köşesindeki ve sektördeki kuruluşlar, pazar araştırması, müşteri hizmetleri gibi çok çeşitli iş uygulamalarında performansı artırmak için OpenAI'den ChatGPT, Anthropic'ten Claude ve AI12Lab'dan Jurassic gibi büyük dil modellerinin (LLM'ler) gücünü entegre etmek için acele ediyor. ve içerik oluşturma.

Ancak kurumsal ölçekte bir LLM uygulaması oluşturmak, geleneksel makine öğrenimi (ML) uygulamaları oluşturmaktan farklı bir araç seti ve anlayış gerektirir. Marka sesini ve güvenilir hizmet kalitesini korumak isteyen iş dünyası liderleri ve yöneticilerinin, LLM'lerin nasıl çalıştığı ve bir LLM uygulama yığınındaki çeşitli araçların artıları ve eksileri hakkında daha derin bir anlayış geliştirmeleri gerekir.

Bu makalede, işletmeniz için bir LLM uygulaması oluşturmak ve çalıştırmak için ihtiyaç duyacağınız üst düzey strateji ve araçlara temel bir giriş yapacağız.

Geleneksel Makine Öğrenimi Geliştirme ve LLM Uygulamaları

Geleneksel makine öğrenimi modelleri göreve özeldi, yani her farklı görev için ayrı bir model oluşturmanız gerekiyordu. Örneğin, müşteri duyarlılığını analiz etmek istiyorsanız bir model oluşturmanız gerekir ve bir müşteri destek sohbet robotu oluşturmak istiyorsanız başka bir model oluşturmanız gerekir.

Göreve özgü makine öğrenimi modellerini oluşturma ve eğitme süreci zaman alıcıdır ve çok fazla veri gerektirir. Bu farklı makine öğrenimi modellerini eğitmek için gereken veri kümelerinin türü de göreve bağlı olarak değişir. Müşteri duyarlılığını analiz edecek bir model eğitmek için, karşılık gelen bir duyarlılıkla (olumlu, olumsuz, nötr) etiketlenmiş bir müşteri incelemeleri veri kümesine ihtiyacınız olacaktır. Bir müşteri destek sohbet botu oluşturmak üzere bir model eğitmek için, müşterilerle teknik destek arasındaki konuşmalardan oluşan bir veri kümesine ihtiyacınız olacaktır.

Büyük dil modelleri bunu değiştirdi. LLM'ler, aşağıdakiler de dahil olmak üzere çok çeşitli görevlerde iyi performans göstermelerine olanak tanıyan çok büyük bir metin ve kod veri kümesi üzerinde önceden eğitilmiştir:

Metin özetleme
İçerik yaratımı
Çeviri
Bilgi çıkarma
Soru cevaplama
Duygu analizi
Müşteri desteği
Satış desteği

Geleneksel Makine Öğrenimi ve Yüksek Lisans

LLM uygulamaları geliştirme süreci dört temel adıma ayrılabilir:

Uygun bir temel modeli seçin. LLM uygulamanızın performansını tanımlayan önemli bir bileşendir.
Gerekirse modeli özelleştirin. Özel ihtiyaçlarınızı karşılamak için modelde ince ayar yapmanız veya ek bilgi tabanıyla geliştirmeniz gerekebilir.
Makine öğrenimi altyapısını kurun. Bu, uygulamanızı çalıştırmak için gereken donanım ve yazılımı (yani yarı iletkenler, yongalar, bulut barındırma, çıkarım ve dağıtım) içerir.
Uygulamanızı ek araçlarla zenginleştirin. Bu araçlar, uygulamanızın verimliliğini, performansını ve güvenliğini artırmanıza yardımcı olabilir.

Şimdi ilgili teknoloji yığınına bir göz atalım.

Bu kapsamlı eğitim içeriği sizin için yararlıysa, AI posta listemize abone olun yeni materyal çıkardığımızda uyarılmak.

Üst Düzey LLM Başvuru Yığını

LLM uygulamaları, aşağıdakiler de dahil olmak üzere birkaç temel bileşen üzerine inşa edilmiştir:

Bir temel modeli, belirli kullanım durumlarında özelleştirme gerektirebilir.
ML altyapısı bulut platformları veya şirketin kendi donanımı aracılığıyla yeterli bilgi işlem kaynakları için.
Ek araçlarveri ardışık düzenleri, vektör veritabanları, düzenleme araçları, ince ayarlı makine öğrenimi platformları, model performansı izleme araçları vb.

Bir LLM uygulaması oluşturmak ve dağıtmak için gereken araç setini daha iyi anlayabilmeniz için bu bileşenleri kısaca anlatacağız.

Vakıf Modelleri Nedir?

Önceden eğitilmiş tek bir LLM kullanmak size çok fazla zaman ve kaynak kazandırabilir. Bununla birlikte, böyle bir modeli sıfırdan eğitmek, zamanında ve maliyetli bir süreçtir ve bu, seçkin birkaç teknoloji lideri dışında çoğu şirketin yeteneklerinin ötesindedir.

Birkaç şirket ve araştırma ekibi bu modelleri eğitti ve diğer şirketlerin bunları kullanmasına izin verdi. Önde gelen örnekler arasında ChatGPT, Claude, Llama, Jurassic ve T5 yer alır. Bu halka bakan modellere temel modeller denir. Bazıları tescillidir ve bir ücret karşılığında API çağrıları yoluyla erişilebilir. Diğerleri açık kaynaklıdır ve ücretsiz olarak kullanılabilir. Bu modeller, etiketlenmemiş metinsel verilerden oluşan devasa bir veri kümesi üzerinde önceden eğitilmiştir ve yaratıcı reklam kopyaları oluşturmaktan müşterilerinizle şirket adına ana dillerinde iletişim kurmaya kadar çok çeşitli görevleri gerçekleştirmelerine olanak tanır.

İki temel temel modeli türü vardır: tescilli ve açık kaynak.

Tescilli modeller tek bir şirkete veya kuruluşa aittir ve genellikle yalnızca bir ücret karşılığında kullanılabilir. Tescilli modellerin en popüler örneklerinden bazıları OpenAI'nin GPT modellerini, Anthropic'in Claude modellerini ve AI21 Labs'ın Jurassic modellerini içerir.

Açık kaynaklı modeller genellikle kullanmak isteyen herkes için ücretsizdir. Bununla birlikte, bazı açık kaynak modellerinin kullanımlarında, (1) yalnızca araştırma amacıyla kullanılabilir olma, (2) yalnızca belirli büyüklükteki şirketler tarafından ticari kullanıma sunulma gibi sınırlamalar vardır. Açık kaynak topluluğu, bu tür kısıtlamalar koymanın bir modelin "açık kaynak" olarak nitelendirilmesine izin vermediğini iddia ediyor. Yine de ücretsiz olarak kullanılabilen dil modellerinin en belirgin örnekleri arasında Meta'nın Llama modelleri, Abu Dhabi'deki Teknoloji İnovasyon Enstitüsü'nün Falcon modelleri ve Stability AI'nin StableLM modelleri yer alıyor. Açık kaynak modelleri ve ilişkili riskler hakkında daha fazlasını okuyun okuyun.

Şimdi, LLM başvurunuz için bir temel model seçerken göz önünde bulundurmanız gereken birkaç faktörü tartışalım.

Bir Temel Modeli Seçin

LLM başvurunuz için en iyi temel modeli seçmek zorlu bir süreç olabilir, ancak bunu temel olarak üç adıma ayırabiliriz:

Tescilli ve açık kaynaklı modeller arasında seçim yapın. Tescilli modeller, genellikle açık kaynaklı modellerden daha büyük ve daha yeteneklidir, ancak kullanımları daha pahalı ve daha az esnek olabilir. Ek olarak, kod o kadar şeffaf değildir, bu da tescilli modellerin performansıyla ilgili sorunları gidermeyi veya hata ayıklamayı zorlaştırır. Açık kaynaklı modeller ise genellikle daha az güncelleme alır ve geliştiricilerden daha az destek alır.
Modelin boyutunu seçin. Daha büyük modeller, soruları yanıtlamak veya yaratıcı metin oluşturmak gibi çok fazla bilgi gerektiren görevleri gerçekleştirmede genellikle daha iyidir. Bununla birlikte, daha büyük modellerin kullanımı hesaplama açısından daha pahalıdır. Daha büyük modelleri deneyerek başlayabilir ve ardından, bir modelin performansı kullanım durumunuz için tatmin edici olduğu sürece daha küçük olanlara geçebilirsiniz.
Belirli bir model seçin. Test edilecek modelleri kısa listeye almak için genel kıyaslamaları gözden geçirerek başlayabilirsiniz. Ardından, uygulamaya özel atamalarınız için farklı modelleri test etmeye devam edin. Özel kıyaslama için hesaplamayı düşünün BLEU ve ROUGE puanları, insan-in-the-loop uygulamaları için çıktıyı yayınlamadan önce yapay zeka tarafından oluşturulan metin için gerekli olan düzeltme sayısını ölçmeye yardımcı olan ölçümler.

Çeşitli dil modelleri arasındaki farkları daha iyi anlamak için şuraya bakın: en güçlü dil (LLM) ve görsel dil modellerine (VLM) genel bakışımız.

Uygulamanız için bir temel model seçtikten sonra, daha da iyi performans için modeli özelleştirmeniz gerekip gerekmediğini düşünebilirsiniz.

Bir Temel Modeli Özelleştirme

Bazı durumlarda, kendi özel kullanım durumunuzda daha iyi performans için bir temel dil modelini özelleştirmek isteyebilirsiniz. Örneğin, belirli bir şey için optimize etmek isteyebilirsiniz:

domain. Hukuk, finans veya sağlık gibi belirli alanlarda faaliyet gösteriyorsanız, son kullanıcı sorgularını daha iyi anlayıp yanıtlayabilmesi için modelin bu alandaki sözlüğünü zenginleştirmek isteyebilirsiniz.
Görev. Örneğin, modelin pazarlama kampanyaları oluşturmasını istiyorsanız, ona markalı pazarlama içeriğinin belirli örneklerini sağlayabilirsiniz. Bu, modelin şirketiniz ve hedef kitleniz için uygun kalıpları ve stilleri öğrenmesine yardımcı olacaktır.
Ses tonu. Modelin belirli bir ses tonu kullanmasına ihtiyacınız varsa, modeli hedef dilsel örneklerinizin örneklerini içeren bir veri kümesinde özelleştirebilirsiniz.

Bir temel dil modelini özelleştirmenin üç olası yolu vardır:

İnce ayar: modele, yaklaşık 100-500 kayıttan oluşan etki alanına özgü etiketli bir veri kümesi sağlar. Model ağırlıkları güncellendi ve bu, bu veri kümesi tarafından temsil edilen görevlerde daha iyi performansla sonuçlanmalıdır.
Etki alanı uyarlaması: modele, ilgili etki alanından büyük bir veri topluluğu içeren, etki alanına özgü etiketlenmemiş bir veri kümesi sağlar. Bu durumda model ağırlıkları da güncellenir.
Bilgi alma: temel modeli kapalı alan bilgisi ile zenginleştirir. Model yeniden eğitilmez ve model ağırlıkları aynı kalır. Ancak, modelin ilgili verileri içeren bir vektör veri tabanından bilgi almasına izin verilir.

İlk iki yaklaşım, modeli yeniden eğitmek için önemli bilgi işlem kaynakları gerektirir ve bu genellikle yalnızca özelleştirmeyi yönetmek için uygun teknik yeteneğe sahip büyük şirketler için uygundur. Daha küçük şirketler tipik olarak, bu makalenin ilerleyen kısımlarında LLM araçları bölümünde detaylandıracağımız bir vektör veritabanı aracılığıyla modeli etki alanı bilgisiyle zenginleştirmeye yönelik daha yaygın yaklaşımı kullanır.

ML Altyapısını kurun

LLMOps ortamının makine öğrenimi altyapısı bileşeni, LLM'leri dağıtmak ve çalıştırmak için gereken bulut platformlarını, bilgi işlem donanımını ve diğer kaynakları içerir. Bu bileşen, özellikle açık kaynaklı bir model kullanmayı veya modeli uygulamanız için özelleştirmeyi seçerseniz önemlidir. Bu durumda, gerekirse modelde ince ayar yapmak ve modeli çalıştırmak için önemli bilgi işlem kaynaklarına ihtiyacınız olabilir.

Google Bulut Platformu, Amazon Web Hizmetleri ve Microsoft Azure dahil olmak üzere LLM'leri dağıtmak için hizmetler sunan bir dizi bulut platformu vardır. Bu platformlar, LLM'leri dağıtmayı ve çalıştırmayı kolaylaştıran bir dizi özellik sunar:

Özel uygulamanız için ince ayar yapılabilen önceden eğitilmiş modeller
Altta yatan donanım ve yazılımla ilgilenen yönetilen altyapı
LLM'lerinizi izlemek ve hata ayıklamak için araçlar ve hizmetler

İhtiyacınız olan bilgi işlem kaynaklarının miktarı, modelinizin boyutuna ve karmaşıklığına, gerçekleştirmesini istediğiniz görevlere ve bu modeli dağıtmak istediğiniz iş etkinliğinin ölçeğine bağlı olacaktır.

Araçlarla Artırma

LLM uygulamanızın performansını daha da artırmak için ek LLM bitişik araçları kullanılabilir.

Veri İşlem Hatları

Verilerinizi LLM ürününüzde kullanmanız gerekiyorsa, veri ön işleme ardışık düzeni, tıpkı geleneksel kurumsal yapay zeka yığınında olduğu gibi, yeni teknoloji yığınınızın önemli bir ayağı olacaktır. Bu araçlar, herhangi bir kaynaktan veri almak için bağlayıcılar, bir veri dönüştürme katmanı ve aşağı akış bağlayıcıları içerir. Databricks ve Snowflake gibi önde gelen veri hattı sağlayıcıları ve Unstructured gibi yeni oyuncular, geliştiricilerin büyük ve oldukça heterojen doğal dil verilerini (örneğin, binlerce PDF, PowerPoint sunumu, sohbet günlüğü, kazınmış HTML, vb.) tek bir erişim noktasına veya hatta LLM uygulamaları tarafından daha sonra kullanılabilecek tek bir belgeye.

Vektör Veritabanları

Büyük dil modelleri, bir seferde birkaç bin kelimeyi işlemekle sınırlıdır, dolayısıyla büyük belgeleri kendi başlarına etkili bir şekilde işleyemezler. Büyük belgelerin gücünden yararlanmak için işletmelerin vektör veritabanlarını kullanması gerekir.

Vektör veritabanları, veri hatları aracılığıyla aldıkları büyük belgeleri yönetilebilir vektörlere veya gömmelere dönüştüren depolama sistemleridir. LLM uygulamaları daha sonra doğru vektörleri belirlemek için bu veritabanlarını sorgulayabilir ve yalnızca gerekli bilgi külçelerini çıkarabilir.

Şu anda mevcut olan en önemli vektör veritabanlarından bazıları Pinecone, Chroma ve Weaviate'dir.

Düzenleme Araçları

Bir kullanıcı LLM uygulamanıza müşteri hizmetleri için bir soru gibi bir sorgu gönderdiğinde, uygulamanın bu sorguyu dil modeline göndermeden önce bir dizi bilgi istemi oluşturması gerekir. Dil modeline yapılan son istek, genellikle geliştirici tarafından sabit kodlanmış bir bilgi istemi şablonundan, birkaç adımlık örnekler olarak adlandırılan geçerli çıktı örneklerinden, harici API'lerden alınan gerekli bilgilerden ve vektör veritabanından alınan bir dizi ilgili belgeden oluşur. . LangChain veya LlamaIndex gibi şirketlerin düzenleme araçları, bilgi istemlerini yönetmek ve yürütmek için kullanıma hazır çerçeveler sağlayarak bu süreci kolaylaştırmaya yardımcı olabilir.

İnce ayar

Devasa veri kümeleri üzerinde eğitilen büyük dil modelleri dilbilgisi açısından doğru ve akıcı metinler üretebilir. Ancak, tıp veya hukuk gibi belirli alanlarda kesinlikten yoksun olabilirler. Bu modellerin alana özgü veri kümelerinde ince ayarı, bu alanların benzersiz özelliklerini içselleştirmelerine olanak tanıyarak ilgili metin oluşturma becerilerini geliştirir.

Bir LLM'de ince ayar yapmak, küçük şirketler için maliyetli bir süreç olabilir. Ancak, Weights & Biases ve OctoML gibi şirketlerin sunduğu çözümler, kolaylaştırılmış ve verimli ince ayar konusunda yardımcı olabilir. Bu çözümler, şirketlere kendi altyapılarına yatırım yapmak zorunda kalmadan LLM'lerde ince ayar yapmaları için bir platform sağlar.

diğer Araçlar

LLM uygulamaları oluşturmak ve çalıştırmak için yararlı olabilecek başka birçok araç vardır. Örneğin, belirli veri örneklerinizle modelde ince ayar yapmak istiyorsanız etiketleme araçlarına ihtiyacınız olabilir. Temel modeldeki küçük değişiklikler veya müşterilerden gelen istekler bile bilgi istemlerinin performansını önemli ölçüde etkileyebileceğinden, uygulamanızın performansını izlemek için belirli araçlar da dağıtmak isteyebilirsiniz. Son olarak, nefret dolu içeriğin, tehlikeli önerilerin veya önyargıların tanıtımını yapmaktan kaçınmanıza yardımcı olmak için model güvenliğini izleyen araçlar vardır. Bu farklı araçların gerekliliği ve önemi, özel kullanım durumunuza bağlı olacaktır.

LLM Uygulama Geliştirmede Sırada Ne Var?

Burada tartıştığımız LLM ürün geliştirmeye yönelik dört adım, herhangi bir kuruluşun büyük dil modellerinden yararlanan üretken yapay zeka stratejisinin temel temelidir. Ayrıntıları uygulayan teknik bir ekibiniz olsa bile, teknik olmayan iş liderlerinin anlaması önemlidir. Gelecekte, pazardaki çok çeşitli üretken yapay zeka araçlarından nasıl yararlanılacağına ilişkin daha ayrıntılı eğitimler yayınlayacağız. şimdilik, yapabilirsin bültenimize üye En son güncellemeleri almak için.

Bunun gibi daha özet makaleler yayınladığımızda size haber vereceğiz.