Merancang Beban Kerja AI Generatif Untuk Ketahanan | Layanan Web Amazon

Diterbitkan Ulang Oleh Plato

Followers: 0

Ketahanan memainkan peran penting dalam pengembangan beban kerja apa pun, dan AI generatif beban kerja tidak berbeda. Ada pertimbangan unik saat merekayasa beban kerja AI generatif melalui lensa ketahanan. Memahami dan memprioritaskan ketahanan sangat penting untuk beban kerja AI generatif guna memenuhi persyaratan ketersediaan organisasi dan kelangsungan bisnis. Dalam postingan ini, kami membahas berbagai tumpukan beban kerja AI generatif dan apa saja pertimbangannya.

AI generatif tumpukan penuh

Meskipun banyak hal yang menarik seputar AI generatif berfokus pada model, solusi lengkapnya melibatkan orang, keterampilan, dan alat dari beberapa domain. Perhatikan gambar berikut, yang merupakan tampilan AWS dari tumpukan aplikasi a16z yang muncul untuk model bahasa besar (LLM).

Taksonomi LLM App Stack di AWS

Dibandingkan dengan solusi tradisional yang dibangun berdasarkan AI dan pembelajaran mesin (ML), solusi AI generatif kini melibatkan hal-hal berikut:

Peran baru – Anda harus mempertimbangkan tuner model serta pembuat model dan integrator model
Alat baru – Tumpukan MLOps tradisional tidak mencakup jenis pelacakan eksperimen atau kemampuan observasi yang diperlukan untuk rekayasa cepat atau agen yang menggunakan alat untuk berinteraksi dengan sistem lain

Alasan agen

Berbeda dengan model AI tradisional, Retrieval Augmented Generation (RAG) memungkinkan respons yang lebih akurat dan relevan secara kontekstual dengan mengintegrasikan sumber pengetahuan eksternal. Berikut beberapa pertimbangan saat menggunakan RAG:

Menetapkan batas waktu yang tepat penting untuk pengalaman pelanggan. Tidak ada yang lebih menjelaskan pengalaman pengguna yang buruk selain berada di tengah obrolan dan terputus.
Pastikan untuk memvalidasi data masukan cepat dan ukuran masukan cepat untuk batas karakter yang dialokasikan yang ditentukan oleh model Anda.
Jika Anda melakukan rekayasa cepat, Anda harus menyimpan perintah Anda ke penyimpanan data yang andal. Hal ini akan melindungi permintaan Anda jika terjadi kehilangan yang tidak disengaja atau sebagai bagian dari strategi pemulihan bencana Anda secara keseluruhan.

Pipa data

Jika Anda perlu menyediakan data kontekstual ke model dasar menggunakan pola RAG, Anda memerlukan alur data yang dapat menyerap data sumber, mengonversinya menjadi vektor penyematan, dan menyimpan vektor penyematan dalam database vektor. Pipeline ini dapat berupa pipeline batch jika Anda menyiapkan data kontekstual terlebih dahulu, atau pipeline berlatensi rendah jika Anda menggabungkan data kontekstual baru dengan cepat. Dalam kasus batch, ada beberapa tantangan dibandingkan dengan pipeline data pada umumnya.

Sumber data dapat berupa dokumen PDF pada sistem file, data dari sistem perangkat lunak sebagai layanan (SaaS) seperti alat CRM, atau data dari wiki atau basis pengetahuan yang ada. Penyerapan dari sumber ini berbeda dari sumber data pada umumnya seperti data log di sebuah Layanan Penyimpanan Sederhana Amazon (Amazon S3) bucket atau data terstruktur dari database relasional. Tingkat paralelisme yang dapat Anda capai mungkin dibatasi oleh sistem sumber, jadi Anda perlu memperhitungkan pembatasan dan menggunakan teknik backoff. Beberapa sistem sumber mungkin rapuh, jadi Anda perlu membangun logika penanganan kesalahan dan percobaan ulang.

Model penyematan dapat menjadi penghambat performa, terlepas dari apakah Anda menjalankannya secara lokal di pipeline atau memanggil model eksternal. Model penyematan adalah model dasar yang berjalan pada GPU dan tidak memiliki kapasitas tidak terbatas. Jika model berjalan secara lokal, Anda perlu menetapkan pekerjaan berdasarkan kapasitas GPU. Jika model berjalan secara eksternal, Anda perlu memastikan bahwa Anda tidak memenuhi model eksternal. Dalam kedua kasus tersebut, tingkat paralelisme yang dapat Anda capai akan ditentukan oleh model penyematan, bukan berapa banyak CPU dan RAM yang Anda miliki dalam sistem pemrosesan batch.

Dalam kasus latensi rendah, Anda perlu memperhitungkan waktu yang diperlukan untuk menghasilkan vektor penyematan. Aplikasi pemanggil harus memanggil pipeline secara asinkron.

Basis data vektor

Basis data vektor memiliki dua fungsi: menyimpan vektor yang disematkan, dan menjalankan pencarian kesamaan untuk menemukan yang terdekat k cocok dengan vektor baru. Ada tiga tipe umum database vektor:

Opsi SaaS khusus seperti Pinecone.
Fitur basis data vektor dibangun ke dalam layanan lain. Ini termasuk layanan AWS asli seperti Layanan Pencarian Terbuka Amazon dan Amazon Aurora.
Opsi dalam memori yang dapat digunakan untuk data sementara dalam skenario latensi rendah.

Kami tidak membahas kemampuan pencarian kesamaan secara detail di postingan ini. Meskipun penting, hal tersebut merupakan aspek fungsional sistem dan tidak secara langsung memengaruhi ketahanan. Sebaliknya, kami fokus pada aspek ketahanan database vektor sebagai sistem penyimpanan:

Latensi – Apakah database vektor dapat bekerja dengan baik terhadap beban yang tinggi atau tidak dapat diprediksi? Jika tidak, aplikasi pemanggil perlu menangani pembatasan kecepatan dan melakukan backoff dan mencoba lagi.
Skalabilitas – Berapa banyak vektor yang dapat ditampung sistem? Jika Anda melebihi kapasitas database vektor, Anda perlu mencari solusi sharding atau lainnya.
Ketersediaan tinggi dan pemulihan bencana – Menyematkan vektor adalah data yang berharga, dan membuatnya kembali bisa memakan biaya yang mahal. Apakah basis data vektor Anda tersedia dalam satu Wilayah AWS? Apakah ia mempunyai kemampuan untuk mereplikasi data ke Wilayah lain untuk tujuan pemulihan bencana?

Tingkat aplikasi

Ada tiga pertimbangan unik untuk tingkat aplikasi ketika mengintegrasikan solusi AI generatif:

Latensi berpotensi tinggi – Model pondasi sering kali dijalankan pada instans GPU besar dan mungkin memiliki kapasitas terbatas. Pastikan untuk menggunakan praktik terbaik untuk pembatasan kecepatan, backoff dan coba lagi, serta pelepasan beban. Gunakan desain asinkron sehingga latensi tinggi tidak mengganggu antarmuka utama aplikasi.
Postur keamanan – Jika Anda menggunakan agen, alat, plugin, atau metode lain untuk menghubungkan model ke sistem lain, berikan perhatian ekstra pada postur keamanan Anda. Model mungkin mencoba berinteraksi dengan sistem ini dengan cara yang tidak terduga. Ikuti praktik normal akses dengan hak paling rendah, misalnya membatasi perintah masuk dari sistem lain.
Kerangka kerja yang berkembang pesat – Kerangka kerja sumber terbuka seperti LangChain berkembang pesat. Gunakan pendekatan layanan mikro untuk mengisolasi komponen lain dari kerangka kerja yang kurang matang ini.

Kapasitas

Kita dapat memikirkan kapasitas dalam dua konteks: jalur data model inferensi dan pelatihan. Kapasitas merupakan pertimbangan ketika organisasi membangun jaringan pipa mereka sendiri. Persyaratan CPU dan memori adalah dua persyaratan terbesar saat memilih instans untuk menjalankan beban kerja Anda.

Instans yang dapat mendukung beban kerja AI generatif mungkin lebih sulit diperoleh dibandingkan jenis instans tujuan umum pada umumnya. Fleksibilitas instans dapat membantu perencanaan kapasitas dan kapasitas. Bergantung pada Wilayah AWS tempat Anda menjalankan beban kerja, tersedia jenis instans yang berbeda.

Untuk perjalanan pengguna yang sangat penting, organisasi sebaiknya mempertimbangkan jenis instans pemesanan atau pra-penyediaan untuk memastikan ketersediaan saat diperlukan. Pola ini menghasilkan arsitektur yang stabil secara statis, yang merupakan praktik terbaik ketahanan. Untuk mempelajari lebih lanjut tentang stabilitas statis di pilar keandalan AWS Well-Architected Framework, lihat Gunakan stabilitas statis untuk mencegah perilaku bimodal.

Observabilitas

Selain metrik sumber daya yang biasanya Anda kumpulkan, seperti penggunaan CPU dan RAM, Anda perlu memantau penggunaan GPU dengan cermat jika Anda menghosting suatu model Amazon SageMaker or Cloud komputasi elastis Amazon (Amazon EC2). Pemanfaatan GPU dapat berubah secara tidak terduga jika model dasar atau data input berubah, dan kehabisan memori GPU dapat membuat sistem berada dalam kondisi tidak stabil.

Di tingkat yang lebih tinggi, Anda juga ingin melacak aliran panggilan melalui sistem, menangkap interaksi antara agen dan alat. Karena antarmuka antara agen dan alat tidak didefinisikan secara formal dibandingkan kontrak API, Anda harus memantau jejak ini tidak hanya untuk kinerja tetapi juga untuk menangkap skenario kesalahan baru. Untuk memantau model atau agen terhadap risiko dan ancaman keamanan apa pun, Anda dapat menggunakan alat seperti Tugas Penjaga Amazon.

Anda juga harus menangkap garis dasar penyematan vektor, perintah, konteks, dan keluaran, serta interaksi di antara keduanya. Jika hal ini berubah seiring berjalannya waktu, hal ini mungkin menunjukkan bahwa pengguna menggunakan sistem dengan cara yang baru, bahwa data referensi tidak mencakup ruang pertanyaan dengan cara yang sama, atau bahwa keluaran model tiba-tiba berbeda.

Pemulihan bencana

Memiliki rencana kesinambungan bisnis dengan strategi pemulihan bencana adalah suatu keharusan untuk setiap beban kerja. Beban kerja AI generatif juga demikian. Memahami mode kegagalan yang dapat diterapkan pada beban kerja Anda akan membantu memandu strategi Anda. Jika Anda menggunakan layanan terkelola AWS untuk beban kerja Anda, seperti Batuan Dasar Amazon dan SageMaker, pastikan layanan tersedia di Wilayah AWS pemulihan Anda. Saat tulisan ini dibuat, layanan AWS ini tidak mendukung replikasi data di seluruh Wilayah AWS secara asli, jadi Anda perlu memikirkan strategi pengelolaan data untuk pemulihan bencana, dan Anda juga mungkin perlu menyempurnakan beberapa Wilayah AWS.

Kesimpulan

Postingan ini menjelaskan cara mempertimbangkan ketahanan saat membangun solusi AI generatif. Meskipun penerapan AI generatif memiliki beberapa nuansa menarik, pola ketahanan dan praktik terbaik yang ada masih berlaku. Ini hanyalah masalah mengevaluasi setiap bagian dari aplikasi AI generatif dan menerapkan praktik terbaik yang relevan.

Untuk informasi selengkapnya tentang AI generatif dan penggunaannya dengan layanan AWS, lihat sumber daya berikut:

Tentang Penulis

Jennifer Moran adalah Arsitek Solusi Spesialis Ketahanan Senior AWS yang berbasis di New York City. Dia memiliki latar belakang yang beragam, pernah bekerja di banyak disiplin teknis, termasuk pengembangan perangkat lunak, kepemimpinan tangkas, dan DevOps, serta merupakan advokat bagi perempuan di bidang teknologi. Dia senang membantu pelanggan merancang solusi ketahanan untuk meningkatkan postur ketahanan dan berbicara secara terbuka tentang semua topik terkait ketahanan.

Randy De Fauw adalah Arsitek Solusi Utama Senior di AWS. Dia memegang gelar MSEE dari Universitas Michigan, tempat dia mengerjakan visi komputer untuk kendaraan otonom. Ia juga meraih gelar MBA dari Colorado State University. Randy telah memegang berbagai posisi di bidang teknologi, mulai dari rekayasa perangkat lunak hingga manajemen produk. Dia memasuki dunia big data pada tahun 2013 dan terus mengeksplorasi bidang tersebut. Dia aktif mengerjakan proyek di bidang ML dan telah memberikan presentasi di berbagai konferensi, termasuk Strata dan GlueCon.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/designing-generative-ai-workloads-for-resilience/

Stempel Waktu: Februari 1, 2024

Stempel Waktu: Juni 28, 2022

Diterbitkan Ulang Oleh Plato

Rekomendasi daya dan pencarian menggunakan grafik pengetahuan IMDb – Bagian 3

Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler

Cari proyek Jira Anda secara cerdas dengan konektor cloud Amazon Kendra Jira

Buat prediksi batch dengan Amazon SageMaker Autopilot

Bagian 4: Bagaimana NatWest Group memigrasikan model ML ke arsitektur Amazon SageMaker

Ungkap pengetahuan di ruang kerja Slack dengan pencarian cerdas menggunakan konektor Amazon Kendra Slack

Buat ringkasan rekaman menggunakan AI generatif dengan Amazon Bedrock dan Amazon Transcribe | Layanan Web Amazon

Dukungan format data baru yang diperluas di Amazon Kendra

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun