Harus Dibaca: 15 Makalah AI Penting Untuk Pengembang GenAI

Diterbitkan Ulang Oleh Plato

Followers: 0

Pengantar

Ketika bidang kecerdasan buatan (AI) terus tumbuh dan berkembang, menjadi semakin penting bagi calon pengembang AI untuk selalu mengikuti perkembangan penelitian dan kemajuan terbaru. Salah satu cara terbaik untuk melakukan hal ini adalah dengan membaca Makalah AI untuk pengembang GenAI, yang memberikan wawasan berharga tentang teknik dan algoritma mutakhir. Artikel ini akan membahas 15 makalah AI penting untuk pengembang GenAI. Makalah ini mencakup berbagai topik, mulai dari pemrosesan bahasa alami hingga visi komputer. Mereka akan meningkatkan pemahaman Anda tentang AI dan meningkatkan peluang Anda untuk mendapatkan pekerjaan pertama di bidang yang menarik ini.

Pentingnya Makalah AI untuk Pengembang GenAI

AI Papers untuk pengembang GenAI memungkinkan para peneliti dan pakar untuk berbagi temuan, metodologi, dan terobosan mereka dengan komunitas luas. Dengan membaca makalah ini, Anda mendapatkan akses terhadap kemajuan terkini dalam AI, memungkinkan Anda untuk tetap menjadi yang terdepan dan membuat keputusan yang tepat dalam pekerjaan Anda. Selain itu, AI Papers untuk pengembang GenAI sering kali memberikan penjelasan mendetail tentang algoritme dan teknik, sehingga memberi Anda pemahaman lebih dalam tentang cara kerjanya dan cara penerapannya pada masalah di dunia nyata.

Membaca Makalah AI untuk pengembang GenAI menawarkan beberapa manfaat bagi calon pengembang AI. Pertama, ini membantu Anda tetap mendapatkan informasi terkini tentang penelitian dan tren terbaru di bidangnya. Pengetahuan ini sangat penting ketika melamar pekerjaan terkait AI, karena pemberi kerja sering kali mencari kandidat yang paham dengan kemajuan terkini. Selain itu, membaca makalah AI memungkinkan Anda memperluas pengetahuan dan mendapatkan pemahaman lebih dalam tentang konsep dan metodologi AI. Pengetahuan ini dapat diterapkan pada proyek dan penelitian Anda, menjadikan Anda pengembang AI yang lebih kompeten dan terampil.

Daftar Isi

Ikhtisar: Makalah AI Penting untuk Pengembang GenAI dengan Tautan

Makalah 1: Transformers: Yang Anda Butuhkan Hanya Perhatian

link: Baca disini

Ringkasan Makalah

Makalah ini memperkenalkan Transformer, arsitektur jaringan saraf baru untuk tugas transduksi urutan, seperti terjemahan mesin. Tidak seperti model tradisional yang didasarkan pada jaringan saraf berulang atau konvolusional, Transformer hanya mengandalkan mekanisme perhatian, sehingga menghilangkan kebutuhan akan pengulangan dan konvolusi. Penulis berpendapat bahwa arsitektur ini menawarkan kinerja yang unggul dalam hal kualitas terjemahan, peningkatan kemampuan paralelisasi, dan pengurangan waktu pelatihan.

Wawasan Utama Makalah AI untuk Pengembang GenAI

Mekanisme Perhatian

Transformer dibangun sepenuhnya berdasarkan mekanisme perhatian, yang memungkinkannya menangkap ketergantungan global antara rangkaian masukan dan keluaran. Pendekatan ini memungkinkan model untuk mempertimbangkan hubungan tanpa dibatasi oleh jarak antar elemen dalam rangkaian.

Paralelisasi
Salah satu keuntungan utama arsitektur Transformer adalah peningkatan kemampuan paralelisasinya. Model berulang tradisional mengalami komputasi sekuensial, sehingga membuat paralelisasi menjadi menantang. Desain Transformer memungkinkan pemrosesan paralel yang lebih efisien selama pelatihan, sehingga mengurangi waktu pelatihan.

Kualitas dan Efisiensi Unggul

Makalah ini menyajikan hasil eksperimen pada tugas terjemahan mesin, yang menunjukkan bahwa Transformer mencapai kualitas terjemahan yang unggul dibandingkan model yang ada. Performanya mengungguli hasil canggih sebelumnya, termasuk model ansambel, dengan selisih yang signifikan. Selain itu, Transformer mencapai hasil ini dengan waktu pelatihan yang jauh lebih sedikit.

Kinerja Terjemahan

Pada tugas penerjemahan Bahasa Inggris-ke-Jerman WMT 2014, model yang diusulkan mencapai skor BLEU sebesar 28.4, melampaui hasil terbaik yang ada sebanyak lebih dari 2 BLEU. Pada tugas bahasa Inggris-Prancis, model ini menetapkan skor BLEU model tunggal yang canggih sebesar 41.8 setelah pelatihan hanya selama 3.5 hari pada delapan GPU.

Generalisasi ke Tugas LainPenulis menunjukkan bahwa arsitektur Transformer dapat digeneralisasi dengan baik untuk tugas-tugas di luar terjemahan mesin. Mereka berhasil menerapkan model tersebut pada penguraian konstituensi Inggris, menunjukkan kemampuan adaptasinya terhadap masalah transduksi urutan yang berbeda.

Makalah 2: BERT: Pra-pelatihan Transformator Dua Arah Dalam untuk Pemahaman Bahasa

link: Baca disini

Ringkasan Makalah

Pra-pelatihan model bahasa telah terbukti efektif untuk meningkatkan berbagai tugas pemrosesan bahasa alami. Makalah ini membedakan antara pendekatan berbasis fitur dan pendekatan penyesuaian untuk menerapkan representasi bahasa yang telah dilatih sebelumnya. BERT diperkenalkan untuk mengatasi keterbatasan dalam pendekatan penyesuaian, khususnya kendala searah model bahasa standar. Makalah ini mengusulkan tujuan pra-pelatihan “Model Bahasa Masked” (MLM), yang terinspirasi oleh tugas Cloze, untuk memungkinkan representasi dua arah. Tugas “prediksi kalimat berikutnya” juga digunakan untuk secara bersama-sama melatih representasi pasangan teks.

Wawasan Utama Makalah AI untuk Pengembang GenAI

Pentingnya Pra-pelatihan Dua Arah

Makalah ini menekankan pentingnya pra-pelatihan dua arah untuk representasi bahasa. Tidak seperti model sebelumnya, BERT menggunakan model bahasa bertopeng untuk memungkinkan representasi dua arah yang mendalam, melampaui model bahasa satu arah yang digunakan oleh karya sebelumnya.

Pengurangan Arsitektur Khusus Tugas

BERT menunjukkan bahwa representasi terlatih mengurangi kebutuhan akan arsitektur khusus tugas yang direkayasa secara mendalam. Ini menjadi model representasi berbasis penyempurnaan pertama yang mencapai kinerja canggih di beragam tugas tingkat kalimat dan tingkat token, mengungguli arsitektur khusus tugas.

Kemajuan Tercanggih

BERT mencapai hasil baru yang canggih pada sebelas tugas pemrosesan bahasa alami, yang menunjukkan keserbagunaannya. Peningkatan penting mencakup peningkatan substansial dalam skor GLUE, akurasi MultiNLI, dan peningkatan dalam tugas menjawab pertanyaan SQuAD v1.1 dan v2.0.

Anda juga bisa membaca: Menyempurnakan BERT dengan Pemodelan Bahasa Terselubung

Makalah 3: GPT: Model Bahasa adalah Pembelajar yang Sedikit Pembelajar

link: Baca disini

Ringkasan Makalah

Makalah ini membahas peningkatan yang dicapai dalam tugas pemrosesan bahasa alami (NLP) dengan meningkatkan model bahasa, dengan fokus pada GPT-3 (Generative Pre-trained Transformer 3), model bahasa autoregresif dengan 175 miliar parameter. Para penulis menyoroti hal itu meskipun baru-baru ini model NLP menunjukkan kemajuan besar melalui pra-pelatihan dan penyesuaian, hal ini sering kali memerlukan kumpulan data khusus tugas dengan ribuan contoh untuk penyesuaian. Sebaliknya, manusia dapat melakukan tugas-tugas bahasa baru dengan sedikit contoh atau instruksi sederhana.

Wawasan Utama Makalah AI untuk Pengembang GenAI

Peningkatan Skala Meningkatkan Kinerja Beberapa Pemotretan
Para penulis menunjukkan bahwa peningkatan model bahasa secara signifikan meningkatkan kinerja yang tidak bergantung pada tugas dan hanya dilakukan beberapa kali saja. GPT-3, dengan ukuran parameternya yang besar, terkadang mencapai daya saing dengan pendekatan penyesuaian yang canggih tanpa penyesuaian khusus tugas atau pembaruan gradien.
Penerapan yang luas

GPT-3 menunjukkan kinerja yang kuat di berbagai tugas NLP, termasuk penerjemahan, menjawab pertanyaan, tugas cloze, dan tugas yang memerlukan penalaran langsung atau adaptasi domain.
Tantangan dan Keterbatasan

Meskipun GPT-3 menunjukkan kemampuan pembelajaran singkat yang luar biasa, penulis mengidentifikasi kumpulan data yang mengalami kesulitan dan menyoroti masalah metodologis terkait pelatihan pada korpora web besar.
Pembuatan Artikel Mirip Manusia

GPT-3 dapat menghasilkan artikel berita yang sulit dibedakan oleh evaluator manusia dengan artikel yang ditulis oleh manusia.
Dampak Sosial dan Pertimbangan yang Lebih Luas

Makalah ini membahas dampak sosial yang lebih luas dari kemampuan GPT-3, khususnya dalam menghasilkan teks mirip manusia. Implikasi kinerjanya dalam berbagai tugas dipertimbangkan dalam kaitannya dengan penerapan praktis dan tantangan potensial.
Keterbatasan Pendekatan NLP Saat Ini

Para penulis menyoroti keterbatasan pendekatan NLP saat ini, khususnya ketergantungan mereka pada kumpulan data penyesuaian tugas spesifik, yang menimbulkan tantangan seperti persyaratan untuk kumpulan data berlabel besar dan risiko overfitting untuk mempersempit distribusi tugas. Selain itu, kekhawatiran muncul mengenai kemampuan generalisasi model-model ini di luar batasan distribusi pelatihannya.

Makalah 4: CNN: Klasifikasi ImageNet dengan Jaringan Neural Konvolusional Dalam

link: Baca disini

Ringkasan Makalah

Makalah ini menjelaskan pengembangan dan pelatihan jaringan neural konvolusional (CNN) yang besar dan dalam untuk klasifikasi gambar pada kumpulan data ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Model ini mencapai peningkatan signifikan dalam akurasi klasifikasi dibandingkan dengan metode canggih sebelumnya.

Wawasan Utama Makalah AI untuk Pengembang GenAI

Arsitektur Model
Jaringan saraf yang digunakan dalam penelitian ini adalah deep CNN dengan 60 juta parameter dan 650,000 neuron. Ini terdiri dari lima lapisan konvolusional, beberapa diikuti oleh lapisan penggabungan maksimal, dan tiga lapisan yang terhubung sepenuhnya dengan softmax 1000 arah akhir untuk klasifikasi.

Data pelatihan

Model ini dilatih pada kumpulan data substansial yang terdiri dari 1.2 juta gambar resolusi tinggi dari kontes ImageNet ILSVRC-2010. Proses pelatihan melibatkan pengklasifikasian gambar ke dalam 1000 kelas berbeda.

Performance
Model ini mencapai tingkat kesalahan teratas 1 dan 5 teratas masing-masing sebesar 37.5% dan 17.0% pada data pengujian. Tingkat kesalahan ini jauh lebih baik dibandingkan dengan pendekatan canggih sebelumnya, yang menunjukkan efektivitas pendekatan yang diusulkan.

Perbaikan dalam Overfitting

Makalah ini memperkenalkan beberapa teknik untuk mengatasi masalah overfitting, termasuk neuron yang tidak jenuh, implementasi GPU yang efisien untuk pelatihan yang lebih cepat, dan metode regularisasi yang disebut “dropout” pada lapisan yang terhubung sepenuhnya.
Efisiensi Komputasi
Terlepas dari tuntutan komputasi untuk melatih CNN berukuran besar, makalah ini mencatat bahwa GPU saat ini dan implementasi yang dioptimalkan memungkinkan untuk melatih model tersebut pada gambar resolusi tinggi.

Kontribusi
Makalah ini menyoroti kontribusi penelitian ini, termasuk melatih salah satu jaringan saraf konvolusional terbesar pada kumpulan data ImageNet dan mencapai hasil tercanggih dalam kompetisi ILSVRC.

Anda juga bisa membaca: Tutorial Komprehensif untuk mempelajari Jaringan Syaraf Konvolusional

Makalah 5: GAT: Grafik Jaringan Perhatian

link: Baca disini

Ringkasan Makalah

Makalah ini memperkenalkan arsitektur berbasis perhatian untuk klasifikasi node dalam data terstruktur grafik, yang menunjukkan efisiensi, keserbagunaan, dan kinerja kompetitifnya di berbagai tolok ukur. Penggabungan mekanisme perhatian terbukti menjadi alat yang ampuh untuk menangani grafik yang terstruktur secara sewenang-wenang.

Wawasan Utama Makalah AI untuk Pengembang GenAI

Jaringan Perhatian Grafik (GAT)GAT memanfaatkan lapisan perhatian mandiri yang terselubung untuk mengatasi keterbatasan metode sebelumnya berdasarkan konvolusi grafik. Arsitektur ini memungkinkan node untuk memperhatikan fitur lingkungannya, secara implisit menentukan bobot yang berbeda untuk node yang berbeda tanpa bergantung pada operasi matriks yang mahal atau pengetahuan apriori tentang struktur grafik.

Mengatasi Tantangan Berbasis Spektral

GAT secara bersamaan mengatasi beberapa tantangan dalam jaringan saraf grafik berbasis spektral. Tantangan Graph Attention Network (GAT) melibatkan filter yang terlokalisasi secara spasial, komputasi yang intens, dan filter yang tidak terlokalisasi secara spasial. Selain itu, GAT bergantung pada basis eigen Laplacian, yang berkontribusi pada penerapannya pada masalah induktif dan transduktif.

Kinerja di seluruh Tolok Ukur

Model GAT mencapai atau mencocokkan hasil canggih di empat tolok ukur grafik yang ditetapkan: kumpulan data jaringan kutipan Cora, Citeseer, dan Pubmed, serta kumpulan data interaksi protein-protein. Tolok ukur ini mencakup skenario pembelajaran transduktif dan induktif, yang menunjukkan keserbagunaan GAT.

Perbandingan dengan Pendekatan Sebelumnya

Makalah ini memberikan gambaran komprehensif tentang pendekatan sebelumnya, termasuk jaringan saraf rekursif, Grafik Jaringan Neural (GNN), metode spektral dan non-spektral, dan mekanisme perhatian. GAT menggabungkan mekanisme perhatian, memungkinkan paralelisasi yang efisien pada pasangan node-tetangga dan penerapan pada node dengan derajat berbeda.

Efisiensi dan PenerapanGAT menawarkan operasi yang dapat diparalelkan dan efisien yang dapat diterapkan pada node grafik dengan derajat berbeda dengan menentukan bobot arbitrer ke tetangganya. Model ini secara langsung berlaku untuk masalah pembelajaran induktif, sehingga cocok untuk tugas-tugas yang memerlukan generalisasi ke grafik yang sama sekali tidak terlihat.

Kaitannya dengan Model Sebelumnya

Para penulis mencatat bahwa GAT dapat dirumuskan ulang sebagai contoh khusus dari MoNet, memiliki kesamaan dengan jaringan relasional, dan terhubung ke pekerjaan yang menggunakan operasi perhatian lingkungan. Model perhatian yang diusulkan dibandingkan dengan pendekatan terkait seperti Duan et al. (2017) dan Denil dkk. (2017).

Makalah 6: ViT: Sebuah Gambar Bernilai 16×16 Kata: Transformer untuk Pengenalan Gambar dalam Skala Besar

link: Baca disini

Ringkasan Makalah

Makalah ini mengakui dominasi arsitektur konvolusional dalam visi komputer meskipun arsitektur Transformer sukses dalam pemrosesan bahasa alami. Terinspirasi oleh efisiensi dan skalabilitas trafo di NLP, penulis menerapkan trafo standar langsung ke gambar dengan modifikasi minimal.

Mereka memperkenalkan Transformator Visi (ViT), di mana gambar dipecah menjadi beberapa tambalan, dan urutan penyematan linier dari tambalan ini berfungsi sebagai masukan ke Transformer. Model dilatih pada tugas klasifikasi gambar dengan cara yang diawasi. Awalnya, ketika dilatih pada kumpulan data berukuran sedang seperti ImageNet tanpa regularisasi yang kuat, ViT mencapai akurasi sedikit di bawah ResNet yang sebanding.

Namun, penulis mengungkapkan bahwa pelatihan skala besar sangat penting untuk keberhasilan ViT, melampaui keterbatasan yang disebabkan oleh tidak adanya bias induktif tertentu. Saat dilatih sebelumnya mengenai kumpulan data besar, ViT mengungguli jaringan konvolusional canggih pada berbagai tolok ukur, termasuk ImageNet, CIFAR-100, dan VTAB. Makalah ini menggarisbawahi dampak penskalaan dalam mencapai hasil luar biasa dengan arsitektur Transformer dalam visi komputer.

Wawasan Utama Makalah AI untuk Pengembang GenAI

Transformator dalam Computer Vision

Makalah ini menantang ketergantungan yang ada pada jaringan saraf konvolusional (CNN) untuk tugas-tugas visi komputer. Hal ini menunjukkan bahwa Transformer murni, bila diterapkan langsung ke rangkaian patch gambar, dapat mencapai kinerja luar biasa dalam tugas klasifikasi gambar.

Transformator Visi (ViT)

Penulis memperkenalkan Vision Transformer (ViT), sebuah model yang memanfaatkan mekanisme perhatian diri yang mirip dengan Transformers di NLP. ViT dapat mencapai hasil yang kompetitif pada berbagai tolok ukur pengenalan gambar, termasuk ImageNet, CIFAR-100, dan VTAB.

Pra-pelatihan dan Pembelajaran Transfer

Makalah ini menekankan pentingnya pra-pelatihan pada data dalam jumlah besar, mirip dengan pendekatan di NLP, dan kemudian mentransfer representasi yang dipelajari ke tugas pengenalan gambar tertentu. ViT, ketika dilatih sebelumnya pada kumpulan data besar seperti ImageNet-21k atau JFT-300M, mengungguli jaringan konvolusional canggih di berbagai tolok ukur.

Efisiensi KomputasiViT mencapai hasil yang luar biasa dengan sumber daya komputasi yang jauh lebih sedikit selama pelatihan dibandingkan jaringan konvolusional yang canggih. Efisiensi ini terutama terlihat ketika model telah dilatih sebelumnya dalam skala besar.

Skala Dampak

Makalah ini menyoroti pentingnya penskalaan dalam mencapai kinerja unggul dengan arsitektur Transformer dalam visi komputer. Pelatihan skala besar pada kumpulan data yang berisi jutaan hingga ratusan juta gambar membantu ViT mengatasi kurangnya bias induktif yang ada di CNN.

Makalah 7: AlphaFold2: Struktur protein yang sangat akurat dengan AlphaFold

link: Baca disini

Ringkasan Makalah

Makalah “AlphaFold2: Struktur protein yang sangat akurat dengan AlphaFold” memperkenalkan AlphaFold2, model pembelajaran mendalam yang secara akurat memprediksi struktur protein. AlphaFold2 memanfaatkan arsitektur berbasis perhatian baru dan mencapai terobosan dalam pelipatan protein.

Wawasan Utama Makalah AI untuk Pengembang GenAI

Lipat Alfa2 menggunakan jaringan saraf dalam dengan mekanisme perhatian untuk memprediksi struktur 3D protein dari rangkaian asam aminonya.
Model ini dilatih pada kumpulan data besar dari struktur protein yang diketahui dan mencapai akurasi yang belum pernah terjadi sebelumnya dalam kompetisi pelipatan protein Penilaian Kritis Prediksi Struktur Protein (CASP14) ke-14.
Prediksi akurat AlphaFold2 berpotensi merevolusi penemuan obat, rekayasa protein, dan bidang biokimia lainnya.

Makalah 8: GAN: Jaring Permusuhan Generatif

link: Baca disini

Ringkasan Makalah

Makalah ini membahas tantangan dalam melatih model generatif secara mendalam dan memperkenalkan pendekatan inovatif yang disebut jaringan adversarial. Dalam kerangka ini, model generatif dan diskriminatif terlibat dalam permainan dimana model generatif bertujuan untuk menghasilkan sampel yang tidak dapat dibedakan dari data sebenarnya. Sebaliknya, model diskriminatif membedakan antara sampel nyata dan sampel yang dihasilkan. Proses pelatihan permusuhan menghasilkan solusi unik, dengan model generatif memulihkan distribusi data.

Wawasan Utama Makalah AI untuk Pengembang GenAI

Kerangka Permusuhan

Penulis memperkenalkan kerangka permusuhan di mana dua model dilatih secara bersamaan—model generatif (G) yang menangkap distribusi data dan model diskriminatif (D) yang memperkirakan kemungkinan sampel berasal dari data pelatihan, bukan model generatif.

Permainan MinimaxProsedur pelatihan melibatkan memaksimalkan kemungkinan model diskriminatif membuat kesalahan. Kerangka kerja ini dirumuskan sebagai permainan minimax dua pemain, dimana model generatif bertujuan untuk menghasilkan sampel yang tidak dapat dibedakan dari data nyata, dan model diskriminatif bertujuan untuk mengklasifikasikan apakah suatu sampel itu nyata atau dihasilkan dengan benar.

Solusi Unik

Solusi unik ada dalam fungsi arbitrer untuk G dan D, dengan G memulihkan distribusi data pelatihan dan D sama dengan 1/2 di semua tempat. Keseimbangan ini dicapai melalui proses pelatihan permusuhan.

Multilayer Perceptrons (MLP)Penulis mendemonstrasikan bahwa seluruh sistem dapat dilatih menggunakan propagasi mundur ketika perceptron multilayer mewakili G dan D. Hal ini menghilangkan kebutuhan akan rantai Markov atau jaringan inferensi perkiraan yang terbuka selama pelatihan dan menghasilkan sampel.

Tidak Ada Perkiraan Inferensi

Kerangka kerja yang diusulkan menghindari kesulitan dalam memperkirakan perhitungan probabilistik yang sulit dilakukan dalam estimasi kemungkinan maksimum. Hal ini juga mengatasi tantangan dalam memanfaatkan manfaat unit linier sepotong-sepotong dalam konteks generatif.

Makalah 9: RoBERTa: Pendekatan Pra-Pelatihan BERT yang Dioptimalkan dengan Kuat

link: Baca disini

Ringkasan Makalah

Makalah ini membahas masalah undertraining BERT dan memperkenalkan RoBERTa, versi optimal yang melampaui kinerja BERT. Modifikasi dalam prosedur pelatihan RoBERTa dan penggunaan kumpulan data baru (CC-NEWS) berkontribusi pada hasil canggih pada berbagai tugas pemrosesan bahasa alami. Temuan ini menekankan pentingnya pilihan desain dan strategi pelatihan dalam efektivitas pra-pelatihan model bahasa. Sumber daya yang dirilis, termasuk model dan kode RoBERTa, berkontribusi pada komunitas riset.

Wawasan Utama Makalah AI untuk Pengembang GenAI

Pelatihan BERT

Penulis menemukan bahwa BERTI, model bahasa yang banyak digunakan, masih kurang terlatih. Dengan mengevaluasi secara cermat dampak penyetelan hyperparameter dan ukuran set pelatihan, mereka menunjukkan bahwa BERT dapat ditingkatkan untuk menyamai atau melampaui performa semua model yang dipublikasikan setelahnya.

Resep Pelatihan yang Ditingkatkan (RoBERTa)

Penulis memperkenalkan modifikasi pada prosedur pelatihan BERT, menghasilkan RoBERTa. Perubahan ini melibatkan periode pelatihan yang diperpanjang dengan batch yang lebih besar, penghapusan tujuan prediksi kalimat berikutnya, pelatihan pada urutan yang lebih panjang, dan penyesuaian pola penyembunyian dinamis untuk data pelatihan.

Kontribusi Kumpulan DataMakalah ini memperkenalkan kumpulan data baru yang disebut CC-NEWS, yang ukurannya sebanding dengan kumpulan data milik pribadi lainnya. Menyertakan kumpulan data ini membantu mengontrol efek ukuran kumpulan pelatihan dengan lebih baik dan berkontribusi terhadap peningkatan kinerja pada tugas-tugas hilir.

Pencapaian Kinerja

RoBERTa, dengan modifikasi yang disarankan, mencapai hasil canggih pada berbagai tugas benchmark, termasuk GLUE, RACE, dan SQuAD. Ini menyamai atau melampaui kinerja semua metode pasca-BERT pada tugas-tugas seperti MNLI, QNLI, RTE, STS-B, SQuAD, dan RACE.

Daya Saing Pra-Pelatihan Model Bahasa Bertopeng

Makalah ini menegaskan kembali bahwa tujuan pra-pelatihan model bahasa bertopeng, dengan pilihan desain yang tepat, dapat bersaing dengan tujuan pelatihan lain yang diusulkan baru-baru ini.

Sumber Daya Dirilis

Para penulis merilis model RoBERTa mereka, bersama dengan kode pra-pelatihan dan penyesuaian yang diterapkan di PyTorch, sehingga berkontribusi pada reproduktifitas dan eksplorasi lebih lanjut dari temuan mereka.

Makalah 10: NeRF: Mewakili Pemandangan sebagai Bidang Cahaya Neural untuk Sintesis Tampilan

link: Baca disini

Ringkasan Makalah

Optimalisasi melibatkan meminimalkan kesalahan antara gambar yang diamati dengan pose kamera yang diketahui dan tampilan yang diberikan dari representasi pemandangan berkelanjutan. Makalah ini mengatasi tantangan terkait konvergensi dan efisiensi dengan memperkenalkan pengkodean posisi untuk menangani fungsi frekuensi yang lebih tinggi dan mengusulkan prosedur pengambilan sampel hierarki untuk mengurangi jumlah kueri yang diperlukan untuk pengambilan sampel yang memadai.

Wawasan Utama Makalah AI untuk Pengembang GenAI`

Representasi Adegan Berkelanjutan

Makalah ini menyajikan metode untuk merepresentasikan pemandangan kompleks sebagai bidang pancaran saraf 5D menggunakan jaringan dasar multilayer perceptron (MLP).

Rendering yang Dapat Dibedakan

Prosedur rendering yang diusulkan didasarkan pada teknik rendering volume klasik, yang memungkinkan optimasi berbasis gradien menggunakan gambar RGB standar.

Strategi Pengambilan Sampel Hierarki

Strategi pengambilan sampel hierarki diperkenalkan untuk mengoptimalkan kapasitas MLP pada area dengan konten pemandangan yang terlihat, guna mengatasi masalah konvergensi.

Pengkodean PosisiMenggunakan pengkodean posisi untuk memetakan masukan koordinat 5D ke dalam ruang berdimensi lebih tinggi memungkinkan keberhasilan optimalisasi bidang pancaran saraf untuk konten pemandangan frekuensi tinggi.

Metode yang diusulkan melampaui pendekatan sintesis tampilan canggih, termasuk penyesuaian representasi 3D saraf dan pelatihan jaringan konvolusional yang mendalam. Makalah ini memperkenalkan representasi pemandangan saraf berkelanjutan untuk menampilkan tampilan baru fotorealistik resolusi tinggi dari gambar RGB dalam pengaturan alami, dengan perbandingan tambahan ditampilkan dalam video tambahan untuk menyoroti efektivitasnya dalam menangani geometri dan tampilan pemandangan yang kompleks.

Makalah 11: FunSearch: Penemuan matematis dari pencarian program dengan model bahasa besar

link: Baca disini

Ringkasan Makalah

Makalah ini memperkenalkan FunSearch, sebuah pendekatan baru untuk memanfaatkan Model Bahasa Besar (LLM) untuk memecahkan masalah kompleks, khususnya dalam penemuan ilmiah. Tantangan utama yang diatasi adalah terjadinya konfabulasi (halusinasi) di LLM, yang mengarah pada pernyataan yang masuk akal namun salah. FunSearch menggabungkan LLM terlatih dengan evaluator sistematis dalam prosedur evolusi untuk mengatasi keterbatasan ini.

Wawasan Utama Makalah AI untuk Pengembang GenAI

Pemecahan Masalah dengan LLM
Makalah ini membahas masalah LLM yang membingungkan atau gagal menghasilkan ide-ide baru dan solusi yang tepat untuk masalah yang kompleks. Hal ini menekankan pentingnya menemukan ide-ide baru yang dapat diverifikasi kebenarannya, terutama untuk tantangan matematika dan ilmiah.

Prosedur Evolusioner – FunSearch

FunSearch menggabungkan LLM terlatih dengan evaluator dalam proses evolusi. Ini secara berulang-ulang mengembangkan program dengan skor rendah menjadi program dengan skor tinggi, memastikan penemuan pengetahuan baru. Prosesnya melibatkan dorongan terbaik, mengembangkan kerangka program, menjaga keragaman program, dan melakukan penskalaan secara asinkron.

Penerapan pada Kombinatorik Ekstrem

Makalah ini menunjukkan efektivitas FunSearch pada masalah cap set dalam kombinatorik ekstrem. FunSearch menemukan konstruksi baru dari kumpulan berkapitalisasi besar, melampaui hasil yang paling terkenal dan memberikan peningkatan terbesar dalam 20 tahun pada batas bawah tanpa gejala.

Masalah Algoritma – Pengepakan Bin Online

FunSearch diterapkan pada masalah pengepakan bin online, yang mengarah pada penemuan algoritma baru yang mengungguli algoritma tradisional pada distribusi minat yang telah dipelajari dengan baik. Penerapan potensialnya mencakup peningkatan algoritma penjadwalan pekerjaan.

Program vs. SolusiFunSearch berfokus pada menghasilkan program yang menjelaskan cara memecahkan suatu masalah daripada menghasilkan solusi secara langsung. Program-program ini cenderung lebih mudah diinterpretasikan, memfasilitasi interaksi dengan pakar domain, dan lebih mudah diterapkan dibandingkan jenis deskripsi lainnya, seperti jaringan saraf.

Dampak Interdisipliner

Metodologi FunSearch memungkinkan eksplorasi berbagai masalah, menjadikannya pendekatan serbaguna dengan aplikasi interdisipliner. Makalah ini menyoroti potensinya untuk membuat penemuan ilmiah yang dapat diverifikasi menggunakan LLM.

Makalah 12: VAE: Bayes Variasi Pengkodean Otomatis

link: Baca disini

Ringkasan Makalah

Makalah “Auto-Encoding Variational Bayes” membahas tantangan inferensi dan pembelajaran yang efisien dalam model probabilistik terarah dengan variabel laten kontinu, terutama ketika distribusi posterior sulit dilakukan dan menangani kumpulan data yang besar. Para penulis mengusulkan inferensi variasional stokastik dan algoritma pembelajaran yang dapat diskalakan dengan baik untuk kumpulan data besar dan tetap dapat diterapkan bahkan dalam distribusi posterior yang sulit diselesaikan.

Wawasan Utama Makalah AI untuk Pengembang GenAI

Reparameterisasi Batas Bawah Variasi

Makalah ini menunjukkan parameterisasi ulang batas bawah variasional, yang menghasilkan penduga batas bawah. Estimator ini dapat dioptimalkan menggunakan metode gradien stokastik standar, sehingga efisien secara komputasi.

Inferensi Posterior yang Efisien untuk Variabel Laten BerkelanjutanPenulis mengusulkan algoritma Auto-Encoding VB (AEVB) untuk kumpulan data dengan variabel laten kontinu per titik data. Algoritme ini menggunakan estimator Stochastic Gradient Variational Bayes (SGVB) untuk mengoptimalkan model pengenalan, memungkinkan perkiraan inferensi posterior yang efisien melalui pengambilan sampel leluhur. Pendekatan ini menghindari skema inferensi berulang yang mahal seperti Markov Chain Monte Carlo (MCMC) untuk setiap titik data.

Keuntungan Teoritis dan Hasil Eksperimental

Keuntungan teoretis dari metode yang diusulkan tercermin dalam hasil eksperimen. Makalah ini menyarankan bahwa model reparameterisasi dan pengenalan mengarah pada efisiensi komputasi dan skalabilitas, membuat pendekatan ini dapat diterapkan pada kumpulan data besar dan dalam situasi di mana data posterior sulit untuk diterapkan.

Makalah 13: MEMORI JANGKA PENDEK PANJANG

link: Baca disini

Ringkasan Makalah

Makalah ini membahas tantangan belajar menyimpan informasi dalam interval waktu yang lama di jaringan saraf berulang. Ini memperkenalkan metode baru berbasis gradien yang efisien yang disebut “Memori Jangka Pendek Panjang” (LSTM), yang mengatasi masalah arus balik kesalahan yang tidak mencukupi dan membusuk. LSTM menerapkan aliran kesalahan konstan melalui “carousel kesalahan konstan” dan menggunakan unit gerbang perkalian untuk mengontrol akses. Dengan kompleksitas ruang-waktu lokal (O(1) per langkah waktu dan bobot), hasil eksperimen menunjukkan bahwa LSTM mengungguli algoritme yang ada dalam hal kecepatan pembelajaran dan tingkat keberhasilan, terutama untuk tugas dengan jeda waktu yang lama.

Wawasan Utama Makalah AI untuk Pengembang GenAI

Analisa masalah

Makalah ini memberikan analisis mendetail tentang tantangan yang terkait dengan arus balik kesalahan dalam jaringan saraf berulang, menyoroti masalah sinyal kesalahan yang meledak atau hilang seiring waktu.

Pengenalan LSTM

Penulis memperkenalkan LSTM sebagai arsitektur baru yang dirancang untuk mengatasi masalah hilangnya dan meledaknya sinyal kesalahan. LSTM menggabungkan aliran kesalahan konstan melalui unit khusus dan menggunakan unit gerbang multiplikatif untuk mengatur akses ke aliran kesalahan ini.

Hasil Eksperimental

Melalui eksperimen dengan data buatan, makalah ini menunjukkan bahwa LSTM mengungguli algoritme jaringan berulang lainnya, termasuk BPTT, RTRL, Korelasi kaskade berulang, jaring Elman, dan Neural Sequence Chunking. LSTM menunjukkan pembelajaran yang lebih cepat dan tingkat keberhasilan yang lebih tinggi, khususnya dalam menyelesaikan tugas-tugas kompleks dengan jeda waktu yang lama.

Lokal dalam Ruang dan Waktu

LSTM digambarkan sebagai arsitektur lokal dalam ruang dan waktu, dengan kompleksitas komputasi per langkah waktu dan bobot menjadi O(1).

Penerapan
Arsitektur LSTM yang diusulkan secara efektif menyelesaikan tugas-tugas jeda waktu lama yang kompleks dan buatan yang tidak berhasil diatasi oleh algoritma jaringan berulang sebelumnya.

Keterbatasan dan Keuntungan

Makalah ini membahas keterbatasan dan kelebihan LSTM, memberikan wawasan mengenai penerapan praktis arsitektur yang diusulkan.

Makalah 14: Mempelajari Model Visual yang Dapat Dipindahtangankan dari Pengawasan Bahasa Alami

link: Baca disini

Ringkasan Makalah

Makalah ini mengeksplorasi pelatihan sistem visi komputer canggih dengan belajar langsung dari teks mentah tentang gambar daripada mengandalkan kumpulan kategori objek yang telah ditentukan sebelumnya. Penulis mengusulkan tugas pra-pelatihan untuk memprediksi teks mana yang sesuai dengan gambar tertentu, menggunakan kumpulan data 400 juta pasangan (gambar, teks) yang dikumpulkan dari internet. Model yang dihasilkan, CLIP (Contrastive Language-Image Pre-training), menunjukkan pembelajaran representasi gambar yang efisien dan terukur. Setelah pra-pelatihan, bahasa alami mereferensikan konsep visual, memungkinkan transfer zero-shot ke berbagai tugas hilir. CLIP diukur pada lebih dari 30 kumpulan data visi komputer, menampilkan kinerja kompetitif tanpa pelatihan khusus tugas.

Wawasan Utama Makalah AI untuk Pengembang GenAI

Pelatihan Bahasa Alami untuk Computer Vision

Makalah ini mengeksplorasi penggunaan supervisi bahasa alami untuk melatih model visi komputer dibandingkan pendekatan pelatihan tradisional pada kumpulan data berlabel banyak seperti ImageNet.

Tugas Pra-pelatihanPenulis mengusulkan tugas pra-pelatihan yang sederhana: memprediksi teks mana yang sesuai dengan gambar tertentu. Tugas ini digunakan untuk mempelajari representasi gambar canggih dari awal pada kumpulan data besar yang terdiri dari 400 juta pasangan (gambar, teks) yang dikumpulkan secara online.

Transfer Nol Tembakan

Setelah pra-pelatihan, model menggunakan bahasa alami untuk mereferensikan konsep visual yang dipelajari atau mendeskripsikan konsep baru. Hal ini memungkinkan transfer zero-shot model ke tugas-tugas hilir tanpa memerlukan pelatihan set data tertentu.

Membandingkan Berbagai Tugas

Makalah ini mengevaluasi kinerja pendekatan yang diusulkan pada lebih dari 30 kumpulan data visi komputer yang berbeda, yang mencakup tugas-tugas seperti OCR, pengenalan tindakan dalam video, lokalisasi geografis, dan klasifikasi objek terperinci.

Kinerja Kompetitif

Model ini menunjukkan performa kompetitif dengan garis dasar yang diawasi sepenuhnya pada berbagai tugas, sering kali menyamai atau melampaui akurasi model yang dilatih pada kumpulan data khusus tugas tanpa pelatihan khusus kumpulan data tambahan.

Studi Skalabilitas

Penulis mempelajari skalabilitas pendekatan mereka dengan melatih serangkaian delapan model dengan tingkat sumber daya komputasi yang berbeda. Kinerja transfer ditemukan sebagai fungsi komputasi yang dapat diprediksi dengan lancar.

Kekokohan Model

Makalah ini menyoroti bahwa model CLIP zero-shot lebih kuat dibandingkan model ImageNet yang diawasi dengan akurasi setara, sehingga menunjukkan bahwa evaluasi zero-shot pada model task-agnostic memberikan ukuran yang lebih representatif atas kemampuan suatu model.

Makalah 15: LORA: ADAPTASI PERINGKAT RENDAH PADA MODEL BAHASA BESAR

link: Baca disini

Ringkasan Makalah

Makalah ini mengusulkan LoRA sebagai metode yang efisien untuk mengadaptasi model bahasa besar yang telah dilatih sebelumnya untuk tugas-tugas tertentu, mengatasi tantangan penerapan yang terkait dengan ukurannya yang semakin besar. Metode ini secara signifikan mengurangi parameter yang dapat dilatih dan kebutuhan memori GPU sekaligus mempertahankan atau meningkatkan kualitas model di berbagai tolok ukur. Implementasi sumber terbuka semakin memfasilitasi penerapan LoRA dalam aplikasi praktis.

Wawasan Utama Makalah AI untuk Pengembang GenAI

1. Pernyataan Masalah

Pra-pelatihan skala besar yang diikuti dengan penyesuaian adalah pendekatan umum dalam pemrosesan bahasa alami.
Penyempurnaan menjadi kurang layak dilakukan seiring bertambahnya ukuran model, terutama saat menerapkan model dengan parameter yang sangat besar, seperti GPT-3 (175 miliar parameter).

2. Solusi yang Diusulkan: Adaptasi Tingkat Rendah (LoRA)

Makalah ini memperkenalkan LoRA, sebuah metode yang membekukan bobot model yang telah dilatih sebelumnya dan memperkenalkan matriks dekomposisi peringkat yang dapat dilatih ke dalam setiap lapisan arsitektur Transformer.
LoRA secara signifikan mengurangi jumlah parameter yang dapat dilatih untuk tugas-tugas hilir dibandingkan dengan penyesuaian penuh.

3. Manfaat LoRA

Pengurangan Parameter: Dibandingkan dengan fine-tuning, LoRA dapat mengurangi jumlah parameter yang dapat dilatih hingga 10,000 kali lipat, sehingga membuatnya lebih efisien secara komputasi.
Efisiensi Memori: LoRA mengurangi kebutuhan memori GPU hingga 3 kali lipat dibandingkan dengan fine-tuning.
Kualitas Model: Meskipun memiliki lebih sedikit parameter yang dapat dilatih, kinerja LoRA setara atau lebih baik daripada penyesuaian dalam hal kualitas model pada berbagai model, termasuk RoBERTa, DeBERTa, GPT-2, dan GPT-3.

4. Mengatasi Tantangan Penerapan

Makalah ini menjawab tantangan penerapan model dengan banyak parameter dengan memperkenalkan LoRA, yang memungkinkan peralihan tugas secara efisien tanpa melatih ulang seluruh model.

5. Efisiensi dan Latensi Inferensi Rendah

LoRA memfasilitasi berbagi model terlatih untuk membangun beberapa modul LoRA untuk tugas yang berbeda, mengurangi kebutuhan penyimpanan dan overhead peralihan tugas.
Pelatihan menjadi lebih efisien, menurunkan hambatan masuk perangkat keras hingga 3 kali lipat saat menggunakan pengoptimal adaptif.

6. Kompatibilitas dan Integrasi

LoRA kompatibel dengan berbagai metode sebelumnya dan dapat digabungkan dengannya, seperti penyetelan awalan.
Desain linier yang diusulkan memungkinkan penggabungan matriks yang dapat dilatih dengan bobot beku selama penerapan, sehingga tidak menimbulkan latensi inferensi tambahan dibandingkan dengan model yang sepenuhnya disesuaikan.

7. Investigasi Empiris

Makalah ini mencakup penyelidikan empiris terhadap defisiensi peringkat dalam adaptasi model bahasa, yang memberikan wawasan tentang kemanjuran pendekatan LoRA.

8. Implementasi Sumber Terbuka

Penulis menyediakan paket yang memfasilitasi integrasi LoRA dengan model PyTorch dan merilis implementasi serta pos pemeriksaan model untuk RoBERTa, DeBERTa, dan GPT-2.

ANDA juga dapat membaca: Penyempurnaan Model Bahasa Besar yang Efisien Parameter dengan LoRA dan QLoRA

Kesimpulan

Sebagai kesimpulan, mempelajari 15 Makalah AI penting untuk pengembang GenAI yang disoroti dalam artikel ini bukan hanya sekedar rekomendasi tetapi juga keharusan strategis bagi setiap calon pengembang. Makalah AI ini menawarkan perjalanan komprehensif melalui beragam lanskap kecerdasan buatan, yang mencakup domain penting seperti pemrosesan bahasa alami, visi komputer, dan seterusnya. Dengan membenamkan diri dalam wawasan dan inovasi yang disajikan dalam makalah ini, pengembang mendapatkan pemahaman mendalam tentang teknik dan algoritma mutakhir di bidang ini.