AI dan Perangkat Lunak Sumber Terbuka: Terpisah Saat Lahir? - KDnuggets

Diterbitkan Ulang Oleh Plato

Followers: 0

AI dan Perangkat Lunak Sumber Terbuka: Terpisah Saat Lahir?
Gambar oleh Editor

Saya telah membaca, menulis, dan berbicara sejak akhir tahun lalu tentang titik temu antara perangkat lunak sumber terbuka dan pembelajaran mesin, mencoba memahami apa yang mungkin terjadi di masa depan.

Ketika saya mulai, saya berharap bahwa saya akan membahas lebih banyak tentang bagaimana perangkat lunak sumber terbuka digunakan oleh komunitas pembelajaran mesin. Namun semakin saya menjelajah, semakin saya menyadari bahwa ada banyak kesamaan antara kedua bidang praktik tersebut. Dalam artikel ini saya akan membahas beberapa persamaan tersebut — dan pembelajaran mesin apa yang dapat dan tidak dapat dipelajari dari perangkat lunak sumber terbuka.

Persamaannya yang mudah dan jelas adalah bahwa pembelajaran mesin modern dan perangkat lunak modern hampir seluruhnya dibangun dengan perangkat lunak sumber terbuka. Untuk perangkat lunak yaitu kompiler dan editor kode; untuk pembelajaran mesin, ini adalah kerangka pelatihan dan inferensi seperti PyTorch dan TensorFlow. Ruang-ruang ini didominasi oleh perangkat lunak sumber terbuka, dan tampaknya tidak ada yang siap mengubahnya.

Ada satu pengecualian penting untuk hal ini: semua kerangka kerja ini bergantung pada perangkat keras dan perangkat lunak Nvidia yang sangat eksklusif. Ini sebenarnya lebih paralel daripada yang terlihat pada awalnya. Untuk waktu yang lama, perangkat lunak sumber terbuka sebagian besar dijalankan pada sistem operasi Unix berpemilik, yang dijual oleh vendor perangkat keras berpemilik. Hanya setelah Linux hadir, kami mulai menganggap bahwa “bagian bawah” tumpukan yang terbuka bahkan mungkin dilakukan, dan banyak pengembangan terbuka yang dilakukan saat ini di MacOS dan Windows. Tidak jelas bagaimana hal ini akan diterapkan dalam pembelajaran mesin. Amazon (untuk AWS), Google (untuk cloud dan Android), dan Apple semuanya berinvestasi dalam chip dan tumpukan yang bersaing, dan ada kemungkinan bahwa satu atau lebih dari mereka dapat mengikuti jalur yang ditetapkan oleh Linus (dan Intel) membebaskan seluruh tumpukan.

Persamaan yang lebih penting antara cara perangkat lunak sumber terbuka dibuat dan cara pembelajaran mesin dibuat adalah kompleksitas dan ketersediaan publik dari data yang menjadi dasar pembuatan perangkat lunak tersebut.

Sebagaimana dirinci dalam hal ini pracetak kertas “The Data Provenance Project,” yang saya tulis bersama, pembelajaran mesin modern dibangun di atas ribuan sumber data, sama seperti perangkat lunak sumber terbuka modern dibangun di atas ratusan ribu perpustakaan. Dan sama seperti setiap perpustakaan terbuka yang mempunyai tantangan hukum, keamanan, dan pemeliharaan, setiap kumpulan data publik juga mempunyai kesulitan yang sama.

Di organisasi saya, kami telah membicarakan tantangan versi perangkat lunak sumber terbuka ini sebagai “rantai pasokan yang tidak disengaja.” Industri perangkat lunak mulai membangun sesuatu karena landasan perpustakaan sumber terbuka yang luar biasa memungkinkan kita untuk melakukannya. Hal ini berarti industri mulai memperlakukan perangkat lunak sumber terbuka sebagai rantai pasokan—yang mengejutkan banyak “pemasok” tersebut.

Untuk memitigasi tantangan ini, perangkat lunak sumber terbuka telah mengembangkan banyak teknik canggih (meskipun tidak sempurna), seperti pemindai untuk mengidentifikasi apa yang sedang digunakan, dan metadata untuk melacak sesuatu setelah penerapan. Kami juga mulai berinvestasi pada sumber daya manusia, untuk mencoba mengatasi ketidaksesuaian antara kebutuhan industri dan motivasi sukarelawan.

Sayangnya, komunitas pembelajaran mesin tampaknya siap untuk melakukan kesalahan rantai pasokan yang “tidak disengaja”—melakukan banyak hal semampu mereka, tanpa memikirkan dampak jangka panjangnya setelah seluruh perekonomian didasarkan pada kumpulan data ini. .

Paralel penting terakhir adalah saya sangat curiga bahwa pembelajaran mesin akan berkembang untuk mengisi banyak sekali ceruk, seperti halnya perangkat lunak sumber terbuka. Saat ini, hype (yang pantas) adalah tentang model generatif yang besar, tetapi ada juga banyak model kecil di luar sana, serta penyesuaian pada model yang lebih besar. Memang benar, situs hosting HuggingFace, platform hosting utama pembelajaran mesin, melaporkan jumlah model di situs mereka tumbuh secara eksponensial.

Model-model ini kemungkinan besar akan banyak dan tersedia untuk perbaikan, seperti halnya perangkat lunak sumber terbuka. Itu akan membuat mereka sangat fleksibel dan kuat. Saya menggunakan alat kecil berbasis pembelajaran mesin untuk melakukan pengukuran lalu lintas yang murah dan sensitif terhadap privasi di jalan saya, misalnya, kasus penggunaan yang tidak mungkin dilakukan kecuali pada perangkat mahal beberapa tahun yang lalu.

Namun proliferasi ini berarti bahwa model-model tersebut perlu dilacak—model-modelnya mungkin tidak lagi menyerupai mainframe dan lebih mirip perangkat lunak sumber terbuka atau SaaS, yang muncul di mana-mana karena biayanya yang rendah dan kemudahan penerapannya.

Jadi, jika terdapat kesamaan penting ini (khususnya rantai pasokan yang kompleks dan distribusi yang berkembang pesat), apa yang dapat dipelajari oleh pembelajaran mesin dari perangkat lunak sumber terbuka?

Pelajaran paralel pertama yang dapat kita ambil adalah bahwa untuk memahami banyak tantangannya, pembelajaran mesin memerlukan metadata dan alat. Perangkat lunak sumber terbuka tersandung pada pekerjaan metadata karena kepatuhan hak cipta dan lisensi, namun seiring dengan semakin matangnya rantai pasokan perangkat lunak, metadata telah terbukti sangat berguna di berbagai bidang.

Dalam pembelajaran mesin, pelacakan metadata masih dalam proses. Beberapa contoh:

A makalah kunci 2019, yang dikutip secara luas di industri ini, mendesak para pengembang model untuk mendokumentasikan pekerjaan mereka dengan “kartu model.” Sayangnya, penelitian terbaru menunjukkan hal tersebut implementasi di alam masih lemah.
Spesifikasi bill of material (SBOM) perangkat lunak SPDX dan CycloneDX bekerja pada AI bill of material (AI BOM) untuk membantu melacak data dan model pembelajaran mesin, dengan cara yang lebih terstruktur daripada kartu model (sesuai dengan kompleksitas yang diharapkan jika ini benar-benar melakukan perangkat lunak sumber terbuka paralel).
HuggingFace telah dibuat berbagai spesifikasi dan alat untuk memungkinkan penulis model dan kumpulan data mendokumentasikan sumbernya.
Makalah MIT Data Provenance yang dikutip di atas mencoba memahami “kebenaran dasar” dari lisensi data, untuk membantu menyempurnakan spesifikasinya dengan data dunia nyata.
Secara anekdot, banyak perusahaan yang melakukan pelatihan pembelajaran mesin tampaknya memiliki hubungan biasa-biasa saja dengan pelacakan data, menggunakan “lebih banyak lebih baik” sebagai alasan untuk memasukkan data ke dalam hopper tanpa harus melacaknya dengan baik.

Jika kita telah belajar sesuatu dari pengalaman terbuka, maka mendapatkan metadata yang benar (pertama, spesifikasi, lalu data aktual) akan menjadi proyek bertahun-tahun dan mungkin memerlukan waktu yang lama. intervensi pemerintah. pembelajaran mesin harus mengambil alih metadata tersebut secepatnya.

Keamanan juga menjadi pendorong utama permintaan metadata perangkat lunak sumber terbuka—jika Anda tidak tahu apa yang sedang Anda jalankan, Anda tidak akan tahu apakah Anda rentan terhadap aliran serangan yang tampaknya tak ada habisnya.

Pembelajaran mesin tidak rentan terhadap sebagian besar jenis serangan perangkat lunak tradisional, namun bukan berarti pembelajaran mesin kebal. (Contoh favorit saya adalah hal itu mungkin dilakukan set pelatihan gambar racun karena mereka sering mengambil dari domain mati.) Penelitian di bidang ini cukup menarik sehingga kita telah melampaui “bukti konsep” dan menjadi “ada cukup banyak serangan yang dapat daftar dan membuat taksonomi. "

Sayangnya, perangkat lunak sumber terbuka tidak dapat memberikan solusi ajaib apa pun kepada pembelajaran mesin untuk keamanan—jika kami memilikinya, kami akan menggunakannya. Namun sejarah bagaimana perangkat lunak sumber terbuka menyebar ke banyak bidang menunjukkan bahwa pembelajaran mesin harus menanggapi tantangan ini dengan serius, dimulai dengan pelacakan penggunaan dan metadata penerapan, karena hal ini kemungkinan besar akan diterapkan dalam banyak cara di luar yang ada saat ini. dikerahkan.

Motivasi yang mendorong metadata open source (perizinan, kemudian keamanan) mengarah pada persamaan penting berikutnya: seiring dengan semakin pentingnya suatu sektor, cakupan hal-hal yang harus diukur dan dilacak akan meluas, karena regulasi dan tanggung jawab akan meluas.

Dalam perangkat lunak sumber terbuka, “peraturan” utama pemerintah selama bertahun-tahun adalah undang-undang hak cipta, sehingga metadata dikembangkan untuk mendukung hal tersebut. Namun perangkat lunak sumber terbuka kini menghadapi berbagai aturan keamanan dan tanggung jawab produk—dan kita harus mematangkan rantai pasokan untuk memenuhi persyaratan baru tersebut.

AI juga akan diatur dengan berbagai cara seiring dengan semakin pentingnya hal ini. Sumber regulasi akan sangat beragam, termasuk konten (input dan output), diskriminasi, dan pertanggungjawaban produk. Hal ini memerlukan apa yang kadang-kadang disebut “Ketertelusuran”—memahami bagaimana model dibangun, dan bagaimana pilihan tersebut (termasuk sumber data) berdampak pada hasil model.

Persyaratan inti ini—apa yang kita miliki? bagaimana hal ini bisa terjadi?—sekarang sangat familiar bagi pengembang perangkat lunak sumber terbuka perusahaan. Namun, ini mungkin merupakan perubahan radikal bagi pengembang pembelajaran mesin dan perlu diterapkan.

Pembelajaran paralel lainnya yang dapat diambil pembelajaran mesin dari perangkat lunak sumber terbuka (dan tentu saja dari banyak gelombang perangkat lunak sebelumnya, setidaknya sejak mainframe) adalah bahwa masa manfaatnya akan sangat, sangat panjang. Ketika suatu teknologi “cukup baik”, maka teknologi tersebut akan diterapkan dan oleh karena itu harus dipertahankan untuk jangka waktu yang sangat lama. Hal ini menyiratkan bahwa kita harus memikirkan pemeliharaan perangkat lunak ini sedini mungkin, dan memikirkan dampaknya agar perangkat lunak ini dapat bertahan selama beberapa dekade. “Dekade” tidaklah berlebihan; banyak pelanggan yang saya temui menggunakan perangkat lunak yang cukup tua untuk memilih. Banyak perusahaan perangkat lunak sumber terbuka, dan beberapa proyek, kini memiliki apa yang disebut versi “Dukungan Jangka Panjang” yang ditujukan untuk kasus penggunaan semacam ini.

Sebaliknya, OpenAI tetap menyediakan alat Codex mereka selama kurang dari dua tahun—menimbulkan banyak kemarahan, terutama di kalangan akademisi. Mengingat cepatnya perubahan dalam pembelajaran mesin, dan bahwa sebagian besar pengguna mungkin tertarik untuk menggunakan teknologi yang paling mutakhir, hal ini mungkin bukan hal yang tidak masuk akal—tetapi saatnya akan tiba, lebih cepat dari perkiraan industri, dimana industri perlu merencanakan hal ini. semacam “jangka panjang”—termasuk bagaimana hal itu berinteraksi dengan tanggung jawab dan keamanan.

Pada akhirnya, jelas bahwa—seperti perangkat lunak sumber terbuka—akan ada banyak dana yang mengalir ke pembelajaran mesin, namun sebagian besar dana tersebut akan dikumpulkan berdasarkan apa yang disebut oleh seorang penulis. perusahaan “kaya prosesor”. Jika persamaan dengan perangkat lunak sumber terbuka diterapkan, perusahaan-perusahaan tersebut akan memiliki kekhawatiran dan prioritas pembelanjaan yang sangat berbeda dibandingkan median pembuat (atau pengguna) model.

Perusahaan kami, Tidelift, telah memikirkan masalah insentif dalam perangkat lunak sumber terbuka selama beberapa waktu, dan entitas seperti pembeli perangkat lunak terbesar di dunia—pemerintah AS—sedang memikirkan masalah ini. juga melihat masalahnya.

Perusahaan pembelajaran mesin, terutama yang ingin menciptakan komunitas pembuat konten, harus berpikir keras menghadapi tantangan ini. Jika mereka bergantung pada ribuan kumpulan data, bagaimana mereka memastikan kumpulan data tersebut didanai untuk pemeliharaan, kepatuhan hukum, dan keamanan, selama beberapa dekade? Jika perusahaan-perusahaan besar mempunyai puluhan atau ratusan model yang diterapkan di seluruh perusahaan, bagaimana mereka dapat memastikan bahwa mereka yang memiliki pengetahuan khusus terbaik—mereka yang menciptakan model—masih ada untuk mengatasi masalah-masalah baru yang ditemukan?

Seperti halnya keamanan, tidak ada jawaban mudah untuk tantangan ini. Namun semakin cepat pembelajaran mesin menangani masalah ini dengan serius—bukan sebagai tindakan amal, namun sebagai komponen kunci pertumbuhan jangka panjang—keseluruhan industri, dan seluruh dunia, akan menjadi lebih baik.

Akar pembelajaran mesin yang kuat pada budaya eksperimentalisme akademisi, dan budaya iterasi cepat di Silicon Valley, telah memberikan manfaat yang baik, sehingga menghasilkan ledakan inovasi luar biasa yang akan menghasilkan ledakan inovasi yang luar biasa. tampak ajaib kurang dari satu dekade yang lalu. Kursus perangkat lunak open source dalam satu dekade terakhir mungkin kurang menarik, namun pada saat itu, open source telah menjadi landasan bagi semua perangkat lunak perusahaan—dan memetik banyak pelajaran dalam prosesnya. Semoga pembelajaran mesin tidak menemukan kembali roda tersebut.

Luis Vila adalah salah satu pendiri dan penasihat umum di Tidelift. Sebelumnya dia adalah seorang pengacara open source terkemuka yang memberikan nasihat kepada klien, mulai dari perusahaan Fortune 50 hingga startup terkemuka, mengenai pengembangan produk dan lisensi open source.