Необхідно прочитати: 15 важливих документів щодо штучного інтелекту для розробників GenAI

Необхідно прочитати: 15 важливих документів щодо штучного інтелекту для розробників GenAI

Вихідний вузол: 3088279

Вступ

Оскільки галузь штучного інтелекту (ШІ) продовжує рости та розвиватися, для початківців розробників ШІ стає все важливішим бути в курсі останніх досліджень і досягнень. Один із найкращих способів зробити це — прочитати документи AI Papers для розробників GenAI, які містять цінну інформацію про передові методи та алгоритми. У цій статті буде розглянуто 15 важливих документів щодо штучного інтелекту для розробників GenAI. Ці статті охоплюють різні теми, від обробки природної мови до комп’ютерного зору. Вони покращать ваше розуміння штучного інтелекту та підвищать ваші шанси отримати першу роботу в цій захоплюючій сфері.

Важливість документів про AI для розробників GenAI

Документи AI Papers для розробників GenAI дозволяють дослідникам і експертам ділитися своїми висновками, методологіями та досягненнями з широким співтовариством. Читаючи ці документи, ви отримуєте доступ до найновіших досягнень у галузі штучного інтелекту, що дозволяє залишатися попереду та приймати зважені рішення у своїй роботі. Крім того, у документах AI Papers для розробників GenAI часто надаються детальні пояснення алгоритмів і методів, що дає вам глибше розуміння того, як вони працюють і як їх можна застосувати до реальних проблем.

Читання AI Papers для розробників GenAI дає кілька переваг для початківців розробників AI. По-перше, це допомагає вам бути в курсі останніх досліджень і тенденцій у цій галузі. Ці знання є вирішальними при поданні заявки на роботу, пов’язану зі штучним інтелектом, оскільки роботодавці часто шукають кандидатів, знайомих з останніми досягненнями. Крім того, читання статей про штучний інтелект дозволяє розширити свої знання та отримати глибше розуміння концепцій і методологій штучного інтелекту. Ці знання можна застосувати до ваших проектів і досліджень, що зробить вас більш компетентним і досвідченим розробником ШІ.

Документи AI для розробників GenAI

Зміст

Папір 1: Трансформери: увага — це все, що вам потрібно

посилання: Читайте тут

Документи AI для розробників GenAI

Резюме статті

Стаття представляє Transformer, нову архітектуру нейронної мережі для завдань перетворення послідовності, таких як машинний переклад. На відміну від традиційних моделей, заснованих на рекурентних або згорткових нейронних мережах, Transformer покладається виключно на механізми уваги, усуваючи потребу в рекурентності та згортках. Автори стверджують, що ця архітектура пропонує чудову продуктивність з точки зору якості перекладу, підвищеної можливості розпаралелювання та скорочення часу навчання.

Ключові ідеї AI Papers для розробників GenAI

  1. Механізм уваги

    Transformer повністю побудований на механізмах уваги, що дозволяє йому вловлювати глобальні залежності між вхідними та вихідними послідовностями. Цей підхід дозволяє моделі розглядати зв’язки, не обмежуючись відстанню між елементами в послідовностях.
  1. Паралелізація

    Однією з головних переваг архітектури Transformer є її підвищена можливість розпаралелювання. Традиційні рекурентні моделі страждають від послідовного обчислення, що ускладнює розпаралелювання. Конструкція Transformer забезпечує більш ефективну паралельну обробку під час навчання, скорочуючи час навчання.

  1. Найвища якість і ефективність

    У статті наведено експериментальні результати щодо завдань машинного перекладу, які демонструють, що Transformer забезпечує кращу якість перекладу порівняно з існуючими моделями. Він значно перевершує попередні найсучасніші результати, включно з комплектними моделями. Крім того, Transformer досягає цих результатів за значно менше часу на навчання.
  1. Продуктивність перекладу

    У завданні перекладу з англійської на німецьку WMT 2014 запропонована модель досягає оцінки BLEU 28.4, перевищуючи наявні найкращі результати більш ніж на 2 BLEU. Для завдання з англійської на французьку модель встановлює нову сучасну оцінку BLEU для однієї моделі 41.8 після навчання лише 3.5 дня на восьми графічних процесорах.
  1. Узагальнення до інших задачАвтори демонструють, що архітектура Transformer добре узагальнюється для завдань, окрім машинного перекладу. Вони успішно застосували модель до синтаксичного аналізу англійської групи, показавши її адаптивність до різних проблем трансдукції послідовності.

Папір 2: BERT: Попереднє навчання глибоких двонаправлених трансформаторів для розуміння мови

посилання: Читайте тут

Документи AI для розробників GenAI

Резюме статті

Попереднє навчання мовної моделі довело ефективність для вдосконалення різних завдань обробки природної мови. У статті розрізняють підходи, засновані на функціях, і підходи до тонкого налаштування для застосування попередньо навчених представлень мови. BERT введено для усунення обмежень у підходах до точного налаштування, зокрема обмеження односпрямованості стандартних мовних моделей. У документі пропонується мета попереднього навчання «Модель замаскованої мови» (MLM), натхненна завданням Cloze, щоб забезпечити двонаправлене представлення. Завдання «прогнозування наступного речення» також використовується для спільного попереднього навчання уявлень текстових пар.

Ключові ідеї AI Papers для розробників GenAI

  1. Важливість двонаправленого попереднього навчання

    Стаття підкреслює важливість двонаправленого попереднього навчання для мовних репрезентацій. На відміну від попередніх моделей, BERT використовує масковані мовні моделі для забезпечення глибоких двонаправлених представлень, перевершуючи однонаправлені мовні моделі, які використовувалися в попередніх роботах.
  1. Зменшення архітектур, орієнтованих на завдання

    BERT демонструє, що попередньо підготовлені представлення зменшують потребу в інтенсивно розроблених архітектурах для конкретних завдань. Це перша модель представлення на основі тонкого налаштування, яка забезпечує найсучаснішу продуктивність у різноманітному діапазоні завдань на рівні речень і маркерів, перевершуючи архітектури для конкретних завдань.
  1. Найсучасніші досягнення

    BERT досягає нових найсучасніших результатів в одинадцяти завданнях обробки природної мови, демонструючи свою універсальність. Помітні покращення включають суттєве підвищення оцінки GLUE, точність MultiNLI та вдосконалення завдань із відповідями на питання SQuAD v1.1 і v2.0.

Ви також можете прочитати: Точне налаштування BERT з моделюванням маскової мови

Папір 3: GPT: мовні моделі мало хто вивчає

посилання: Читайте тут

Документи AI для розробників GenAI

Резюме статті

У статті обговорюються покращення, досягнуті в задачах обробки природної мови (NLP) шляхом збільшення мовних моделей, зосереджуючись на GPT-3 (Generative Pre-trained Transformer 3), модель авторегресійної мови зі 175 мільярдами параметрів. Автори підкреслюють, що поки нещодавно НЛП моделі демонструють суттєві переваги завдяки попередньому навчанню та тонкому налаштуванню, їм часто потрібні набори даних із тисячами прикладів для точного налаштування. Навпаки, люди можуть виконувати нові мовні завдання за допомогою кількох прикладів або простих інструкцій.

Ключові ідеї AI Papers для розробників GenAI

  1. Масштабування покращує продуктивність кількох знімків

    Автори демонструють, що збільшення масштабу мовних моделей значно покращує продуктивність, що не залежить від виконання завдань. GPT-3 із великим розміром параметрів іноді досягає конкурентоспроможності за допомогою найсучасніших підходів тонкого налаштування без тонкого налаштування конкретного завдання чи оновлення градієнта.

  2. Широке застосування

    GPT-3 демонструє високу продуктивність у різних завданнях NLP, включаючи переклад, відповіді на запитання, закриті завдання та завдання, що вимагають миттєвого обґрунтування або адаптації домену.
  3. Виклики та обмеження

    У той час як GPT-3 демонструє надзвичайну здатність до короткочасного навчання, автори визначають набори даних, де це важко, і висвітлюють методологічні проблеми, пов’язані з навчанням у великих веб-корпусах.
  4. Генерація статей, подібних до людини

    GPT-3 може генерувати новинні статті, які оцінювачам важко відрізнити від статей, написаних людьми.
  5. Вплив на суспільство та ширші міркування

    У статті обговорюється ширший суспільний вплив можливостей GPT-3, зокрема у створенні тексту, схожого на людину. Наслідки його виконання в різних завданнях розглядаються з точки зору практичного застосування та потенційних проблем.
  6. Обмеження сучасних підходів НЛП

    Автори підкреслюють обмеження поточних підходів до НЛП, зокрема їх залежність від тонкого налаштування наборів даних для конкретних завдань, що створює такі проблеми, як вимога до великих наборів даних із мітками та ризик перенастроювання для вузького розподілу завдань. Крім того, виникають занепокоєння щодо здатності цих моделей до узагальнення поза межами їхнього розподілу навчання.

Папір 4: CNN: Класифікація ImageNet із глибокими згортковими нейронними мережами

посилання: Читайте тут

Документи AI для розробників GenAI

Резюме статті

У статті описується розробка та навчання великої глибокої згорткової нейронної мережі (CNN) для класифікації зображень на наборах даних ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Модель досягає значних покращень у точності класифікації порівняно з попередніми сучасними методами.

Ключові ідеї AI Papers для розробників GenAI

  1. Архітектура моделі

    Нейронна мережа, яка використовується в дослідженні, являє собою глибоку CNN з 60 мільйонами параметрів і 650,000 1000 нейронів. Він складається з п’яти згорткових шарів, за деякими з яких ідуть шари з максимальним об’єднанням і три повністю з’єднані шари з остаточним XNUMX-стороннім softmax для класифікації.

  1. Дані навчання

    Модель тренується на значному наборі даних із 1.2 мільйона зображень високої роздільної здатності з конкурсу ImageNet ILSVRC-2010. Процес навчання передбачає класифікацію зображень на 1000 різних класів.
  1. продуктивність

    Модель досягає рівня помилок у топ-1 і топ-5 37.5% і 17.0% за даними тестування відповідно. Ці показники помилок значно кращі, ніж попередній стан техніки, що вказує на ефективність запропонованого підходу.

  1. Покращення в переобладнанні

    У документі представлено кілька методів вирішення проблем із переобладнанням, включаючи нейрони з ненасиченістю, ефективну реалізацію графічного процесора для швидшого навчання та метод регулярізації, який називається «випаданням» у повністю зв’язаних шарах.
  2. Обчислювальна ефективність

    Незважаючи на обчислювальні вимоги до навчання великих CNN, у статті зазначається, що поточні графічні процесори та оптимізовані реалізації роблять можливим навчання таких моделей на зображеннях з високою роздільною здатністю.

  1. Внески

    У документі висвітлюється внесок дослідження, включаючи навчання однієї з найбільших згорткових нейронних мереж на наборах даних ImageNet і досягнення найсучасніших результатів у змаганнях ILSVRC.

Ви також можете прочитати: Комплексний посібник із вивчення згорткових нейронних мереж

Папір 5: GATs: графічні мережі уваги

посилання: Читайте тут

Документи AI для розробників GenAI

Резюме статті

У статті представлено архітектуру на основі уваги для класифікації вузлів у структурованих на графах даних, демонструючи її ефективність, універсальність і конкурентоспроможність у різних тестах. Включення механізмів уваги виявляється потужним інструментом для обробки довільно структурованих графіків.

Ключові ідеї AI Papers для розробників GenAI

  1. Графік мережі уваги (GATs)GAT використовують замасковані шари самоуважності для усунення обмежень у попередніх методах, заснованих на згортках графів. Архітектура дозволяє вузлам стежити за функціями свого оточення, неявно вказуючи різні ваги для різних вузлів, не покладаючись на дорогі матричні операції чи апріорне знання структури графа.
  1. Вирішення проблем на основі спектру

    GAT одночасно вирішують кілька проблем у нейронних мережах на основі спектральних графів. Завдання Graph Attention Network (GAT) включають просторово локалізовані фільтри, інтенсивні обчислення та непросторово локалізовані фільтри. Крім того, GAT залежать від власного базису Лапласа, що сприяє їх застосуванню до індуктивних і трансдуктивних задач.
  1. Ефективність у тестах

    Моделі GAT досягають або збігаються з найсучаснішими результатами за чотирма встановленими еталонними показниками графіків: наборами даних мережі цитування Cora, Citeseer і Pubmed, а також набором даних взаємодії білок-білок. Ці тести охоплюють як трансдуктивні, так і індуктивні сценарії навчання, демонструючи універсальність GATs.
  1. Порівняння з попередніми підходами

    Стаття містить вичерпний огляд попередніх підходів, включаючи рекурсивні нейронні мережі, Графічні нейронні мережі (ГНМ), спектральні та неспектральні методи та механізми уваги. GAT включають механізми уваги, що забезпечує ефективне розпаралелювання між парами вузол-сусід і застосування до вузлів з різними ступенями.
  1. Ефективність і застосовністьGAT пропонують розпаралелювану ефективну операцію, яку можна застосувати до вузлів графа з різними ступенями, вказуючи довільні ваги для сусідів. Модель безпосередньо застосовується до завдань індуктивного навчання, що робить її придатною для завдань, де потрібно узагальнювати абсолютно невидимі графіки.
  1. Відношення до попередніх моделей

    Автори зазначають, що GAT можна переформулювати як окремий екземпляр MoNet, мати схожість з реляційними мережами та підключатися до робіт, які використовують операції уваги сусідства. Запропонована модель уваги порівнюється з подібними підходами, такими як Duan et al. (2017) і Denil et al. (2017).

Папір 6: ViT: зображення варте 16 × 16 слів: трансформатори для розпізнавання зображень у масштабі

посилання: Читайте тут

Документи AI для розробників GenAI

Резюме статті

У документі визнається домінування згорткових архітектур у комп’ютерному зорі, незважаючи на успіх архітектур Transformer у обробці природної мови. Натхненні ефективністю та масштабованістю трансформаторів у НЛП, автори застосували стандартний трансформатор безпосередньо до зображень із мінімальними модифікаціями.

Вони представляють Трансформатор зору (ViT), де зображення розбиваються на патчі, а послідовність лінійних вбудовувань цих патчів служить вхідними даними для Transformer. Модель тренується виконувати завдання класифікації зображень під наглядом. Спочатку, під час навчання на наборах даних середнього розміру, таких як ImageNet, без сильної регуляризації, ViT досягає точності, трохи нижчої порівняно з ResNet.

Однак автори показують, що широкомасштабне навчання має вирішальне значення для успіху ViT, перевершуючи обмеження, накладені відсутністю певних індуктивних упереджень. Після попереднього навчання на масивних наборах даних ViT перевершує найсучасніші згорткові мережі за кількома тестами, включаючи ImageNet, CIFAR-100 і VTAB. У статті підкреслюється вплив масштабування на досягнення чудових результатів за допомогою архітектур Transformer у комп’ютерному зорі.

Ключові ідеї AI Papers для розробників GenAI

  1. Трансформатор в комп'ютерний зір

    Стаття ставить під сумнів переважну залежність від згорткових нейронних мереж (CNN) для завдань комп’ютерного зору. Це демонструє, що чистий трансформатор, застосований безпосередньо до послідовностей патчів зображень, може досягти чудової продуктивності в завданнях класифікації зображень.
  1. Трансформатор зору (ViT)

    Автори представляють Vision Transformer (ViT), модель, яка використовує механізми самоуважності, схожі на Transformers у НЛП. ViT може досягти конкурентоспроможних результатів у різних тестах розпізнавання зображень, включаючи ImageNet, CIFAR-100 і VTAB.
  1. Попереднє навчання та трансферне навчання

    У статті наголошується на важливості попереднього навчання на великих обсягах даних, подібно до підходу в НЛП, а потім перенесення вивчених уявлень до конкретних завдань розпізнавання зображень. Після попереднього навчання на масивних наборах даних, таких як ImageNet-21k або JFT-300M, ViT перевершує найсучасніші згорткові мережі за різними тестами.
  1. Обчислювальна ефективністьViT досягає чудових результатів із значно меншими обчислювальними ресурсами під час навчання, ніж найсучасніші згорткові мережі. Ця ефективність особливо помітна, коли модель попередньо навчена у великому масштабі.
  1. Вплив масштабування

    У статті підкреслюється важливість масштабування для досягнення чудової продуктивності за допомогою архітектур Transformer у комп’ютерному зорі. Широкомасштабне навчання на наборах даних, що містять від мільйонів до сотень мільйонів зображень, допомагає ViT подолати відсутність деяких індуктивних упереджень, присутніх у CNN.

Папір 7: AlphaFold2: Високоточна структура білка за допомогою AlphaFold

посилання: Читайте тут

Документи AI для розробників GenAI

Резюме статті

Стаття «AlphaFold2: Високоточна білкова структура з AlphaFold» представляє AlphaFold2, модель глибокого навчання, яка точно прогнозує білкові структури. AlphaFold2 використовує нову архітектуру на основі уваги та досягає прориву в згортанні білка.

Ключові ідеї AI Papers для розробників GenAI

  • AlphaFold2 використовує глибоку нейронну мережу з механізмами уваги, щоб передбачити тривимірну структуру білків за їхніми амінокислотними послідовностями.
  • Модель була навчена на великому наборі даних відомих білкових структур і досягла безпрецедентної точності в 14-му змаганні зі згортання білка в рамках 14-го критичного оцінювання прогнозування структури білка (CASPXNUMX).
  • Точні прогнози AlphaFold2 потенційно можуть революціонізувати відкриття ліків, білкову інженерію та інші галузі біохімії.

Документ 8: GAN: генеративні змагальні мережі

посилання: Читайте тут

Документи AI для розробників GenAI

Резюме статті

У документі розглядаються проблеми навчання глибоких генеративних моделей і вводиться інноваційний підхід під назвою «конкурентні мережі». У цій структурі генеративні та дискримінаційні моделі беруть участь у грі, де генеративна модель прагне створити зразки, які неможливо відрізнити від реальних даних. Навпаки, дискримінаційна модель розрізняє реальні та згенеровані вибірки. Змагальний процес навчання веде до унікального рішення, коли генеративна модель відновлює розподіл даних.

Ключові ідеї AI Papers для розробників GenAI

  1. Змагальність

    Автори вводять змагальну структуру, де одночасно навчаються дві моделі — генеративна модель (G), яка фіксує розподіл даних, і дискримінаційна модель (D), яка оцінює ймовірність того, що вибірка походить із навчальних даних, а не з генеративної моделі.
  1. Гра МінімаксПроцедура навчання передбачає максимізацію ймовірності помилки дискримінаційної моделі. Цей фреймворк сформульований як мінімаксна гра для двох гравців, де генеративна модель має на меті генерувати зразки, які неможливо відрізнити від реальних даних, а дискримінаційна модель має на меті класифікувати, чи є вибірка реальною чи згенерованою правильно.
  1. Унікальне рішення

    Існує унікальне рішення в довільних функціях для G і D, де G відновлює розподіл навчальних даних, а D скрізь дорівнює 1/2. Ця рівновага досягається через змагальний процес навчання.
  1. Багатошарові персептрони (MLP)Автори демонструють, що всю систему можна навчити за допомогою зворотного поширення, коли багатошарові персептрони представляють G і D. Це усуває потребу в ланцюгах Маркова або розгорнутих наближених мережах висновків під час навчання та генерації вибірок.
  1. Немає приблизного висновку

    Запропонована структура дозволяє уникнути труднощів апроксимації складних імовірнісних обчислень в оцінці максимальної правдоподібності. Він також долає труднощі у використанні переваг кусково-лінійних одиниць у генеративному контексті.

Папір 9: RoBERTa: надійно оптимізований підхід до підготовки BERT

посилання: Читайте тут

Документи AI для розробників GenAI

Резюме статті

У документі розглядається проблема недостатнього навчання BERT і представлено RoBERTa, оптимізовану версію, яка перевершує продуктивність BERT. Зміни в процедурі навчання RoBERTa та використання нового набору даних (CC-NEWS) сприяють отриманню найсучасніших результатів у багатьох завданнях обробки природної мови. Отримані результати підкреслюють важливість вибору дизайну та стратегій навчання для ефективності попереднього навчання моделі мови. Опубліковані ресурси, включаючи модель і код RoBERTa, сприяють дослідницькому співтовариству.

Ключові ідеї AI Papers для розробників GenAI

  1. BERT Недостатнє навчання

    Це знаходять автори БЕРТ, широко вживана мовна модель, була значно недоопрацьована. Ретельно оцінюючи вплив налаштування гіперпараметрів і розмір набору для навчання, вони показують, що BERT можна покращити, щоб відповідати або перевищувати продуктивність усіх моделей, опублікованих після нього.
  1. Покращений тренувальний рецепт (RoBERTa)

    Автори вносять модифікації в процедуру навчання BERT, що призводить до RoBERTa. Ці зміни включають подовжені періоди навчання з більшими партіями, усунення цілі передбачення наступного речення, навчання на більш довгих послідовностях і коригування шаблону динамічного маскування для навчальних даних.
  1. Внесок набору данихУ документі представлено новий набір даних під назвою CC-NEWS, розмір якого можна порівняти з іншими наборами даних, що використовуються в приватному порядку. Включення цього набору даних допомагає краще контролювати ефекти розміру навчального набору та сприяє покращенню продуктивності на подальших завданнях.
  1. Досягнення продуктивності

    RoBERTa із запропонованими модифікаціями досягає найсучасніших результатів у різних тестових завданнях, зокрема GLUE, RACE і SQuAD. Він відповідає або перевищує продуктивність усіх методів після BERT для таких завдань, як MNLI, QNLI, RTE, STS-B, SQuAD і RACE.
  1. Конкурентоспроможність попередньої підготовки моделі маскової мови

    У документі підтверджується, що ціль попереднього навчання моделі замаскованої мови з правильним вибором дизайну є конкурентоспроможною з іншими нещодавно запропонованими цілями навчання.
  1. Випущені ресурси

    Автори випускають свою модель RoBERTa разом із кодом попереднього навчання та тонкого налаштування, реалізованим у PyTorch, що сприяє відтворюваності та подальшому дослідженню їхніх висновків.

Також читайте: Делікатне знайомство з RoBERTa

Стаття 10: NeRF: представлення сцен як полів нейронного випромінювання для синтезу зору

посилання: Читайте тут

Документи AI для розробників GenAI

Резюме статті

Оптимізація передбачає мінімізацію похибок між спостережуваними зображеннями з відомими позами камери та видами, отриманими з безперервного представлення сцени. У документі розглядаються проблеми, пов’язані з конвергенцією та ефективністю, запроваджуючи позиційне кодування для обробки високочастотних функцій і пропонуючи процедуру ієрархічної вибірки, щоб зменшити кількість запитів, необхідних для адекватної вибірки.

Ключові ідеї AI Papers для розробників GenAI

  1. Безперервне представлення сцени

    У статті представлено метод представлення складних сцен як 5D нейронних полів випромінювання з використанням основних мереж багаторівневих персептронів (MLP).
  1. Диференційована візуалізація

    Запропонована процедура візуалізації базується на класичних методах об’ємної візуалізації, що дозволяє оптимізувати на основі градієнта за допомогою стандартних зображень RGB.
  1. Стратегія ієрархічної вибірки

    Запроваджено стратегію ієрархічної вибірки, щоб оптимізувати пропускну здатність MLP щодо областей із видимим вмістом сцени, вирішуючи проблеми конвергенції.
  1. Позиційне кодуванняВикористання позиційного кодування для відображення вхідних 5D-координат у просторі з більшою вимірністю дозволяє успішно оптимізувати поля нейронного випромінювання для високочастотного вмісту сцени.

Запропонований метод перевершує найсучасніші підходи до синтезу представлень, включаючи підгонку нейронних 3D-представлень і навчання глибоких згорткових мереж. У цьому документі представлено безперервне представлення нейронної сцени для рендерингу фотореалістичних нових видів високої роздільної здатності із зображень RGB у природних умовах із додатковими порівняннями, продемонстрованими в додатковому відео, щоб підкреслити його ефективність у обробці складної геометрії сцени та зовнішнього вигляду.

Папір 11: FunSearch: Математичні відкриття програмного пошуку за допомогою великих мовних моделей

посилання: Читайте тут

Документи AI для розробників GenAI

Резюме статті

Стаття представляє FunSearch, новий підхід до використання великих мовних моделей (LLM) для вирішення складних проблем, зокрема в наукових відкриттях. Основною проблемою, яка розглядається, є виникнення конфабуляцій (галюцинацій) у LLM, що призводить до правдоподібних, але невірних тверджень. FunSearch поєднує в собі попередньо підготовленого магістра права та систематичного оцінювача в рамках еволюційної процедури, щоб подолати це обмеження.

Ключові ідеї AI Papers для розробників GenAI

  1. Вирішення проблем з LLM

    У статті розглядається питання про те, що магістратури обговорюють або не можуть генерувати нові ідеї та правильні рішення для складних проблем. Це підкреслює важливість пошуку нових, перевірених правильних ідей, особливо для математичних і наукових завдань.

  1. Еволюційна процедура – ​​FunSearch

    FunSearch поєднує попередньо підготовленого LLM з оцінювачем у еволюційному процесі. Він ітеративно перетворює програми з низькими балами в програми з високими, забезпечуючи відкриття нових знань. Процес включає підказки найкращого кадру, розвиток скелетів програм, підтримку різноманітності програм і асинхронне масштабування.
  1. Застосування до екстремальної комбінаторики

    Стаття демонструє ефективність FunSearch на проблемі верхньої множини в екстремальній комбінаториці. FunSearch відкриває нові конструкції множин великого розміру, перевершуючи найвідоміші результати та забезпечуючи найбільше за 20 років покращення асимптотичної нижньої межі.
  1. Алгоритмічна проблема – упаковка в кошик онлайн

    FunSearch застосовано до проблеми упаковки контейнерів онлайн, що призвело до відкриття нових алгоритмів, які перевершують традиційні на добре вивчених розподілах інтересу. Потенційні програми включають удосконалення алгоритмів планування завдань.
  1. Програми проти рішеньFunSearch зосереджується на створенні програм, які описують, як вирішити проблему, а не безпосередньому виведенні рішень. Ці програми, як правило, краще інтерпретуються, полегшують взаємодію з експертами в галузі та їх легше розгортати, ніж інші типи описів, такі як нейронні мережі.
  1. Міждисциплінарний вплив

    Методологія FunSearch дозволяє досліджувати широкий спектр проблем, що робить її універсальним підходом із міждисциплінарними додатками. У документі підкреслюється його потенціал для здійснення перевірених наукових відкриттів за допомогою LLM.

Папір 12: VAE: варіаційне кодування Байєса з автоматичним кодуванням

посилання: Читайте тут

Документи AI для розробників GenAI

Резюме статті

Стаття «Автоматичне кодування варіаційних байєсів» розглядає проблему ефективного висновку та навчання в спрямованих імовірнісних моделях із безперервними прихованими змінними, особливо коли апостеріорні розподіли є важкорозв’язними та мають справу з великими наборами даних. Автори пропонують стохастичний варіаційний висновок і алгоритм навчання, який добре масштабується для великих наборів даних і залишається застосовним навіть у складних апостеріорних розподілах.

Ключові ідеї AI Papers для розробників GenAI

  1. Перепараметризація варіаційної нижньої межі

    Стаття демонструє перепараметризацію варіаційної нижньої межі, що призводить до оцінки нижньої межі. Цей оцінювач піддається оптимізації за допомогою стандартних методів стохастичного градієнта, що робить його обчислювально ефективним.
  1. Ефективний апостеріорний висновок для безперервних латентних зміннихАвтори пропонують алгоритм автоматичного кодування VB (AEVB) для наборів даних із безперервними латентними змінними на точку даних. Цей алгоритм використовує варіаційний оцінювач стохастичного градієнта Байєса (SGVB) для оптимізації моделі розпізнавання, уможливлюючи ефективний наближений апостериорний висновок за допомогою вибірки предків. Цей підхід дозволяє уникнути дорогих ітеративних схем логічного висновку, таких як ланцюг Маркова Монте-Карло (MCMC) для кожної точки даних.
  1. Теоретичні переваги та експериментальні результати

    Теоретичні переваги запропонованого методу відображені в експериментальних результатах. У документі припускається, що модель перепараметризації та розпізнавання призводить до обчислювальної ефективності та масштабованості, роблячи підхід застосовним до великих наборів даних і в ситуаціях, коли апостеріор нерозв’язаний.

Читайте також: Розкриття сутності стохастики в машинному навчанні

Папір 13: ДОВГА КОРОТКОЧАСНА ПАМ'ЯТЬ

посилання: Читайте тут

Документи AI для розробників GenAI

Резюме статті

У статті розглядається проблема навчання зберігання інформації протягом тривалих інтервалів часу в рекурентних нейронних мережах. Він представляє новий, ефективний метод на основі градієнта під назвою «довгокороткочасна пам’ять» (LSTM), що дозволяє подолати проблеми зворотного потоку помилок із недостатньою кількістю помилок. LSTM забезпечує постійний потік помилок через «каруселі постійних помилок» і використовує мультиплікативні шлюзи для контролю доступу. Завдяки локальній просторово-часовій складності (O(1) на часовий крок і вагу) експериментальні результати показують, що LSTM перевершує існуючі алгоритми щодо швидкості навчання та успішності, особливо для завдань із тривалими часовими затримками.

Ключові ідеї AI Papers для розробників GenAI

  1. Аналіз проблеми

    Стаття містить детальний аналіз проблем, пов’язаних із зворотним потоком помилок у рекурентних нейронних мережах, підкреслюючи проблеми, пов’язані з вибухом або зникненням сигналів про помилки з часом.
  1. Впровадження ЛСТМ

    Автори представляють LSTM як нову архітектуру, призначену для вирішення проблем зникнення та вибуху сигналів помилок. LSTM включає в себе постійний потік помилок через спеціалізовані блоки та використовує мультиплікативні вентилі для регулювання доступу до цього потоку помилок.
  1. Експериментальні результати

    Завдяки експериментам зі штучними даними, стаття демонструє, що LSTM перевершує інші рекурентні мережеві алгоритми, включаючи BPTT, RTRL, рекурентну каскадну кореляцію, мережі Елмана та нейронну послідовність. LSTM демонструє швидше навчання та вищі показники успішності, особливо у розв’язанні складних завдань із великими часовими затримками.
  1. Локальний у просторі та часі

    LSTM описується як локальна архітектура в просторі та часі, де обчислювальна складність на часовий крок і вага дорівнює O(1).
  1. Застосовність

    Запропонована архітектура LSTM ефективно вирішує складні, штучні довгострокові завдання із затримкою, які не вдалося вирішити попередніми рекурентними мережевими алгоритмами.

  1. Обмеження та переваги

    У статті обговорюються обмеження та переваги LSTM, надаючи розуміння практичної застосовності запропонованої архітектури.

Читайте також: Що таке LSTM? Введення в довгострокову пам'ять

Папір 14: Вивчення візуальних моделей, які можна перенести, за допомогою контролю природної мови

посилання: Читайте тут

Документи AI для розробників GenAI

Резюме статті

У документі досліджується навчання найсучасніших систем комп’ютерного зору шляхом безпосереднього вивчення необробленого тексту про зображення, а не покладання на фіксовані набори заздалегідь визначених категорій об’єктів. Автори пропонують завдання перед навчанням передбачити, який підпис відповідає даному зображенню, використовуючи набір даних із 400 мільйонів пар (зображення, текст), зібраних з Інтернету. Отримана модель, CLIP (Попереднє навчання контрастній мові-зображенню), демонструє ефективне та масштабоване вивчення зображень. Після попереднього навчання природна мова посилається на візуальні концепції, забезпечуючи нульовий перехід до різноманітних подальших завдань. CLIP перевіряється на більш ніж 30 наборах даних комп’ютерного зору, демонструючи конкурентоспроможність без спеціального навчання.

Ключові ідеї AI Papers для розробників GenAI

  1. Навчання природної мови для комп’ютерного зору

    У статті досліджується використання контролю природної мови для навчання моделей комп’ютерного зору замість традиційного підходу до навчання на наборах даних, позначених натовпом, як-от ImageNet.
  1. Попереднє завданняАвтори пропонують просте завдання перед тренуванням: передбачити, який підпис відповідає заданому зображенню. Це завдання використовується для вивчення найсучасніших зображень із нуля на величезному наборі даних із 400 мільйонів пар (зображення, текст), зібраних онлайн.
  1. Zero-Shot Transfer

    Після попереднього навчання модель використовує природну мову для посилання на вивчені візуальні концепції або опису нових. Це забезпечує нульову передачу моделі до подальших завдань, не вимагаючи спеціального навчання набору даних.
  1. Бенчмаркінг на різних завданнях

    У документі оцінюється ефективність запропонованого підходу на більш ніж 30 різних наборах даних комп’ютерного зору, що охоплює такі завдання, як OCR, розпізнавання дій у відео, геолокалізація та точна класифікація об’єктів.
  1. Конкурентоспроможність

    Модель демонструє конкурентоспроможну продуктивність із повністю контрольованими базовими рівнями для різних завдань, часто збігаючи або перевершуючи точність моделей, навчених на наборах даних для конкретних завдань, без додаткового навчання для конкретних наборів даних.
  1. Дослідження масштабованості

    Автори вивчають масштабованість свого підходу шляхом навчання серії з восьми моделей з різними рівнями обчислювальних ресурсів. Встановлено, що продуктивність передачі є плавно передбачуваною функцією обчислень.
  1. Міцність моделі

    У документі підкреслюється, що моделі CLIP з нульовим випадком є ​​більш надійними, ніж моделі ImageNet із контролем еквівалентної точності, що свідчить про те, що оцінка з нульовим випадком незалежних від завдань моделей забезпечує більш репрезентативний показник можливостей моделі.

Документ 15: LORA: АДАПТАЦІЯ НИЗЬКОГО РАНГУ ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ

посилання: Читайте тут

Документи AI для розробників GenAI

Резюме статті

У документі запропоновано LoRA як ефективний метод для адаптації великих попередньо навчених мовних моделей до конкретних завдань, вирішення проблем розгортання, пов’язаних із збільшенням їх розміру. Цей метод суттєво зменшує параметри, які можна навчити, і вимоги до пам’яті графічного процесора, зберігаючи або покращуючи якість моделі в різних тестах. Реалізація з відкритим вихідним кодом додатково полегшує прийняття LoRA в практичних додатках.

Ключові ідеї AI Papers для розробників GenAI

1. Постановка проблеми

  • Широкомасштабне попереднє навчання з подальшим тонким налаштуванням є поширеним підходом до обробки природної мови.
  • Тонке налаштування стає менш можливим, оскільки моделі стають більшими, особливо при розгортанні моделей із великими параметрами, такими як GPT-3 (175 мільярдів параметрів).

2. Пропоноване рішення: адаптація низького рівня (LoRA)

  • У статті представлено LoRA, метод, який заморожує попередньо підготовлені вагові коефіцієнти моделі та вводить матриці рангового розкладання, які можна навчати, на кожному рівні архітектури Transformer.
  • LoRA значно зменшує кількість параметрів, які можна навчити, для подальших завдань порівняно з повним тонким налаштуванням.

3. Переваги LoRA

  • Зменшення параметрів: порівняно з тонким налаштуванням, LoRA може зменшити кількість параметрів, які можна навчити, до 10,000 XNUMX разів, що робить обчислювально ефективнішим.
  • Ефективність пам'яті: LoRA зменшує вимоги до пам'яті графічного процесора до 3 разів порівняно з тонким налаштуванням.
  • Якість моделі: незважаючи на меншу кількість параметрів, які можна навчити, LoRA на різних моделях, включаючи RoBERTa, DeBERTa, GPT-2 і GPT-3, працює на рівні або краще, ніж тонке налаштування.

4. Подолання проблем розгортання

  • У статті розглядається проблема розгортання моделей із багатьма параметрами шляхом впровадження LoRA, що дозволяє ефективно перемикати завдання без повторного навчання всієї моделі.

5. Ефективність і низька затримка висновку

  • LoRA полегшує обмін попередньо навченою моделлю для створення кількох модулів LoRA для різних завдань, зменшуючи вимоги до пам’яті та витрати на перемикання завдань.
  • Навчання стає ефективнішим, завдяки адаптивним оптимізаторам апаратний бар’єр для входу знижується до 3 разів.

6. Сумісність та інтеграція

  • LoRA сумісна з різними попередніми методами та може поєднуватися з ними, наприклад, налаштування префікса.
  • Запропонований лінійний дизайн дозволяє об’єднувати матриці, які можна навчати, із замороженими ваговими коефіцієнтами під час розгортання, не вводячи додаткової затримки висновку порівняно з повністю налаштованими моделями.

7. Емпіричне дослідження

  • Стаття включає емпіричне дослідження недоліку рангу в адаптації мовної моделі, надаючи розуміння ефективності підходу LoRA.

8. Впровадження з відкритим вихідним кодом

  • Автори надають пакет, який полегшує інтеграцію LoRA з моделями PyTorch, а також випуски реалізацій і контрольні точки моделі для RoBERTa, DeBERTa та GPT-2.

Ви також можете прочитати: Ефективне налаштування великих мовних моделей за допомогою LoRA та QLoRA

Висновок

На завершення, ознайомлення з 15 основними документами щодо штучного інтелекту для розробників GenAI, висвітленими в цій статті, є не просто рекомендацією, а стратегічним імперативом для будь-якого початківця розробника. Ці статті про штучний інтелект пропонують комплексну подорож різноманітним ландшафтом штучного інтелекту, що охоплює важливі сфери, такі як обробка природної мови, комп’ютерне бачення тощо. Занурюючись у ідеї та інновації, представлені в цих документах, розробники отримують глибоке розуміння передових методів і алгоритмів галузі.

Часова мітка:

Більше від Аналітика Vidhya