Підприємства мають доступ до величезних обсягів даних, більшість з яких важко знайти, оскільки дані є неструктурованими. Традиційні підходи до аналізу неструктуровані дані використовуйте відповідність ключових слів або синонімів. Вони не охоплюють повного контексту документа, що робить їх менш ефективними при роботі з неструктурованими даними.
Навпаки, текстові вставки використовують навчання за допомогою машини (ML) можливості охоплення значення неструктурованих даних. Вбудовування генеруються моделями репрезентативної мови, які перетворюють текст у числові вектори та кодують контекстну інформацію в документі. Це дозволяє використовувати такі програми, як семантичний пошук, Доповнена генерація пошуку (RAG), тематичне моделювання та класифікація тексту.
Наприклад, у сфері фінансових послуг додатки включають отримання інформації зі звітів про прибутки, пошук інформації у фінансовій звітності та аналіз настроїв щодо акцій і ринків у фінансових новинах. Вбудовування тексту дозволяє фахівцям галузі отримувати інформацію з документів, мінімізувати кількість помилок і підвищити продуктивність.
У цій публікації ми демонструємо програму, яка може здійснювати пошук і запити фінансових новин різними мовами за допомогою Cohere Вставляти та Змінити ранг моделі з Amazon Bedrock.
Багатомовна модель вбудовування Cohere
Cohere — це провідна корпоративна платформа штучного інтелекту, яка створює великі мовні моделі (LLM) світового рівня та рішення на базі LLM, які дозволяють комп’ютерам шукати, вловлювати значення та спілкуватися в тексті. Вони забезпечують простоту використання та надійні засоби контролю безпеки та конфіденційності.
Багатомовна модель вбудовування Cohere генерує векторні представлення документів понад 100 мовами та доступний на Amazon Bedrock. Це дозволяє клієнтам AWS отримувати до нього доступ як до API, що усуває потребу в управлінні базовою інфраструктурою та гарантує безпечне керування та захист конфіденційної інформації.
Багатомовна модель групує тексти зі схожими значеннями, призначаючи їм позиції, близькі одна до одної в семантичному векторному просторі. Завдяки багатомовній моделі вбудовування розробники можуть обробляти текст кількома мовами без необхідності перемикатися між різними моделями, як показано на малюнку нижче. Це робить обробку більш ефективною та підвищує продуктивність багатомовних програм.
Нижче наведено деякі основні моменти моделі вбудовування Cohere:
- Зосередьтеся на якості документів – Типові моделі вбудовування навчені вимірювати подібність між документами, але модель Cohere також вимірює якість документів
- Кращий пошук для програм RAG – Програми RAG вимагають хорошої системи пошуку, в якій модель вбудовування Cohere перевершує
- Економічне стиснення даних – Cohere використовує спеціальний метод навчання з урахуванням стиснення, що дає змогу значно заощадити на вашій векторній базі даних.
Варіанти використання для вбудовування тексту
Вбудовування тексту перетворює неструктуровані дані в структуровану форму. Це дозволяє вам об’єктивно порівнювати, аналізувати та отримувати висновки з усіх цих документів. Нижче наведено приклади випадків використання моделі вбудовування Cohere:
- Семантичний пошук – Забезпечує потужні пошукові програми в поєднанні з векторною базою даних із відмінною релевантністю на основі значення пошукової фрази
- Пошукова система для більшої системи – Знаходить і отримує найбільш актуальну інформацію з підключених корпоративних джерел даних для систем RAG
- Класифікація тексту – Підтримує розпізнавання намірів, аналіз настроїв і розширений аналіз документів
- Моделювання теми – Перетворює колекцію документів на окремі кластери, щоб розкривати нові теми та теми
Покращені системи пошуку з Rerank
Як запровадити сучасні можливості семантичного пошуку на підприємствах, де вже існують звичайні системи пошуку за ключовими словами? Для таких систем, які протягом тривалого часу були частиною інформаційної архітектури компанії, повний перехід до підходу, заснованого на впровадженні, у багатьох випадках просто неможливий.
Кінцева точка Rerank Cohere покликаний подолати цей розрив. Він діє як другий етап потоку пошуку, щоб забезпечити ранжування релевантних документів за запитом користувача. Підприємства можуть зберегти існуючу систему ключових слів (або навіть семантичну) для пошуку на першому етапі та підвищити якість результатів пошуку за допомогою кінцевої точки Rerank на другому етапі переранжування.
Rerank забезпечує швидкий і простий варіант для покращення результатів пошуку шляхом впровадження технології семантичного пошуку в стек користувача за допомогою одного рядка коду. Кінцева точка також має багатомовну підтримку. На наступному малюнку показано робочий процес пошуку та переранжування.
Огляд рішення
Фінансовим аналітикам потрібно перетравлювати багато контенту, наприклад фінансові публікації та засоби масової інформації, щоб бути в курсі. Відповідно до Асоціація фінансових професіоналів (AFP), фінансові аналітики витрачають 75% свого часу на збір даних або адміністрування процесу замість аналізу додаткової вартості. Пошук відповіді на запитання в різноманітних джерелах і документах – трудомістка й нудна робота. Модель вбудовування Cohere допомагає аналітикам швидко здійснювати пошук у численних назвах статей різними мовами, щоб знаходити та ранжувати статті, які найбільше відповідають певному запиту, заощаджуючи величезну кількість часу та зусиль.
У наведеному нижче прикладі використання ми демонструємо, як модель Embed від Cohere здійснює пошук і запити щодо фінансових новин різними мовами в одному унікальному каналі. Потім ми демонструємо, як додавання Rerank до вашого пошуку вбудованих елементів (або додавання його до застарілого лексичного пошуку) може ще більше покращити результати.
Допоміжний блокнот доступний на GitHub.
Наступна схема ілюструє робочий процес програми.
Увімкніть доступ до моделі через Amazon Bedrock
Користувачі Amazon Bedrock повинні надіслати запит на доступ до моделей, щоб зробити їх доступними для використання. Щоб отримати доступ до додаткових моделей, виберіть Доступ до моделі панель навігації на Amazon Bedrock втішити. Для отримання додаткової інформації див Доступ до моделі. Для цього покрокового керівництва вам потрібно надіслати запит на доступ до моделі Cohere Embed Multilingual.
Встановіть пакети та імпортуйте модулі
Спочатку ми встановимо необхідні пакунки та імпортуємо модулі, які будемо використовувати в цьому прикладі:
Імпорт документів
Ми використовуємо набір даних (MultiFIN), який містить список заголовків реальних статей, що охоплюють 15 мов (англійська, турецька, датська, іспанська, польська, грецька, фінська, іврит, японська, угорська, норвезька, російська, італійська, ісландська та шведська). ). Це набір даних з відкритим вихідним кодом, розроблений для фінансової обробки природної мови (NLP) і доступний на a GitHub сховище.
У нашому випадку ми створили файл CSV з даними MultiFIN, а також стовпець із перекладами. Ми не використовуємо цей стовпець для подачі моделі; ми використовуємо його, щоб допомогти нам слідкувати, коли друкуємо результати для тих, хто не розмовляє данською чи іспанською. Ми вказуємо на цей CSV, щоб створити наш фрейм даних:
Виберіть список документів для запиту
MultiFIN містить понад 6,000 записів 15 різними мовами. Для нашого прикладу використання ми зосереджуємось на трьох мовах: англійській, іспанській та данській. Ми також сортуємо заголовки за довжиною та вибираємо найдовші.
Оскільки ми вибираємо найдовші статті, ми гарантуємо, що довжина не пов’язана з повторюваними послідовностями. Наступний код показує приклад, коли це так. Ми це приберемо.
df['text'].iloc[2215]
Наш список документів чудово розподілено трьома мовами:
Нижче наведено найдовший заголовок статті в нашому наборі даних:
Вбудовувати та індексувати документи
Тепер ми хочемо вбудувати наші документи та зберегти вбудовування. Вбудовування — це дуже великі вектори, які інкапсулюють семантичне значення нашого документа. Зокрема, ми використовуємо модель embed-multilingual-v3.0 від Cohere, яка створює вбудовування з 1,024 вимірами.
Коли запит передається, ми також вбудовуємо запит і використовуємо бібліотеку hnswlib для пошуку найближчих сусідів.
Щоб створити клієнт Cohere, вставити документи та створити пошуковий індекс, потрібно лише кілька рядків коду. Ми також відстежуємо мову та переклад документа, щоб збагатити відображення результатів.
Побудуйте пошукову систему
Далі ми створюємо функцію, яка приймає запит як вхідні дані, вбудовує його та знаходить чотири заголовки, більш тісно пов’язані з ним:
Зробіть запит до системи пошуку
Давайте дослідимо, що наша система робить із кількома різними запитами. Починаємо з англійської:
Результати такі:
Зверніть увагу на наступне:
- Ми ставимо пов’язані, але дещо інші запитання, і модель має достатньо нюансів, щоб у верхній частині відображати найбільш релевантні результати.
- Наша модель виконує не пошук за ключовими словами, а семантичний пошук. Навіть якщо ми використовуємо такий термін, як «наука про дані» замість «ШІ», наша модель здатна зрозуміти, що запитують, і повернути найбільш відповідний результат угорі.
Як щодо запиту данською мовою? Давайте розглянемо наступний запит:
У попередньому прикладі англійська абревіатура «PP&E» розшифровується як «майно, заводи та обладнання», і нашій моделі вдалося зв’язати це з нашим запитом.
У цьому випадку всі повернуті результати надано данською мовою, але модель може повернути документ мовою, відмінною від запиту, якщо його семантичне значення ближче. Ми маємо повну гнучкість, і за допомогою кількох рядків коду ми можемо вказати, чи повинна модель переглядати лише документи мовою запиту, чи вона має переглядати всі документи.
Покращуйте результати за допомогою Cohere Rerank
Вбудовування дуже потужні. Однак зараз ми розглянемо, як ще більше вдосконалити наші результати за допомогою кінцевої точки Rerank від Cohere, яка навчена оцінювати релевантність документів щодо запиту.
Ще одна перевага Rerank полягає в тому, що він може працювати поверх застарілої пошукової системи за ключовими словами. Вам не потрібно переходити до векторної бази даних або вносити радикальні зміни у свою інфраструктуру, і для цього знадобиться лише кілька рядків коду. Перезвання доступне в Amazon SageMaker.
Давайте спробуємо новий запит. Цього разу ми використовуємо SageMaker:
У цьому випадку семантичний пошук зміг отримати нашу відповідь і відобразити її в результатах, але вона не вгорі. Однак, коли ми знову передаємо запит нашій кінцевій точці Rerank із отриманим списком документів, Rerank може вивести найрелевантніший документ угорі.
Спочатку ми створюємо клієнт і кінцеву точку Rerank:
Коли ми передаємо документи Rerank, модель може точно вибрати найрелевантніший:
Висновок
У цьому дописі представлено покрокове керівництво щодо використання багатомовної моделі вбудовування Cohere в Amazon Bedrock у сфері фінансових послуг. Зокрема, ми продемонстрували приклад багатомовної програми пошуку фінансових статей. Ми побачили, як модель вбудовування забезпечує ефективне й точне виявлення інформації, тим самим підвищуючи продуктивність і якість результатів роботи аналітика.
Багатомовна модель вбудовування Cohere підтримує понад 100 мов. Це усуває складність створення додатків, які потребують роботи з корпусом документів різними мовами. The Модель Cohere Embed навчений досягати результатів у реальних програмах. Він обробляє зашумлені дані як вхідні дані, адаптується до складних систем RAG і забезпечує економічну ефективність завдяки методу навчання з урахуванням стиснення.
Почніть будувати багатомовну модель вбудовування Cohere в Amazon Bedrock вже сьогодні.
Про авторів
Джеймс І є старшим архітектором партнерських рішень AI/ML у технічній команді технологічних партнерів COE в Amazon Web Services. Він захоплений роботою з корпоративними клієнтами та партнерами над розробкою, розгортанням і масштабуванням додатків штучного інтелекту/ML для підвищення ефективності бізнесу. Поза роботою він любить грати у футбол, подорожувати та проводити час із сім’єю.
Гонсало Бетегон є архітектором рішень у Cohere, постачальнику передових технологій обробки природної мови. Він допомагає організаціям задовольнити їхні бізнес-потреби за допомогою розгортання великих мовних моделей.
Меор амер є захисником розробників у Cohere, постачальнику передових технологій обробки природної мови (NLP). Він допомагає розробникам створювати передові програми за допомогою великих мовних моделей Cohere (LLM).
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/
- : має
- :є
- : ні
- :де
- $UP
- 000
- 1
- 10
- 100
- 11
- 13
- 15%
- 16
- 2030
- 22
- 29
- 33
- 7
- 8
- 80
- 9
- a
- Здатний
- МЕНЮ
- доступ
- За
- рахунки
- точний
- точно
- Achieve
- через
- акти
- адаптує
- додати
- Додатковий
- адреса
- просунутий
- Перевага
- адвокат
- AFP
- знову
- проти
- AI
- Платформа AI
- AI / ML
- ВСІ
- дозволяти
- дозволяє
- по
- вже
- Також
- Amazon
- Amazon Web Services
- кількість
- суми
- an
- аналіз
- аналітик
- аналітики
- Аналізуючи
- та
- відповідь
- API
- додаток
- застосування
- підхід
- підходи
- архітектура
- ЕСТЬ
- стаття
- статті
- AS
- запитувач
- At
- збільшено
- доступний
- AWS
- заснований
- оскільки
- було
- буття
- Краще
- між
- блоки
- підвищення
- підвищення
- Brexit
- BRIDGE
- будувати
- Створюємо
- Будує
- бізнес
- Бізнес-лідери
- підприємства
- але
- by
- CAN
- можливості
- захоплення
- випадок
- випадків
- стелю
- Фінансові директори
- виклик
- проблеми
- зміна
- Зміни
- Вибирати
- класифікація
- очистити
- клієнт
- близько
- тісно
- ближче
- CO
- код
- збір
- Колонка
- приходить
- Компанії
- Компанії
- порівняти
- повний
- комплекс
- складність
- комп'ютери
- стурбований
- З'єднуватися
- підключений
- зміст
- контекст
- контекстуальний
- контрастність
- управління
- звичайний
- Корпоративний
- Коштувати
- економія на витратах
- може
- Пара
- з'єднаний
- покриття
- COVID-19
- створювати
- створений
- створює
- кредит
- криза
- Критерії
- Куратор
- Поточний
- Клієнти
- передовий
- Кібербезпека
- датський
- дані
- наука про дані
- Database
- de
- крайній термін
- справу
- присвячених
- Дель
- доставляти
- досягти результатів
- постачає
- демонструвати
- продемонстрований
- Це
- розгортання
- розгортання
- депозити
- дрейф
- дизайн
- призначений
- Розробник
- розробників
- розробка
- різний
- важкий
- Digest
- розміри
- відкрити
- відкриття
- дисплей
- чіткий
- розподілений
- розподіл
- do
- документ
- документація
- робить
- домен
- Не знаю
- вниз
- управляти
- два
- e
- кожен
- Рано
- Доходи
- простота
- простота використання
- економіка
- Ефективний
- ефективний
- зусилля
- el
- Усуває
- ще
- Вставляти
- вбудовування
- з'являються
- викиди
- Співробітник
- включіть
- дозволяє
- кінець
- Кінцева точка
- зачеплення
- двигун
- англійська
- величезний
- досить
- збагачувати
- забезпечувати
- гарантує
- підприємство
- корпоративні клієнти
- підприємств
- Навколишнє середовище
- обладнання
- помилки
- ІС Г
- встановити
- Ефір (ETH)
- Навіть
- приклад
- відмінно
- існуючий
- досвідчений
- дослідити
- витяг
- Фолс
- сім'я
- ШВИДКО
- реально
- кілька
- Рисунок
- філе
- фінансовий
- фінансові новини
- фінансові послуги
- знайти
- виявлення
- знахідки
- фінську мову
- п'ять
- Гнучкість
- потік
- Сфокусувати
- стежити
- після
- слідує
- для
- форма
- знайдений
- чотири
- Термін
- від
- Повний
- функція
- далі
- розрив
- ГАЗ
- збір
- GDP
- генерується
- генерує
- Глобальний
- Світова економіка
- Go
- Цілі
- буде
- добре
- грецький
- Групи
- керівництво
- Ручки
- Мати
- he
- Заголовки
- Headlines
- іврит
- допомога
- допомагає
- основний момент
- його
- хіт
- Як
- How To
- Однак
- HTML
- HTTPS
- угорський
- i
- if
- ілюструє
- реалізації
- імпорт
- удосконалювати
- поліпшується
- поліпшення
- in
- включати
- Augmenter
- індекс
- промисловість
- інформація
- інформація
- повідомив
- Інфраструктура
- вхід
- витрати
- розуміння
- встановлювати
- замість
- інтегрувати
- інтеграція
- намір
- в
- вводити
- введення
- IP
- IT
- італійська
- ЙОГО
- січня
- японський
- Джобс
- JPG
- просто
- тримати
- ландшафт
- МОВА
- мова
- мови
- великий
- більше
- найбільших
- ЛАГ
- останній
- останній
- Лідери
- провідний
- лізинг
- Legacy
- Законодавча
- законодавча пропозиція
- довжина
- менше
- бібліотека
- як
- Лінія
- ліній
- список
- Перераховані
- Кредити
- Довго
- багато часу
- подивитися
- в
- серія
- головний
- зробити
- РОБОТИ
- Робить
- людина
- управляти
- вдалося
- управління
- багато
- карта
- березня
- ринок
- ринкова вартість
- ринки
- масивний
- узгодження
- сенс
- значення
- вимір
- заходи
- Медіа
- Зустрічатися
- засідання
- меров
- метод
- міграція
- мінімізувати
- ML
- режим
- модель
- моделювання
- Моделі
- сучасний
- Модулі
- більше
- більш ефективний
- найбільш
- багато
- множинний
- ім'я
- Природний
- Природна мова
- Обробка природних мов
- навігація
- необхідно
- Необхідність
- потреби
- сусіди
- Нові
- новини
- ЗМІ
- наступний
- nlp
- немає
- норвежець
- ноутбук
- зараз
- численний
- NY
- нье
- Нью-Йорк Таймс
- об'єктивно
- of
- on
- ONE
- ті,
- тільки
- натиск
- відкрити
- з відкритим вихідним кодом
- варіант
- or
- порядок
- організації
- оригінал
- OS
- Інше
- наші
- вихід
- поза
- над
- пакет
- пакети
- панди
- pane
- частина
- приватність
- партнер
- партнери
- проходити
- Пройшов
- пристрасний
- оплата
- Платіжна відомість
- для
- виконувати
- продуктивність
- вибирати
- збір
- трубопровід
- план
- завод
- платформа
- plato
- Інформація про дані Платона
- PlatoData
- ігри
- Подкаст
- точка
- полірування
- позиції
- пошта
- потенціал
- потужний
- попередній
- представити
- представлений
- Головний
- друк
- недоторканність приватного життя
- процес
- обробка
- продуктивність
- професіонали
- прогрес
- власність
- пропозиція
- захищений
- забезпечувати
- Постачальник
- забезпечує
- публікаціям
- мета
- PWC
- якість
- запити
- питання
- питань
- швидко
- R
- підвищення
- ранжувати
- Ранжування
- RE
- готовий
- Реальний світ
- визнання
- облік
- зменшити
- посилання
- удосконалювати
- Реформа
- регіон
- пов'язаний
- актуальність
- доречний
- залишатися
- залишається
- видаляє
- знову відкрити
- повторний
- замінювати
- Звітність
- Звіти
- запросити
- вимагати
- результат
- в результаті
- результати
- зберігати
- повертати
- повернення
- російський
- s
- мудрець
- економія
- Економія
- бачив
- шкала
- наука
- рахунок
- Пошук
- Пошукова система
- пошук
- Грати короля карти - безкоштовно Nijumi логічна гра гри
- SEC
- другий
- безпечно
- безпеку
- побачити
- обраний
- старший
- чутливий
- настрій
- Послуги
- Сесія
- акціонера
- Повинен
- демонстрації
- Шоу
- аналогічний
- один
- сайти
- трохи відрізняється
- Повільно
- Футбол
- Рішення
- деякі
- Source
- Джерела
- Простір
- іспанська
- говорити
- спеціальний
- витрачати
- Витрати
- стек
- Персонал
- Стажування
- standard
- стенди
- старт
- Починаючи
- заяви
- залишатися
- акції
- Фондова біржа
- Акції
- зберігати
- просто
- Стратегія
- сильний
- структурований
- істотний
- такі
- підтримка
- Підтриманий
- Підтримуючий
- Опори
- поверхню
- Огляд
- Sustainability
- сталого
- Сталий розвиток
- шведську мову
- перемикач
- Синонім
- система
- Systems
- приймає
- цілі
- податок
- Податковий кредит
- команда
- технології
- Технологія
- термін
- текст
- Класифікація тексту
- ніж
- Що
- Команда
- їх
- Їх
- потім
- Там.
- тим самим
- Ці
- вони
- це
- ті
- три
- через
- час
- назви
- до
- сьогодні
- топ
- тема
- теми
- трек
- навчений
- Навчання
- переводити
- Переклад
- У реальному часі
- Подорож
- намагатися
- турецька
- ПЕРЕГЛЯД
- повороти
- типовий
- UN
- розкрити
- що лежить в основі
- розуміти
- створеного
- URL
- us
- використання
- використання випадку
- користувачі
- використовує
- використання
- значення
- різноманітність
- дуже
- покрокове керівництво
- хотіти
- було
- хвиля
- шлях..
- we
- Web
- веб-сервіси
- ДОБРЕ
- Що
- коли
- Чи
- який
- ВООЗ
- волі
- з
- без
- Work
- робочий
- робочий
- світ
- Світовий клас
- років
- ще
- ви
- вашу
- зефірнет