Bygg finansiell sökapplikation med Amazon Bedrock Cohere Multilingual Embedding Model | Amazon Web Services

Återutgiven av Platon

anhängare: 0

Företag har tillgång till enorma mängder data, varav mycket är svårt att upptäcka eftersom datan är ostrukturerad. Konventionella metoder för att analysera ostrukturerade data använd sökords- eller synonymmatchning. De fångar inte hela sammanhanget i ett dokument, vilket gör dem mindre effektiva när det gäller att hantera ostrukturerad data.

Däremot använder textinbäddningar maskininlärning (ML) förmåga att fånga innebörden av ostrukturerad data. Inbäddningar genereras av representativa språkmodeller som översätter text till numeriska vektorer och kodar kontextuell information i ett dokument. Detta möjliggör applikationer som semantisk sökning, Retrieval Augmented Generation (RAG), ämnesmodellering och textklassificering.

Till exempel i den finansiella tjänstesektorn inkluderar applikationer att extrahera insikter från resultatrapporter, söka efter information från bokslut och analysera sentiment om aktier och marknader som finns i finansiella nyheter. Textinbäddningar gör det möjligt för branschfolk att extrahera insikter från dokument, minimera fel och öka deras prestanda.

I det här inlägget visar vi upp en applikation som kan söka och fråga i finansiella nyheter på olika språk med hjälp av Coheres Bädda och Rangordna om modeller med Amazonas berggrund.

Coheres flerspråkiga inbäddningsmodell

Cohere är en ledande AI-plattform för företag som bygger stora språkmodeller (LLM) i världsklass och LLM-drivna lösningar som låter datorer söka, fånga mening och konversera i text. De ger användarvänlighet och starka säkerhets- och integritetskontroller.

Coheres flerspråkiga inbäddningsmodell genererar vektorrepresentationer av dokument för över 100 språk och är tillgänglig på Amazon Bedrock. Detta tillåter AWS-kunder att komma åt det som ett API, vilket eliminerar behovet av att hantera den underliggande infrastrukturen och säkerställer att känslig information förblir säkert hanterad och skyddad.

Den flerspråkiga modellen grupperar text med liknande betydelser genom att tilldela dem positioner som ligger nära varandra i ett semantiskt vektorrum. Med en flerspråkig inbäddningsmodell kan utvecklare bearbeta text på flera språk utan att behöva växla mellan olika modeller, som illustreras i följande figur. Detta gör bearbetningen mer effektiv och förbättrar prestandan för flerspråkiga applikationer.

Följande är några av höjdpunkterna i Coheres inbäddningsmodell:

Fokus på dokumentkvalitet – Typiska inbäddningsmodeller är tränade för att mäta likheter mellan dokument, men Coheres modell mäter även dokumentkvalitet
Bättre hämtning för RAG-applikationer – RAG-applikationer kräver ett bra hämtningssystem, vilket Coheres inbäddningsmodell utmärker sig med
Kostnadseffektiv datakomprimering – Cohere använder en speciell, kompressionsmedveten träningsmetod, vilket resulterar i avsevärda kostnadsbesparingar för din vektordatabas

Använd fall för textinbäddning

Textinbäddningar gör ostrukturerad data till en strukturerad form. Detta gör att du objektivt kan jämföra, dissekera och härleda insikter från alla dessa dokument. Följande är exempel på användningsfall som Coheres inbäddningsmodell möjliggör:

Semantisk sökning – Möjliggör kraftfulla sökapplikationer i kombination med en vektordatabas, med utmärkt relevans baserat på sökfrasens betydelse
Sökmotor för ett större system – Hittar och hämtar den mest relevanta informationen från anslutna företagsdatakällor för RAG-system
Textklassificering – Stöder avsiktsigenkänning, sentimentanalys och avancerad dokumentanalys
Ämnesmodellering – Förvandlar en samling dokument till distinkta kluster för att avslöja nya ämnen och teman

Förbättrade söksystem med Rerank

I företag där konventionella sökordssökningssystem redan finns, hur introducerar man moderna semantiska sökmöjligheter? För sådana system som har varit en del av ett företags informationsarkitektur under lång tid är en fullständig migrering till en inbäddningsbaserad metod i många fall helt enkelt inte genomförbar.

Cohere's Rerank endpoint är utformad för att överbrygga detta gap. Det fungerar som det andra steget i ett sökflöde för att ge en rangordning av relevanta dokument per en användares fråga. Företag kan behålla ett befintligt nyckelord (eller till och med semantiskt) system för hämtning i första steget och höja kvaliteten på sökresultat med Rerank endpoint i andra steget omrankning.

Rerank ger ett snabbt och enkelt alternativ för att förbättra sökresultaten genom att introducera semantisk sökteknik i en användares stack med en enda kodrad. Slutpunkten kommer också med flerspråkigt stöd. Följande figur illustrerar arbetsflödet för hämtning och omplacering.

Lösningsöversikt

Finansanalytiker behöver smälta mycket innehåll, såsom finansiella publikationer och nyhetsmedier, för att hålla sig informerade. Enligt Association for Financial Professionals (AFP), spenderar finansanalytiker 75 % av sin tid på att samla in data eller administrera processen istället för mervärdesanalys. Att hitta svaret på en fråga i en mängd olika källor och dokument är tidskrävande och tråkigt arbete. Cohere-inbäddningsmodellen hjälper analytiker att snabbt söka i flera artikeltitlar på flera språk för att hitta och rangordna de artiklar som är mest relevanta för en viss fråga, vilket sparar enormt mycket tid och ansträngning.

I följande användningsexempel visar vi hur Coheres Embed-modell söker och frågar över finansiella nyheter på olika språk i en unik pipeline. Sedan visar vi hur du kan förbättra resultaten ytterligare genom att lägga till Rerank till din inbäddningshämtning (eller lägga till den i en äldre lexikal sökning).

Den stödjande anteckningsboken finns tillgänglig på GitHub.

Följande diagram illustrerar applikationens arbetsflöde.

Aktivera modellåtkomst via Amazon Bedrock

Amazon Bedrock-användare måste begära tillgång till modeller för att göra dem tillgängliga för användning. För att begära tillgång till ytterligare modeller, välj Modellåtkomst navigeringsrutan på Amazonas berggrund trösta. För mer information, se Modellåtkomst. För den här genomgången måste du begära tillgång till Cohere Embed Multilingual-modellen.

Installera paket och importera moduler

Först installerar vi de nödvändiga paketen och importerar modulerna vi kommer att använda i det här exemplet:

!pip install --upgrade cohere-aws hnswlib translate

import pandas as pd
import cohere_aws
import hnswlib
import os
import re
import boto3

Importera dokument

Vi använder en datauppsättning (MultiFIN) som innehåller en lista med verkliga artikelrubriker som täcker 15 språk (engelska, turkiska, danska, spanska, polska, grekiska, finska, hebreiska, japanska, ungerska, norska, ryska, italienska, isländska och svenska ). Detta är en datauppsättning med öppen källkod som är kurerad för finansiell naturlig språkbehandling (NLP) och är tillgänglig på en GitHub repository.

I vårt fall har vi skapat en CSV-fil med MultiFINs data samt en kolumn med översättningar. Vi använder inte den här kolumnen för att mata modellen; vi använder den för att hjälpa oss följa med när vi skriver ut resultaten för dem som inte talar danska eller spanska. Vi pekar på den CSV-filen för att skapa vår dataram:

url = "https://raw.githubusercontent.com/cohere-ai/cohere-aws/main/notebooks/bedrock/multiFIN_train.csv"
df = pd.read_csv(url)

# Inspect dataset
df.head(5)

Välj en lista över dokument att fråga efter

MultiFIN har över 6,000 15 skivor på XNUMX olika språk. I vårt exempel fokuserar vi på tre språk: engelska, spanska och danska. Vi sorterar även rubrikerna efter längd och väljer de längsta.

Eftersom vi väljer de längsta artiklarna säkerställer vi att längden inte beror på upprepade sekvenser. Följande kod visar ett exempel där så är fallet. Vi kommer att städa upp det.

df['text'].iloc[2215]

'El 86% de las empresas españolas comprometidas con los Objetivos de Desarrollo 
Sostenible comprometidas con los Objetivos de Desarrollo Sostenible comprometidas 
con los Objetivos de Desarrollo Sostenible comprometidas con los Objetivos de 
Desarrollo Sostenible'

# Ensure there is no duplicated text in the headers
def remove_duplicates(text):
    return re.sub(r'((bw+b.{1,2}w+b)+).+1', r'1', text, flags=re.I)

df ['text'] = df['text'].apply(remove_duplicates)

# Keep only selected languages
languages = ['English', 'Spanish', 'Danish']
df = df.loc[df['lang'].isin(languages)]

# Pick the top 80 longest articles
df['text_length'] = df['text'].str.len()
df.sort_values(by=['text_length'], ascending=False, inplace=True)
top_80_df = df[:80]

# Language distribution
top_80_df['lang'].value_counts()

Vår lista över dokument är snyggt fördelad över de tre språken:

lang
Spanish    33
English    29
Danish     18
Name: count, dtype: int64

Följande är den längsta artikelrubriken i vår datauppsättning:

top_80_df['text'].iloc[0]

"CFOdirect: Resultater fra PwC's Employee Engagement Landscape Survey, herunder hvordan 
man skaber mere engagement blandt medarbejdere. Læs desuden om de regnskabsmæssige 
konsekvenser for indkomstskat ifbm. Brexit"

Bädda in och indexera dokument

Nu vill vi bädda in våra dokument och lagra inbäddningarna. Inbäddningarna är mycket stora vektorer som kapslar in den semantiska innebörden av vårt dokument. I synnerhet använder vi Coheres embed-multilingual-v3.0-modell, som skapar inbäddningar med 1,024 XNUMX dimensioner.

När en fråga skickas bäddar vi också in frågan och använder hnswlib-biblioteket för att hitta de närmaste grannarna.

Det tar bara några rader kod för att skapa en Cohere-klient, bädda in dokumenten och skapa sökindexet. Vi håller också reda på språket och översättningen av dokumentet för att berika visningen av resultaten.

# Establish Cohere client
co = cohere_aws.Client(mode=cohere_aws.Mode.BEDROCK)
model_id = "cohere.embed-multilingual-v3"

# Embed documents
docs = top_80_df['text'].to_list()
docs_lang = top_80_df['lang'].to_list()
translated_docs = top_80_df['translated_text'].to_list() #for reference when returning non-English results
doc_embs = co.embed(texts=docs, model_id=model_id, input_type='search_document').embeddings

# Create a search index
index = hnswlib.Index(space='ip', dim=1024)
index.init_index(max_elements=len(doc_embs), ef_construction=512, M=64)
index.add_items(doc_embs, list(range(len(doc_embs))))

Bygg ett hämtningssystem

Därefter bygger vi en funktion som tar en fråga som indata, bäddar in den och hittar de fyra rubrikerna som är närmare relaterade till den:

# Retrieval of 4 closest docs to query
def retrieval(query):
    # Embed query and retrieve results
    query_emb = co.embed(texts=[query], model_id=model_id, input_type="search_query").embeddings
    doc_ids = index.knn_query(query_emb, k=3)[0][0] # we will retrieve 4 closest neighbors
    
    # Print and append results
    print(f"QUERY: {query.upper()} n")
    retrieved_docs, translated_retrieved_docs = [], []
    
    for doc_id in doc_ids:
        # Append results
        retrieved_docs.append(docs[doc_id])
        translated_retrieved_docs.append(translated_docs[doc_id])
    
        # Print results
        print(f"ORIGINAL ({docs_lang[doc_id]}): {docs[doc_id]}")
        if docs_lang[doc_id] != "English":
            print(f"TRANSLATION: {translated_docs[doc_id]} n----")
        else:
            print("----")
    print("END OF RESULTS nn")
    return retrieved_docs, translated_retrieved_docs

Fråga efter hämtningssystemet

Låt oss utforska vad vårt system gör med ett par olika frågor. Vi börjar med engelska:

queries = [
    "Are businessess meeting sustainability goals?",
    "Can data science help meet sustainability goals?"
]

for query in queries:
    retrieval(query)

Resultaten är följande:

QUERY: ARE BUSINESSES MEETING SUSTAINABILITY GOALS? 

ORIGINAL (English): Quality of business reporting on the Sustainable Development Goals 
improves, but has a long way to go to meet and drive targets.
----
ORIGINAL (English): Only 10 years to achieve Sustainable Development Goals but 
businesses remain on starting blocks for integration and progress
----
ORIGINAL (Spanish): Integrar los criterios ESG y el propósito en la estrategia 
principal reto de los Consejos de las empresas españolas en el mundo post-COVID 

TRANSLATION: Integrate ESG criteria and purpose into the main challenge strategy 
of the Boards of Spanish companies in the post-COVID world 
----
END OF RESULTS 

QUERY: CAN DATA SCIENCE HELP MEET SUSTAINABILITY GOALS? 

ORIGINAL (English): Using AI to better manage the environment could reduce greenhouse 
gas emissions, boost global GDP by up to 38m jobs by 2030
----
ORIGINAL (English): Quality of business reporting on the Sustainable Development Goals 
improves, but has a long way to go to meet and drive targets.
----
ORIGINAL (English): Only 10 years to achieve Sustainable Development Goals but 
businesses remain on starting blocks for integration and progress
----
END OF RESULTS

Lägg märke till följande:

Vi ställer relaterade, men lite annorlunda frågor, och modellen är tillräckligt nyanserad för att presentera de mest relevanta resultaten överst.
Vår modell utför inte sökordsbaserad sökning, utan semantisk sökning. Även om vi använder en term som "datavetenskap" istället för "AI" kan vår modell förstå vad som efterfrågas och returnera det mest relevanta resultatet överst.

Vad sägs om en fråga på danska? Låt oss titta på följande fråga:

query = "Hvor kan jeg finde den seneste danske boligplan?" # "Where can I find the latest Danish property plan?"
retrieved_docs, translated_retrieved_docs = retrieval(query)

QUERY: HVOR KAN JEG FINDE DEN SENESTE DANSKE BOLIGPLAN? 

ORIGINAL (Danish): Nyt fra CFOdirect: Ny PP&E-guide, FAQs om den nye leasingstandard, 
podcast om udfordringerne ved implementering af leasingstandarden og meget mere

TRANSLATION: New from CFOdirect: New PP&E guide, FAQs on the new leasing standard, 
podcast on the challenges of implementing the leasing standard and much more 
----
ORIGINAL (Danish): Lovforslag fremlagt om rentefri lån, udskudt frist for 
lønsumsafgift, førtidig udbetaling af skattekredit og loft på indestående på 
skattekontoen

TRANSLATION: Legislative proposal presented on interest-free loans, deferred payroll 
tax deadline, early payment of tax credit and ceiling on deposits in the tax account 
----
ORIGINAL (Danish): Nyt fra CFOdirect: Shareholder-spørgsmål til ledelsen, SEC 
cybersikkerhedsguide, den amerikanske skattereform og meget mere

TRANSLATION: New from CFOdirect: Shareholder questions for management, the SEC 
cybersecurity guide, US tax reform and more 
----
END OF RESULTS

I det föregående exemplet står den engelska förkortningen "PP&E" för "property, plant and equipment", och vår modell kunde koppla den till vår fråga.

I det här fallet är alla returnerade resultat på danska, men modellen kan returnera ett dokument på ett annat språk än frågan om dess semantiska betydelse är närmare. Vi har full flexibilitet och med några rader kod kan vi specificera om modellen endast ska titta på dokument på språket för frågan, eller om den ska titta på alla dokument.

Förbättra resultaten med Cohere Rerank

Inbäddningar är mycket kraftfulla. Men vi ska nu titta på hur vi kan förfina våra resultat ytterligare med Cohere's Rerank endpoint, som har tränats för att bedöma relevansen av dokument mot en fråga.

En annan fördel med Rerank är att den kan fungera ovanpå en äldre sökmotor för sökord. Du behöver inte byta till en vektordatabas eller göra drastiska ändringar i din infrastruktur, och det tar bara några rader kod. Rerank finns tillgänglig i Amazon SageMaker.

Låt oss prova en ny fråga. Vi använder SageMaker den här gången:

query = "Are companies ready for the next down market?"
retrieved_docs, translated_retrieved_docs = retrieval(query)

QUERY: ARE COMPANIES READY FOR THE NEXT DOWN MARKET? 

ORIGINAL (Spanish): El valor en bolsa de las 100 mayores empresas cotizadas cae un 15% 
entre enero y marzo pero aguanta el embate del COVID-19 

TRANSLATION: The stock market value of the 100 largest listed companies falls 15% 
between January and March but withstands the onslaught of COVID-19 
----
ORIGINAL (English): 69% of business leaders have experienced a corporate crisis in the 
last five years yet 29% of companies have no staff dedicated to crisis preparedness
----
ORIGINAL (English): As work sites slowly start to reopen, CFOs are concerned about the 
global economy and a potential new COVID-19 wave - PwC survey
----
END OF RESULTS

I det här fallet kunde en semantisk sökning hämta vårt svar och visa det i resultaten, men det är inte överst. Men när vi skickar frågan igen till vår Rerank endpoint med listan över dokument hämtade, kan Rerank visa det mest relevanta dokumentet högst upp.

Först skapar vi klienten och Rerank endpoint:

# map model package arn
import boto3
cohere_package = "cohere-rerank-multilingual-v2--8b26a507962f3adb98ea9ac44cb70be1" # replace this with your info

model_package_map = {
    "us-east-1": f"arn:aws:sagemaker:us-east-1:865070037744:model-package/{cohere_package}",
    "us-east-2": f"arn:aws:sagemaker:us-east-2:057799348421:model-package/{cohere_package}",
    "us-west-1": f"arn:aws:sagemaker:us-west-1:382657785993:model-package/{cohere_package}",
    "us-west-2": f"arn:aws:sagemaker:us-west-2:594846645681:model-package/{cohere_package}",
    "ca-central-1": f"arn:aws:sagemaker:ca-central-1:470592106596:model-package/{cohere_package}",
    "eu-central-1": f"arn:aws:sagemaker:eu-central-1:446921602837:model-package/{cohere_package}",
    "eu-west-1": f"arn:aws:sagemaker:eu-west-1:985815980388:model-package/{cohere_package}",
    "eu-west-2": f"arn:aws:sagemaker:eu-west-2:856760150666:model-package/{cohere_package}",
    "eu-west-3": f"arn:aws:sagemaker:eu-west-3:843114510376:model-package/{cohere_package}",
    "eu-north-1": f"arn:aws:sagemaker:eu-north-1:136758871317:model-package/{cohere_package}",
    "ap-southeast-1": f"arn:aws:sagemaker:ap-southeast-1:192199979996:model-package/{cohere_package}",
    "ap-southeast-2": f"arn:aws:sagemaker:ap-southeast-2:666831318237:model-package/{cohere_package}",
    "ap-northeast-2": f"arn:aws:sagemaker:ap-northeast-2:745090734665:model-package/{cohere_package}",
    "ap-northeast-1": f"arn:aws:sagemaker:ap-northeast-1:977537786026:model-package/{cohere_package}",
    "ap-south-1": f"arn:aws:sagemaker:ap-south-1:077584701553:model-package/{cohere_package}",
    "sa-east-1": f"arn:aws:sagemaker:sa-east-1:270155090741:model-package/{cohere_package}",
}

region = boto3.Session().region_name
if region not in model_package_map.keys():
    raise Exception(f"Current boto3 session region {region} is not supported.")

model_package_arn = model_package_map[region]

co = cohere_aws.Client(region_name=region)
co.create_endpoint(arn=model_package_arn, endpoint_name="cohere-rerank-multilingual", instance_type="ml.g4dn.xlarge", n_instances=1)

När vi skickar dokumenten till Rerank kan modellen välja den mest relevanta exakt:

results = co.rerank(query=query, documents=retrieved_docs, top_n=1)

for hit in results:
    print(hit.document['text'])

69% of business leaders have experienced a corporate crisis in the last five years yet 
29% of companies have no staff dedicated to crisis preparedness

Slutsats

Det här inlägget presenterade en genomgång av att använda Coheres flerspråkiga inbäddningsmodell i Amazon Bedrock i domänen för finansiella tjänster. I synnerhet visade vi ett exempel på ett flerspråkigt sökprogram för finansiella artiklar. Vi såg hur inbäddningsmodellen möjliggör effektiv och korrekt upptäckt av information och därigenom höjer produktiviteten och utdatakvaliteten hos en analytiker.

Coheres flerspråkiga inbäddningsmodell stöder över 100 språk. Det tar bort komplexiteten i att bygga applikationer som kräver att man arbetar med en samling dokument på olika språk. De Cohere Embed-modell är utbildad för att leverera resultat i verkliga tillämpningar. Den hanterar bullriga data som indata, anpassar sig till komplexa RAG-system och levererar kostnadseffektivitet från sin kompressionsmedvetna träningsmetod.

Börja bygga med Coheres flerspråkiga inbäddningsmodell i Amazon Bedrock idag.

Om författarna

James Yi är senior AI/ML Partner Solutions Architect i Technology Partners COE Tech-team på Amazon Web Services. Han brinner för att arbeta med företagskunder och partners för att designa, distribuera och skala AI/ML-applikationer för att få affärsvärde. Utanför jobbet tycker han om att spela fotboll, resa och umgås med sin familj.

Gonzalo Betegon är en lösningsarkitekt på Cohere, en leverantör av banbrytande teknologi för naturlig språkbehandling. Han hjälper organisationer att möta sina affärsbehov genom att använda stora språkmodeller.

Meor Amer är en Developer Advocate på Cohere, en leverantör av banbrytande teknik för naturlig språkbehandling (NLP). Han hjälper utvecklare att bygga banbrytande applikationer med Coheres stora språkmodeller (LLM).

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/

Tidsstämpel: Januari 12, 2024

Tidsstämpel: Juni 15, 2022

Återutgiven av Platon

Importera data från över 40 datakällor för no-code maskininlärning med Amazon SageMaker Canvas

Snabbare tid till affärsinsikter med Amazon SageMaker Data Wrangler direktanslutning till Snowflake | Amazon webbtjänster

Minska energiförbrukningen för dina maskininlärningsbelastningar med upp till 90 % med specialbyggda AWS acceleratorer | Amazon webbtjänster

Moderera, klassificera och bearbeta dokument med Amazon Rekognition och Amazon Textract

MDaudit använder AI för att förbättra intäkterna för sjukvårdskunder | Amazon webbtjänster

Använd en försignerad URL för att ge dina affärsanalytiker säker åtkomst till Amazon SageMaker Canvas

Markera text medan den läses upp med Amazon Polly | Amazon webbtjänster

Extrahera insikter från SAP ERP med no-code ML-lösningar med Amazon AppFlow och Amazon SageMaker Canvas

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto