Arukas dokumenditöötlus Amazon Textracti, Amazon Bedrocki ja LangChainiga | Amazoni veebiteenused

Taasavaldanud Platon

järgijaid: 0

Tänasel infoajastul kujutavad lugematutes dokumentides sisalduvad tohutud andmemahud ettevõtetele nii väljakutset kui ka võimalust. Traditsioonilised dokumenditöötlusmeetodid jäävad sageli alla tõhususe ja täpsuse osas, jättes ruumi uuendustele, kuluefektiivsusele ja optimeerimisele. Intelligentse dokumenditöötluse (IDP) tulekuga on dokumenditöötluses toimunud märkimisväärsed edusammud. IDP abil saavad ettevõtted muuta erinevat tüüpi dokumenditüüpide struktureerimata andmed struktureeritud ja teostatavateks ülevaadeteks, suurendades oluliselt tõhusust ja vähendades käsitsi tehtavaid jõupingutusi. Siiski potentsiaal sellega ei lõpe. Integreerides protsessi generatiivse tehisintellekti (AI), saame IRL-i võimalusi veelgi suurendada. Generatiivne AI ei paku mitte ainult täiustatud võimalusi dokumentide töötlemisel, vaid ka dünaamilist kohanemisvõimet muutuvate andmemustritega. See postitus viib teid läbi IDP ja generatiivse AI sünergia, paljastades, kuidas need esindavad dokumentide töötlemise järgmist piiri.

Me käsitleme IDP-d üksikasjalikult meie sarjas Arukas dokumenditöötlus AWS-i AI-teenustega (Osa 1 ja Osa 2). Selles postituses arutame, kuidas laiendada uut või olemasolevat IDP arhitektuuri suurte keelemudelitega (LLM). Täpsemalt arutame, kuidas saaksime integreeruda Amazoni tekst koos LangChain dokumendilaadurina ja Amazonase aluspõhi dokumentidest andmete eraldamiseks ja generatiivsete AI-võimaluste kasutamiseks IDP erinevates etappides.

Amazon Textract on masinõppeteenus (ML), mis eraldab skannitud dokumentidest automaatselt teksti, käsitsikirja ja andmed. Amazon Bedrock on täielikult hallatav teenus, mis pakub hõlpsasti kasutatavate API-de kaudu valikut suure jõudlusega alusmudeleid (FM-e).

Järgmine diagramm on kõrgetasemeline võrdlusarhitektuur, mis selgitab, kuidas saate IDP töövoogu vundamendimudelitega veelgi täiustada. LLM-e saate kasutada IDP ühes või kõigis faasides, olenevalt kasutusjuhtumist ja soovitud tulemusest.

Järgmistes jaotistes käsitleme üksikasjalikult, kuidas Amazon Textract integreeritakse generatiivsetesse AI töövoogudesse, kasutades LangChaini dokumentide töötlemiseks iga konkreetse ülesande jaoks. Siin esitatud koodiplokke on lühiduse huvides kärbitud. Vaadake meie GitHubi hoidla üksikasjalike Pythoni märkmike ja samm-sammulise ülevaate jaoks.

Dokumentidest teksti väljavõtmine on ülioluline aspekt dokumentide töötlemisel LLM-idega. Rakendust Amazon Textract saate kasutada dokumentidest struktureerimata toorteksti eraldamiseks ja originaalsete poolstruktureeritud või struktureeritud objektide (nt võtme-väärtuste paarid ja dokumendis olevad tabelid) säilitamiseks. Dokumendipaketid, nagu tervishoiu- ja kindlustusnõuded või hüpoteegid, koosnevad keerukatest vormidest, mis sisaldavad palju teavet struktureeritud, poolstruktureeritud ja struktureerimata vormingutes. Dokumentide ekstraheerimine on siin oluline samm, sest LLM-id saavad kasu rikkalikust sisust, et luua täpsemaid ja asjakohasemaid vastuseid, mis muidu võivad mõjutada LLM-ide väljundi kvaliteeti.

LangChain on võimas avatud lähtekoodiga raamistik LLM-idega integreerimiseks. LLM-id on üldiselt mitmekülgsed, kuid neil võib olla raskusi domeenispetsiifiliste ülesannetega, kus on vaja sügavamat konteksti ja nüansirikkaid vastuseid. LangChain annab selliste stsenaariumide arendajatele võimaluse luua agente, mis suudavad keerulised ülesanded väiksemateks alamülesanneteks jagada. Alamülesanded saavad seejärel lisada LLM-i konteksti ja mälu, ühendades ja aheldades LLM-i viipasid.

LangChain pakub dokumendilaadurid mis suudab dokumentidest andmeid laadida ja teisendada. Saate neid kasutada dokumentide struktureerimiseks eelistatud vormingutesse, mida saavad LLM-id töödelda. The AmazonTextractPDFLoader on teenuselaaduri tüüpi dokumendilaadur, mis pakub kiiret viisi dokumenditöötluse automatiseerimiseks, kasutades Amazon Textracti koos LangChainiga. Lisateabe saamiseks AmazonTextractPDFLoader, vaadake jaotist LangChain dokumentatsioon. Amazon Textracti dokumendilaaduri kasutamiseks importige see kõigepealt LangChaini teegist:

from langchain.document_loaders import AmazonTextractPDFLoader

https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()

Samuti saate Amazon S3-s dokumente salvestada ja neile viidata s3:// URL-i mustri abil, nagu on selgitatud Juurdepääs ämbrile, kasutades S3://ja edastage see S3 tee Amazon Textracti PDF-laadurile:

import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()

Mitmeleheküljeline dokument sisaldab mitut lehekülge teksti, millele pääseb juurde dokumendiobjekti kaudu, mis on lehtede loend. Järgmine kood liigub läbi dokumendiobjekti lehtede ja prindib dokumendi teksti, mis on saadaval page_content atribuut:

print(len(documents)) for document in documents: print(document.page_content)

Dokumentide klassifitseerimiseks saab tõhusalt kasutada Amazon Comprehendi ja LLM-e. Amazon Comprehend on loomuliku keele töötlemise (NLP) teenus, mis kasutab tekstist ülevaate saamiseks ML-i. Amazon Comprehend toetab ka kohandatud klassifitseerimismudelite koolitust koos paigutusteadlikkusega sellistes dokumentides nagu PDF-id, Word ja pildivormingud. Lisateavet Amazon Comprehendi dokumendiklassifikaatori kasutamise kohta leiate aadressilt Amazon Comprehend dokumendi klassifikaator lisab suurema täpsuse tagamiseks küljendustoe.

LLM-idega sidudes muutub dokumentide klassifikatsioon võimsaks lähenemisviisiks suurte dokumendimahtude haldamisel. LLM-id on abiks dokumentide klassifitseerimisel, kuna nad saavad analüüsida dokumendi teksti, mustreid ja kontekstuaalseid elemente, kasutades loomulikku keelt. Samuti saate neid täpsustada konkreetsete dokumendiklasside jaoks. Kui IDP-konveierisse lisatud uus dokumenditüüp vajab klassifitseerimist, saab LLM töödelda teksti ja kategoriseerida dokumendi klasside komplekti alusel. Järgnev on näidiskood, mis kasutab Amazon Textracti toel töötavat LangChaini dokumendilaadijat, et eraldada dokumendist teksti ja kasutada seda dokumendi klassifitseerimiseks. Me kasutame Antroopiline Claude v2 klassifikatsiooni tegemiseks Amazon Bedrocki kaudu.

Järgmises näites eraldame esmalt teksti patsiendi väljakirjutamise aruandest ja kasutame selle klassifitseerimiseks LLM-i, võttes arvesse kolme erinevat dokumenditüüpi.DISCHARGE_SUMMARY, RECEIPTja PRESCRIPTION. Järgmine ekraanipilt näitab meie aruannet.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")

Kokkuvõte hõlmab antud teksti või dokumendi tihendamist lühemaks versiooniks, säilitades samal ajal selle põhiteabe. See meetod on kasulik tõhusaks teabeotsinguks, mis võimaldab kasutajatel kiiresti mõista dokumendi põhipunkte ilma kogu sisu lugemata. Kuigi Amazon Textract ei tee otseselt teksti kokkuvõtet, pakub see põhilisi võimalusi kogu teksti dokumentidest eraldamiseks. See ekstraheeritud tekst on sisendiks meie LLM-mudelisse teksti kokkuvõtete tegemiseks.

Kasutades sama tühjendusaruannet, kasutame AmazonTextractPDFLoader sellest dokumendist teksti eraldamiseks. Nagu varemgi, kasutame Amazon Bedrocki kaudu Claude v2 mudelit ja initsialiseerime selle viipaga, mis sisaldab juhiseid selle kohta, mida tekstiga teha (antud juhul kokkuvõtet). Lõpuks käivitame LLM-ahela, edastades dokumendilaadijast ekstraktitud teksti. See käivitab LLM-is järeldamistoimingu koos viipaga, mis koosneb kokkuvõtte tegemise juhistest ja dokumendi tekstist, mida tähistab Document. Vaadake järgmist koodi:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() template = """ Given a full document, give me a concise summary. Skip any preamble text and just give the summary. <document>{doc_text}</document>
<summary>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") num_tokens = bedrock_llm.get_num_tokens(document[0].page_content)
print (f"Our prompt has {num_tokens} tokens nn=========================n") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
summary = llm_chain.run(document[0].page_content) print(summary.replace("</summary>","").strip())

Kood loob patsiendi väljakirjutamise kokkuvõtliku aruande kokkuvõtte:

Our prompt has 797 tokens =========================
35 yo M admitted for epigastric abdominal pain, nausea, fatigue. Found to likely have ulcer. Discharged with activity restrictions, antibiotics, diet changes, and follow up.

Eelmises näites kasutati kokkuvõtte tegemiseks üheleheküljelist dokumenti. Tõenäoliselt tegelete siiski dokumentidega, mis sisaldavad mitut lehekülge ja mis vajavad kokkuvõtet. Levinud viis mitmele lehele kokkuvõtete tegemiseks on esmalt koostada kokkuvõtted väiksematest tekstiosadest ja seejärel kombineerida väiksemaid kokkuvõtteid, et saada dokumendist lõplik kokkuvõte. Pange tähele, et see meetod nõuab LLM-ile mitu kõnet. Selle loogika saab hõlpsasti koostada; LangChain pakub aga sisseehitatud kokkuvõtete ahelat, mis suudab kokku võtta suuri tekste (mitmeleheküljelistest dokumentidest). Kokkuvõte võib toimuda mõlema kaudu map_reduce või stuff valikud, mis on saadaval mitme LLM-i kõne haldamiseks. Järgmises näites kasutame map_reduce mitmeleheküljelise dokumendi kokkuvõtte tegemiseks. Järgmine joonis illustreerib meie töövoogu.

Alustuseks eraldame dokumendi ja vaatame žetoonide koguarvu lehekülje kohta ja lehekülgede koguarvu:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") loader = AmazonTextractPDFLoader(f"s3://{data_bucket}/bedrock-sample/health_plan.pdf")
document = loader.load()
num_docs = len(document)
print (f"There are {num_docs} pages in the document")
for index, doc in enumerate(document): num_tokens_first_doc = bedrock_llm.get_num_tokens(doc.page_content) print (f"Page {index+1} has approx. {num_tokens_first_doc} tokens") There are 5 pages in the document
Page 1 has approx. 533 tokens
Page 2 has approx. 1323 tokens
Page 3 has approx. 997 tokens
Page 4 has approx. 1643 tokens
Page 5 has approx. 867 tokens

Järgmisena kasutame LangChaini sisseehitatud load_summarize_chain kogu dokumendi kokkuvõtteks:

from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())

Standardimine ning küsimused ja vastused

Selles jaotises käsitleme standardimist ning küsimuste ja vastuste ülesandeid.

Standardimine

Väljundi standardimine on teksti genereerimise ülesanne, mille puhul kasutatakse väljundteksti ühtse vormingu tagamiseks LLM-e. See ülesanne on eriti kasulik võtmeolemi ekstraheerimise automatiseerimiseks, mis nõuab väljundi joondamist soovitud vormingutega. Näiteks võime järgida kiireid inseneri parimaid tavasid, et viimistleda LLM-i, et vormindada kuupäevad KK/PP/AAAA vormingusse, mis võib ühilduda andmebaasi KUUPÄEV veeruga. Järgmine koodiplokk näitab näidet selle kohta, kuidas seda tehakse LLM-i ja kiire inseneri abil. Me mitte ainult ei standardiseeri kuupäevaväärtuste väljundvormingut, vaid palume mudelil genereerida lõplik väljund JSON-vormingus, et seda oleks lihtne kasutada ka meie järgnevates rakendustes. Me kasutame LangChaini väljenduskeel (LCEL) ühendada kaks tegevust. Esimene toiming palub LLM-il genereerida JSON-vormingus väljund ainult dokumendi kuupäevadest. Teine toiming võtab JSON-i väljundi ja standardib kuupäevavormingu. Pange tähele, et seda kaheastmelist toimingut saab teha ka ühes etapis õige kiire inseneritööga, nagu näeme normaliseerimisel ja mallimisel.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") template1 = """ Given a full document, answer the question and format the output in the format specified. Skip any preamble text and just generate the JSON. <format>
{{ "key_name":"key_value"
}}
</format>
<document>{doc_text}</document>
<question>{question}</question>""" template2 = """ Given a JSON document, format the dates in the value fields precisely in the provided format. Skip any preamble text and just generate the JSON. <format>DD/MM/YYYY</format>
<json_document>{json_doc}</json_document> """ prompt1 = PromptTemplate(template=template1, input_variables=["doc_text", "question"])
llm_chain = LLMChain(prompt=prompt1, llm=bedrock_llm, verbose=True) prompt2 = PromptTemplate(template=template2, input_variables=["json_doc"])
llm_chain2 = LLMChain(prompt=prompt2, llm=bedrock_llm, verbose=True) chain = ( llm_chain | {'json_doc': lambda x: x['text'] } | llm_chain2
) std_op = chain.invoke({ "doc_text": document[0].page_content, "question": "Can you give me the patient admitted and discharge dates?"}) print(std_op['text']) { "admit_date":"07/09/2020", "discharge_date":"08/09/2020"
}

Eelneva koodinäidise väljundiks on JSON-struktuur kuupäevadega 07/09/2020 ja 08/09/2020, mis on vormingus DD/MM/YYYY ja on vastavalt patsiendi vastuvõtu ja haiglast lahkumise kuupäev. eelarve täitmise aruande koondaruande juurde.

Küsimused ja vastused koos otsingu laiendatud genereerimisega

On teada, et LLM-id säilitavad faktilist teavet, mida sageli nimetatakse nende maailmateadmiseks või maailmavaateks. Peenhäälestamisel võivad need anda tipptasemel tulemusi. Siiski on piiranguid, kui tõhusalt saab LLM neile teadmistele juurde pääseda ja nendega manipuleerida. Selle tulemusena ei pruugi ülesannete puhul, mis sõltuvad suuresti konkreetsetest teadmistest, olla nende toimivus teatud kasutusjuhtudel optimaalne. Näiteks küsimuste ja vastuste stsenaariumide puhul on oluline, et mudel järgiks rangelt dokumendis esitatud konteksti, tuginemata üksnes oma maailmateadmistele. Sellest kõrvalekaldumine võib põhjustada valeandmete esitamist, ebatäpsusi või isegi valesid vastuseid. Selle probleemi lahendamiseks kõige sagedamini kasutatav meetod on tuntud kui Täiustatud põlvkonna otsimine (RAG). See lähenemisviis sünergiseerib nii otsingumudelite kui ka keelemudelite tugevaid külgi, suurendades genereeritud vastuste täpsust ja kvaliteeti.

LLM-id võivad oma mälupiirangute ja kasutatava riistvara piirangute tõttu kehtestada ka märgipiiranguid. Selle probleemi lahendamiseks kasutatakse suurte dokumentide jagamiseks väiksemateks osadeks selliseid meetodeid nagu tükeldamine, mis mahuvad LLM-ide lubade piiridesse. Teisest küljest kasutatakse NLP-s manuseid peamiselt sõnade semantilise tähenduse ja nende suhete jäädvustamiseks teiste sõnadega suuremõõtmelises ruumis. Need manused muudavad sõnad vektoriteks, võimaldades mudelitel tekstiandmeid tõhusalt töödelda ja mõista. Mõistes sõnade ja fraaside vahelisi semantilisi nüansse, võimaldavad manustamine LLM-idel luua sidusaid ja kontekstipõhiseid väljundeid. Pange tähele järgmisi põhimõisteid:

Raiumine – See protsess jagab suure hulga teksti dokumentidest väiksemateks sisukateks tekstilõikudeks.
Manustamised – Need on iga tüki fikseeritud mõõtmetega vektorteisendused, mis säilitavad tükkide semantilise teabe. Need manustused laaditakse seejärel vektorandmebaasi.
Vektori andmebaas – See on sõnade manustamise või vektorite andmebaas, mis esindab sõnade konteksti. See toimib teadmiste allikana, mis aitab NLP-ülesandeid dokumentide töötlemise torustikes. Vektorandmebaasi eeliseks on siin see, et see võimaldab teksti genereerimise ajal pakkuda LLM-idele ainult vajalikku konteksti, nagu selgitame järgmises jaotises.

RAG kasutab manustamist, et mõista ja tuua otsingufaasis asjakohaseid dokumendisegmente. Seda tehes saab RAG töötada LLM-ide piirangute piires, tagades, et genereerimiseks valitakse välja kõige asjakohasem teave, mille tulemuseks on täpsemad ja kontekstipõhised väljundid.

Järgmine diagramm illustreerib nende tehnikate integreerimist LLM-idele sisendi loomiseks, parandades nende konteksti mõistmist ja võimaldades asjakohasemaid kontekstisiseseid vastuseid. Üks lähenemisviis hõlmab sarnasuse otsingut, kasutades nii vektorandmebaasi kui ka tükeldamist. Vektorandmebaas salvestab semantilist teavet esindavaid manuseid ja tükeldamine jagab teksti hallatavateks osadeks. Kasutades seda sarnasuse otsingu konteksti, saavad LLM-id käivitada selliseid ülesandeid nagu küsimustele vastamine ja domeenispetsiifilised toimingud, nagu klassifitseerimine ja rikastamine.

Selle postituse puhul kasutame dokumentidega kontekstis küsimuste ja vastuste tegemiseks RAG-põhist lähenemist. Järgmises koodinäidis eraldame dokumendist teksti ja seejärel jagame dokumendi väiksemateks tekstilõikudeks. Tükeldamine on vajalik, kuna meil võivad olla suured mitmeleheküljelised dokumendid ja meie LLM-idel võivad olla märgipiirangud. Seejärel laaditakse need tükid vektorite andmebaasi, et järgmistes etappides sarnasusotsingut teha. Järgmises näites kasutame mudelit Amazon Titan Embed Text v1, mis teostab dokumenditükkide vektormanused:

from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import BedrockEmbeddings
from langchain.vectorstores import FAISS
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.chains import RetrievalQA loader = AmazonTextractPDFLoader("amazon_10k.pdf")
document = loader.load() text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, separators=["nn", "n", ".", "!", "?", ",", " ", ""], chunk_overlap=0)
texts = text_splitter.split_documents(document)
embeddings = BedrockEmbeddings(client=bedrock, model_id="amazon.titan-embed-text-v1")
db = FAISS.from_documents(documents=texts, embedding=embeddings) retriever = db.as_retriever(search_type='mmr', search_kwargs={"k": 3}) template = """ Answer the question as truthfully as possible strictly using only the provided text, and if the answer is not contained within the text, say "I don't know". Skip any preamble text and reasoning and give just the answer. <text>{context}</text>
<question>{question}</question>
<answer>""" # define the prompt template
qa_prompt = PromptTemplate(template=template, input_variables=["context","question"]) chain_type_kwargs = { "prompt": qa_prompt, "verbose": False } # change verbose to True if you need to see what's happening bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
qa = RetrievalQA.from_chain_type( llm=bedrock_llm, chain_type="stuff", retriever=retriever, chain_type_kwargs=chain_type_kwargs, verbose=False # change verbose to True if you need to see what's happening
) question="Who is the administrator for this plan?"
result = qa.run(question)
print(result.strip())

Kood loob LLM-i jaoks asjakohase konteksti, kasutades vektorandmebaasist sarnasuse otsingutoiminguga tagastatud tekstitükke. Selle näite puhul kasutame avatud lähtekoodiga programmi FAISS vektorpood vektori näidisandmebaasina, et salvestada iga tekstitüki vektormanused. Seejärel määratleme vektorandmebaasi kui a LangChaini retriiver, mis kantakse edasi RetrievalQA kett. See käivitab sisemiselt vektorandmebaasis sarnasuse otsingupäringu, mis tagastab n (meie näites n = 3) tekstiosa, mis on küsimuse jaoks asjakohased. Lõpuks juhitakse LLM-i ahelat koos asjakohase kontekstiga (rühma asjakohaste tekstitükkidega) ja küsimusega, millele LLM peab vastama. RAG-iga seotud küsimuste ja vastuste samm-sammulise koodijuhise saamiseks vaadake Pythoni märkmikku aadressil GitHub.

FAISS-i alternatiivina võite kasutada ka Amazon OpenSearch Service'i vektorandmebaasi võimalused, Amazon Relational Database Service (Amazon RDS) PostgreSQL-i jaoks koos pgvector laiendust vektorandmebaasidena või avatud lähtekoodiga Chroma andmebaasina.

Küsimused ja vastused tabeliandmetega

Dokumentides sisalduvate tabeliandmete töötlemine võib nende struktuurse keerukuse tõttu osutuda LLM-i jaoks keeruliseks. Amazon Textracti saab täiendada LLM-idega, kuna see võimaldab eraldada dokumentidest tabeleid elementide (nt leht, tabel ja lahtrid) pesastatud vormingus. Tabeliandmetega küsimuste ja vastuste esitamine on mitmeetapiline protsess ja seda saab saavutada enesepäring. Järgnevalt on toodud sammude ülevaade.

Tehke Amazon Textracti abil dokumentidest tabelid välja. Amazon Textracti abil saab dokumendist eraldada tabelistruktuuri (read, veerud, päised).
Salvestage tabeliandmed vektorandmebaasi koos metaandmete teabega, nagu päise nimed ja iga päise kirjeldus.
Kasutage viipa struktureeritud päringu koostamiseks, kasutades LLM-i, et tuletada tabelist andmed.
Kasutage päringut vastavate tabeliandmete väljavõtmiseks vektorandmebaasist.

Näiteks pangakonto väljavõttes viipaga „Millised on tehingud, mille sissemakse on üle 1000 dollari” teeb LLM järgmised sammud.

Koostage päring, nt “Query: transactions” , “filter: greater than (Deposit$)”.
Teisendage päring struktureeritud päringuks.
Rakendage struktureeritud päring vektorandmebaasi, kus meie tabeliandmed on salvestatud.

Küsimuste ja vastuste samm-sammulise näidiskoodi tabeliga tutvustuse saamiseks vaadake Pythoni märkmikku GitHub.

Mallimine ja normaliseerimised

Selles jaotises vaatleme, kuidas kasutada kiireid inseneritehnikaid ja LangChaini sisseehitatud mehhanismi, et luua väljund koos väljavõtetega dokumendist kindlas skeemis. Samuti teostame ekstraheeritud andmete standardimist, kasutades eelnevalt käsitletud tehnikaid. Alustuseks määratleme soovitud väljundi malli. See toimib skeemina ja sisaldab üksikasju iga üksuse kohta, mida soovime dokumendi tekstist eraldada.

output_template= { "doctor_name":{ "type": "string", "description": "The doctor or provider's full name" }, "provider_id":{ "type": "string", "description": "The doctor or provider's ID" }, "patient_name":{ "type": "string", "description": "The patient's full name" }, …
}

Pange tähele, et iga olemi puhul kasutame kirjeldust, et selgitada, mis see olem on, et aidata LLM-il dokumendi tekstist väärtust eraldada. Järgmises näidiskoodis kasutame seda malli, et koostada LLM-i viip koos dokumendist eraldatud tekstiga, kasutades AmazonTextractPDFLoader ja seejärel teha mudeli põhjal järeldusi:

from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain template = """ You are a helpful assistant. Please extract the following details from the document and format the output as JSON using the keys. Skip any preamble text and generate the final answer. <details>
{details}
</details> <keys>
{keys}
</keys> <document>
{doc_text}
<document> <final_answer>""" details = "n".join([f"{key}: {value['description']}" for key, value in output_template.items()])
keys = "n".join([f"{key}" for key, value in output_template.items()]) prompt = PromptTemplate(template=template, input_variables=["details", "keys", "doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
output = llm_chain.run({"doc_text": full_text, "details": details, "keys": keys}) print(output) { "doctor_name": "Mateo Jackson, Phd", "provider_id": "XA/7B/00338763", "patient_name": "John Doe", … }

Nagu näete, siis {keys} osa viipast on meie malli võtmed ja {details} on võtmed koos nende kirjeldusega. Sel juhul ei küsi me mudelit sõnaselgelt väljundi vorminguga, välja arvatud juhises täpsustatud väljund JSON-vormingus genereerimiseks. See töötab enamasti; kuna aga LLM-ide väljund on mittedeterministlik tekstigenereerimine, tahame vormingu selgesõnaliselt määrata viipa juhiste osana. Selle lahendamiseks saame kasutada LangChaini struktureeritud väljundparser moodul, et kasutada ära automatiseeritud viipade projekteerimist, mis aitab teisendada meie malli vormingujuhiseks. Kasutame vormingujuhise loomiseks varem määratletud malli järgmiselt:

from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser response_schems = list() for key, value in output_template.items(): schema = ResponseSchema(name=key, description=value['description'], type=value['type']) response_schems.append(schema)
output_parser = StructuredOutputParser.from_response_schemas(response_schems)
format_instructions= output_parser.get_format_instructions()
print(format_instructions)

. format_instructions muutuja sisaldab nüüd vormingujuhiste viipa:

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```": ```json
{ "doctor_name": string // The doctor or provider's full name "provider_id": string // The doctor or provider's ID "patient_name": string // The patient's full name …
}
```

Seejärel kasutame seda muutujat oma algses viipas juhisena LLM-ile, et see eraldaks ja vormindaks väljundi soovitud skeemis, tehes meie viipa väikese muudatuse:

template = """ You are a helpful assistant. Please extract the following details from the document and strictly follow the instructions described in the format instructions to format the output. Skip any preamble text and generate the final answer. Do not generate incomplete answer. <details>
{details}
</details> <format_instructions>
{format_instructions}
</format_instructions> <document>
{doc_text}
<document> <final_answer>"""

Seni oleme andmed dokumendist välja kaevanud ainult soovitud skeemis. Siiski peame siiski tegema mõningast standardimist. Näiteks soovime, et patsiendi vastuvõtukuupäev ja väljakirjutamise kuupäev eraldataks vormingus PP/KK/AAAA. Sel juhul suurendame description võti koos vormindamisjuhistega:

new_output_template= { … "admitted_date":{ "type": "string", "description": "Date the patient was admitted to the hospital, this should be formatted in DD/MM/YYYY format." }, "discharge_date":{ "type": "string", "description": "Date the patient was discharged from the hospital, this should be formatted in DD/MM/YYYY format." …
}

Vaadake Pythoni märkmikku GitHub täieliku samm-sammulise ülevaate ja selgituse saamiseks.

Õigekirjakontroll ja parandused

LLM-id on näidanud üles märkimisväärseid võimeid inimsarnase teksti mõistmisel ja genereerimisel. Üks vähem arutatud, kuid tohutult kasulikke LLM-ide rakendusi on nende potentsiaal grammatika kontrollimisel ja lausete parandamisel dokumentides. Erinevalt traditsioonilistest grammatikakontrollijatest, mis tuginevad eelnevalt määratletud reeglitele, kasutavad LLM-id mustreid, mille nad on tuvastanud suure hulga tekstiandmete põhjal, et teha kindlaks, mis on õige või ladus keel. See tähendab, et nad suudavad tuvastada nüansse, konteksti ja nüansse, mida reeglipõhised süsteemid võivad märkamata jätta.

Kujutage ette teksti, mis on välja võetud patsiendi väljakirjutamise kokkuvõttest, mis ütleb: „Patsiendi Jon Doe, kes võeti vastu raske kopsupõletikuga, paranemine on märgatav ja teda saab ohutult välja kirjutada. Järelkontrollid on kavandatud järgmisel nädalal. Traditsiooniline õigekirjakontroll võib vigadena ära tunda „admittd”, „pneumoonia”, „täiustused” ja „nex”. Nende vigade kontekst võib aga kaasa tuua täiendavaid vigu või üldisi soovitusi. LLM, kes on varustatud ulatusliku väljaõppega, võib soovitada: „Patsiendi John Doe, kes võeti vastu raske kopsupõletikuga, seisund on märgatavalt paranenud ja ta võib ohutult välja kirjutada. Järelkontrollid on kavandatud järgmisel nädalal."

Järgnev on halvasti käsitsi kirjutatud näidisdokument, millel on sama tekst, nagu eelnevalt selgitatud.

Eraldame dokumendi Amazon Textracti dokumendilaadijaga ja anname seejärel LLM-ile käsu parandada ekstraheeritud tekst, et parandada kõik kirja- ja/või grammatikavead:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/hand_written_note.pdf")
document = loader.load() template = """ Given a detailed 'Document', perform spelling and grammatical corrections. Ensure the output is coherent, polished, and free from errors. Skip any preamble text and give the answer. <document>{doc_text}</<document>
<answer> """ prompt = PromptTemplate(template=template, input_variables=["doc_text"])
llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
llm_chain = LLMChain(prompt=prompt, llm=llm) try: txt = document[0].page_content std_op = llm_chain.run({"doc_text": txt}) print("Extracted text") print("==============") print(txt) print("nCorrected text") print("==============") print(std_op.strip()) print("n")
except Exception as e: print(str(e))

Eelmise koodi väljund näitab originaalteksti, mille on eraldanud dokumendilaadija, millele järgneb LLM-i loodud parandatud tekst:

Extracted text
==============
Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Corrected text
==============
Patient John Doe, who was admitted with severe pneumonia, has shown significant improvement and can be safely discharged. Follow-up appointments are scheduled for next week.

Pidage meeles, et nii võimsad kui ka LLM-id on, on oluline vaadata nende ettepanekuid just sellistena – soovitustena. Kuigi need tabavad muljetavaldavalt hästi keele keerukust, pole nad eksimatud. Mõned soovitused võivad muuta originaalteksti kavandatud tähendust või tooni. Seetõttu on ülioluline, et arvustajad kasutaksid LLM-i loodud parandusi juhisena, mitte absoluutsena. Inimese intuitsiooni koostöö LLM-i võimalustega tõotab tulevikku, kus meie kirjalik suhtlus pole mitte ainult vigadeta, vaid ka rikkalikum ja nüansirikkam.

Järeldus

Generatiivne AI muudab seda, kuidas saate dokumente IDP-ga töödelda, et saada teadmisi. Postituses AWS-i intelligentse dokumenditöötluse täiustamine generatiivse AI-ga, arutasime torujuhtme erinevaid etappe ja seda, kuidas AWS-i klient Ricoh täiustab oma IDP-konveieri LLM-idega. Selles postituses arutasime erinevaid mehhanisme IDP töövoo täiustamiseks LLM-idega Amazon Bedrocki, Amazon Textracti ja populaarse LangChaini raamistiku kaudu. Saate juba täna alustada uue Amazon Textracti dokumendilaadijaga LangChainiga, kasutades meie veebisaidil saadaolevaid näidismärkmikke. GitHubi hoidla. Lisateavet generatiivse AI-ga töötamise kohta AWS-is leiate aadressilt Teatame uutest tööriistadest generatiivse AI-ga ehitamiseks AWS-is.

Autoritest

Sonali Sahu juhib intelligentset dokumenditöötlust koos AI/ML teenuste meeskonnaga AWS-is. Ta on autor, mõttejuht ja kirglik tehnoloog. Tema põhivaldkonnaks on AI ja ML ning ta esineb sageli AI ja ML konverentsidel ja kohtumistel üle maailma. Tal on nii laialdane kui ka sügav kogemus tehnoloogias ja tehnoloogiatööstuses ning tervishoiu, finantssektori ja kindlustuse valdkonnas.

Anjan Biswas on tehisintellektiteenuste lahenduste vanemarhitekt, kes keskendub tehisintellektile/ML-ile ja andmeanalüüsile. Anjan on osa ülemaailmsest AI-teenuste meeskonnast ja teeb koostööd klientidega, et aidata neil mõista ja arendada lahendusi tehisintellekti ja ML-ga seotud äriprobleemidele. Anjanil on üle 14-aastane globaalse tarneahela, tootmis- ja jaemüügiorganisatsioonidega töötamise kogemus ning ta aitab aktiivselt klientidel AWS-i tehisintellekti teenustega algust teha ja laiendada.

Chinmayee Rane on AI/ML spetsialistilahenduste arhitekt ettevõttes Amazon Web Services. Ta on kirglik rakendusmatemaatika ja masinõppe vastu. Ta keskendub intelligentse dokumenditöötluse ja generatiivsete AI-lahenduste kavandamisele AWS-i klientidele. Väljaspool tööd naudib ta salsat ja bachata tantsu.

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
Allikas: https://aws.amazon.com/blogs/machine-learning/intelligent-document-processing-with-amazon-textract-amazon-bedrock-and-langchain/

Ajatempel: Oktoober 24, 2023

Ajatempel: November 26, 2023

Arukas dokumenditöötlus Amazon Textracti, Amazon Bedrocki ja LangChain | Amazoni veebiteenused

Taasavaldanud Platon

Standardimine ning küsimused ja vastused

Standardimine

Küsimused ja vastused koos otsingu laiendatud genereerimisega

Küsimused ja vastused tabeliandmetega

Mallimine ja normaliseerimised

Õigekirjakontroll ja parandused

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Valmistage ette aegridade andmed rakendusega Amazon SageMaker Data Wrangler

Looge Amazon SageMaker JumpStart | suurte keelemudelitega serverita koosolekute kokkuvõtte taustaprogramm Amazoni veebiteenused

Tootmisvalmis generatiivsete AI-rakenduste loomine ettevõtte otsinguks, kasutades Haystacki torujuhtmeid ja Amazon SageMaker JumpStart koos LLM-idega | Amazoni veebiteenused

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto