SmugMugs holdbare søgerørledninger til Amazon OpenSearch Service | Amazon Web Services

Genudgivet af Platon

Abonnenter: 0

SmugMug driver to meget store online fotoplatforme, SmugMug , Flickr, hvilket gør det muligt for mere end 100 millioner kunder sikkert at opbevare, søge, dele og sælge titusinder af billeder. Kunder, der uploadede og søgte gennem årtiers billeder, hjalp med at gøre søgning til kritisk infrastruktur, der voksede støt siden SmugMug første gang blev brugt Amazon CloudSearch i 2012, efterfulgt af Amazon OpenSearch Service siden 2018, efter at have nået milliarder af dokumenter og terabytes søgelager.

Her deler Lee Shepherd, SmugMug Staff Engineer, SmugMugs søgearkitektur, der bruges til at publicere, udfylde og spejle live trafik til flere klynger. SmugMug bruger disse pipelines til at benchmarke, validere og migrere til nye konfigurationer, herunder Graviton-baserede r6gd.2xlarge-instanser fra i3.2xlarge, sammen med testning Amazon OpenSearch Serverløs. Vi dækker tre pipelines, der bruges til publicering, udfyldning og forespørgsel uden at introducere spidse urealistiske trafikmønstre og uden nogen indvirkning på produktionstjenester.

Der er to vigtigste arkitektoniske stykker, der er afgørende for processen:

En holdbar kilde til sandhed for indeksdata. Det er bedste praksis og en del af vores backup-strategi for at have en holdbar butik ud over OpenSearch-indekset, og Amazon DynamoDB giver skalerbarhed og integration med AWS Lambda det forenkler meget af processen. Vi bruger DynamoDB til andre ikke-søgetjenester, så dette var en naturlig pasform.
En Lambda-funktion til at publicere data fra sandhedens kilde i OpenSearch. Ved brug af funktionsaliasser hjælper med at køre flere konfigurationer af den samme Lambda-funktion på samme tid og er nøglen til at holde data synkroniseret.

Publicering

Udgivelsespipelinen er drevet af begivenheder som en bruger, der indtaster søgeord eller billedtekster, nye uploads eller etiketregistrering via Amazon-anerkendelse. Disse hændelser behandles ved at kombinere data fra et par andre aktivbutikker som f.eks Amazon Aurora MySQL-kompatibel udgave , Amazon Simple Storage Service (Amazon S3), før du skriver et enkelt element i DynamoDB.

At skrive til DynamoDB påberåber sig en Lambda-udgivelsesfunktion gennem DynamoDB Streams Kinesis Adapter, der tager en batch af opdaterede elementer fra DynamoDB og indekserer dem i OpenSearch. Der er andre fordele ved at bruge DynamoDB Streams Kinesis Adapter, såsom at reducere antallet af samtidige lambdaer, der kræves.

Den publicerende Lambda-funktion bruger miljøvariabler til at bestemme hvilket OpenSearch-domæne og hvilket indeks, der skal publiceres til. Et produktionsalias er konfigureret til at skrive til produktions-OpenSearch-domænet uden for DynamoDB-tabellen eller Kinesis Stream

Ved test af nye konfigurationer eller migrering konfigureres et migreringsalias til at skrive til det nye OpenSearch-domæne, men bruge samme trigger som produktionsaliaset. Dette muliggør dobbelt indeksering af data til begge OpenSearch Service-domæner samtidigt.

Her er et eksempel på DynamoDB-tabelskemaet:

 "Id": 123456, // partition key "Fields": { "format": "JPG", "height": 1024, "width": 1536, ... }, "LastUpdated": 1600107934,

'LastUpdated'-værdien bruges som dokumentversionen ved indeksering, hvilket gør det muligt for OpenSearch at afvise alle opdateringer, der ikke er i orden.

Genopfyldning

Nu hvor ændringer bliver offentliggjort på begge domæner, skal det nye domæne (indeks) udfyldes med historiske data. For at udfylde et nyoprettet indeks skal en kombination af Amazon Simple Queue Service (Amazon SQS) og DynamoDB bruges. Et script udfylder en SQS-kø med beskeder, der indeholder instruktioner til parallel scanning et segment af DynamoDB-tabellen.

SQS-køen starter en Lambda-funktion, der læser beskedinstruktionerne, henter en batch af elementer fra det tilsvarende segment af DynamoDB-tabellen og skriver dem ind i et OpenSearch-indeks. Nye beskeder skrives til SQS-køen for at holde styr på fremskridt gennem segmentet. Når segmentet er fuldført, skrives der ikke flere beskeder til SQS-køen, og processen stopper af sig selv.

Samtidighed bestemmes af antallet af segmenter, med yderligere kontroller leveret af Lambdas samtidighedsskalering. SmugMug er i stand til at indeksere mere end 1 milliard dokumenter i timen på deres OpenSearch-konfiguration, uden at det har nogen indvirkning på produktionsdomænet.

Et NodeJS AWS-SDK-baseret script bruges til at seede SQS-køen. Her er et uddrag af SQS-konfigurationsscriptets muligheder:

Usage: queue_segments [options] Options:
--search-endpoint <url> OpenSearch endpoint url
--sqs-url <url> SQS queue url
--index <string> OpenSearch index name
--table <string> DynamoDB table name
--key-name <string> DynamoDB table partition key name
--segments <int> Number of parallel segments

Sammen med formatet af den resulterende SQS-meddelelse:

{ searchEndpoint: opts.searchEndpoint, sqsUrl: opts.sqsUrl, table: opts.table, keyName: opts.keyName, index: opts.index, segment: i, totalSegments: opts.segments, exclusiveStartKey: <lastEvaluatedKey from previous iteration>
}

Efterhånden som hvert segment behandles, føjes 'lastEvaluatedKey' fra den forrige iteration til meddelelsen som 'exclusiveStartKey' for den næste iteration.

Spejling

Sidst vores spejlet søgeforespørgsel resultater køres ved at sende en OpenSearch-forespørgsel til en SQS-kø ud over vores produktionsdomæne. SQS-køen starter en Lambda-funktion, der afspiller forespørgslen til replikadomænet. Søgeresultaterne fra disse anmodninger sendes ikke til nogen bruger, men tillader replikering af produktionsbelastning på OpenSearch-tjenesten, der testes, uden at det påvirker produktionssystemer eller kunder.

Konklusion

Når vi evaluerer et nyt OpenSearch-domæne eller en ny konfiguration, er de vigtigste målinger, vi er interesserede i, forespørgselsforsinkelsesydelse, nemlig de tog latenser (latenser pr. gang), og vigtigst af alt, latenser for søgning. I vores skift til Graviton R6gd så vi omkring 40 procent lavere P50-P99 latenser, sammen med lignende gevinster i CPU-brug sammenlignet med i3'er (ignorerer Gravitons lavere omkostninger). En anden velkommen fordel var det mere forudsigelige og overvågelige JVM-hukommelsestryk med ændringerne af affaldsindsamlingen fra tilføjelsen af G1GC på R6gd og andre nye forekomster.

Ved at bruge denne pipeline tester vi også OpenSearch Serverless og finder dets bedste use-cases. Vi er begejstrede for den service og agter fuldt ud at have en fuldstændig serverløs arkitektur med tiden. Følg med for resultater.

Om forfatterne

Lee Shepherd er en SmugMug Staff Software Engineer

Aydn Bekirov er en Amazon Web Services Principal Technical Account Manager

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://aws.amazon.com/blogs/big-data/smugmugs-durable-search-pipelines-for-amazon-opensearch-service/

Tidsstempel: Oktober 19, 2023

Tidsstempel: Maj 17, 2023

Genudgivet af Platon

Omkostningsovervågning for Amazon EMR på Amazon EKS | Amazon Web Services

Løs private DNS-værtsnavne for Amazon MSK Connect | Amazon Web Services

Forenkle Amazon Redshift-overvågning ved hjælp af de nye forenede SYS-visninger | Amazon Web Services

Introduktion af feltbaseret farveoplevelse til Amazon QuickSight | Amazon Web Services

Introduktion af in-place versionsopgraderinger med Amazon MWAA | Amazon Web Services

Byg kort med flere lag i Amazon OpenSearch Service | Amazon Web Services

Chargeback Gurus giver e-handelshandlere avanceret tilbageførselsintelligens til at inddrive millioner ved hjælp af Amazon Quicksight

Stream data med Amazon MSK Connect ved hjælp af et open source JDBC-stik | Amazon Web Services

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto