Skapa en webbapp för att interagera med maskininlärningsgenererade bildtexter

Källnod: 1849327

Sammanfattning

Introduktionen av IBM Model Asset eXchange (MAX) som är värd på Machine Learning eXchange har gett applikationsutvecklare utan datavetenskaplig erfarenhet enkel tillgång till förbyggda maskininlärningsmodeller. Detta kodmönster visar hur enkelt det kan vara att skapa en webbapp som använder en MAX-modell. Webbappen använder Image Caption Generator från MAX och skapar ett enkelt webbgränssnitt som låter dig filtrera bilder baserat på beskrivningarna som modellen ger.

Beskrivning

Varje dag skapas 2.5 kvintiljon byte med data, baserat på en IBM-studie. Mycket av denna data är ostrukturerad data, såsom stora texter, ljudinspelningar och bilder. För att göra något användbart med data måste du först konvertera den till strukturerad data.

Detta kodmönster använder en av modellerna från Model Asset Exchange, ett utbyte där utvecklare kan hitta och experimentera med djupinlärningsmodeller med öppen källkod. Specifikt använder den Bildtextgenerator för att skapa en webbapplikation som textar bilder och låter dig filtrera genom bildbaserat bildinnehåll. Webbapplikationen tillhandahåller ett interaktivt användargränssnitt som stöds av en lättviktig Python-server som använder Tornado. Servern tar in bilder via användargränssnittet, skickar dem till en REST-slutpunkt för modellen och visar de genererade bildtexterna på användargränssnittet. Modellens REST-slutpunkt ställs in med hjälp av Docker-bilden som tillhandahålls på MAX. Webbgränssnittet visar de genererade bildtexterna för varje bild samt ett interaktivt ordmoln för att filtrera bilder baserat på deras bildtext.

När du har slutfört detta kodmönster förstår du hur du:

  • Implementera en modell för djupinlärning med en REST-slutpunkt
  • Generera bildtexter för en bild med hjälp av MAX-modellens REST API
  • Kör en webbapplikation som använder modellens REST API

Flöde

flöda

  1. Servern skickar standardbilder till Model API och tar emot bildtextdata.
  2. Användaren interagerar med webbgränssnittet som innehåller standardinnehållet och laddar upp bilderna.
  3. Webbgränssnittet begär bildtextdata för bilderna från servern och uppdaterar innehållet när data returneras.
  4. Servern skickar bilderna till Model API och tar emot bildtextdata för att återgå till webbgränssnittet.

Instruktioner

Är du redo att använda det här kodmönstret att använda? Kompletta detaljer om hur du kommer igång och använder det här programmet finns i README.

Källa: https://developer.ibm.com/patterns/create-a-web-app-to-interact-with-machine-learning-generated-image-captions/

Tidsstämpel:

Mer från IBM-utvecklare