Overvind dataparsing-hindringer med kraften ved maskinlæring - DATAVERSITY

Overvind dataparsing-hindringer med kraften ved maskinlæring – DATAVERSITET

Kildeknude: 2833092

Webscraping bruges blandt andet til at få de store mængder af offentligt tilgængelige data, der er nødvendige til træning af algoritmer til maskinlæring (ML). Forholdet mellem dataskrabning og ML er dog symbiotisk snarere end ensidigt. På den anden side er ML's evne til at forbedre de grundlæggende procedurer, der ligger til grund for webdataindsamling, hvilket gør det mere effektivt og i stand til at producere ønskede resultater. Denne artikel vil koncentrere sig om en sådan proces, der er iboende til webskrabning – dataparsing, og hvordan det kan drage fordel af AI og ML.

Udfordringerne ved en regelbaseret proces

Folk bliver frustrerede, når de sidder fast med hverdagsagtige, gentagne opgaver i længere tid – for eksempel ved at kopiere og indsætte flere datapunkter fra mange kilder. Web-skrabning er et langt bedre alternativ til at indsamle data manuelt, hvilket muliggør automatiseret dataindsamling i stor skala. Det har dog sit eget sæt af gentagne verdslige opgaver.

Webskrabere og dataparsere er generelt lydige digitale væsner. Fortæl dem, hvor og hvilken slags data de skal skrabe, definer klare regler for strukturering af disse data, og de vil give dig det passende output.

En dataparser vil få noget af det vigtigste arbejde udført inden for webdataindsamling. I henhold til de foruddefinerede regler vil det fjerne ubrugelig information som tags og tomme mellemrum fra de rå HTML-data og lægge de nyttige data i CSV, JSON eller andet læsbart format. Således vil regelbaseret dataparsing tage de rodede skrabede data og konvertere dem til struktureret, læsbar information.

Problemet med perfekt lydige skabninger er, at de kun vil gøre, hvad instruktionerne fortæller dem. Desværre kan du ikke definere regler én gang for alle mulige hjemmesider og ændre betingelser i dem. 

Mange websteder er dynamiske – de har ikke en stabil struktur, der gør det muligt at efterlade en regelbaseret parser til at udføre arbejdet uden opsyn. For eksempel ændrer e-handelswebsteder ofte deres layout, hvilket kræver, at de dedikerede parsere tilpasses for at fortsætte med at analysere. At bygge en brugerdefineret parser, der passer til hvert webstedsformat, er en opgave, der æder udviklernes tid og betydeligt sinker dataindsamlingen.

Når der sker ændringer i webstedets struktur, vil regelbaseret parsing bryde sammen og ikke længere producere de tilsigtede resultater. Endnu en gang vil udviklere have en frustrerende og tidskrævende opgave på deres hænder, der vil forhindre at bruge deres dyre timer til mere produktivt brug.

På grund af udfordringerne ved regelbaseret dataparsing leder virksomheder efter en måde at tage dataindsamlingsautomatisering et stort skridt fremad ved hjælp af AI og ML.

Hvad taler vi om, når vi taler om ML?

Maskinelæring og andre AI-relaterede termer er nu buzzwords, der bliver smidt rundt i de almindelige medier. Nogle gange bruges det samme udtryk til at henvise til forskellige ting, eller to udtryk med forskellige betydninger bruges i flæng.

Derfor, selv når man taler med et publikum, der er bekendt med emnet, er det værd at forklare, hvordan disse udtryk bruges for at undgå misforståelser.

Vi kan starte med den brede definition af AI som simulering af menneskelig intelligens i maskiner. Maskinlæringsmodeller er så specifikke anvendelser af kunstig intelligens, der er i stand til at simulere ikke kun menneskelignende problemløsning, men et særligt træk ved menneskelig intelligens – indlæringskapacitet.

I praksis trænes maskinlæringsmodeller ved at tilføre dem store mængder data, der er relevante for at udføre bestemte opgaver. Modellerne lærer derefter mønstre og ligheder i disse typer data, hvilket gør dem i stand til at forudsige og genkende bestemte resultater. Således kan ML-algoritmer "finde ud af", hvad de skal gøre, selv når de ikke var specifikt programmeret til at gøre det.

De tre vigtigste maskinlæringsparadigmer er følgende:

  • Overvåget læring, ved hjælp af præmærkede input- og outputdatasæt til at træne algoritmer til at klassificere data og forudsige resultater nøjagtigt.
  • Uovervåget læring, som gør det muligt for algoritmer at genkende mønstre i rådata uden menneskelig indgriben.
  • Forstærket læring, hvor ML-modellen lærer at løse problemet ved at modtage feedback på sine tidligere beslutninger. Før den modtager feedback, vælger modellen tilfældigt, da den ikke har nogen information.

Et specifikt underfelt af ML, deep learning (DP), er også relevant for dataparsing. Dyb læring refererer til algoritmetræning, der bruger hierarkiske lag af neurale netværk til at behandle og lære af data, der efterligner menneskelige hjernelignende arkitekturer.

ML til dataparsing

ML-algoritmers evne til at genkende mønstre og træffe beslutninger uden yderligere kodning giver mulighed for at løse mange af de presserende problemer ved regelbaserede processer.

Et af hovedstadierne i overvåget maskinlæring består i at undervise i klassifikationsmodellen ved at tilføre den præ-mærkede datasæt. Indrømmet, det kræver en masse data og tid at mærke det; at opbygge en parser på denne måde vil være en længere proces end blot at forudkode regler og skabeloner til parsing. Men det vil sandsynligvis vise sig at være umagen værd ved at reducere antallet af brugte timer og den indsats, der kræves til vedligeholdelse.

Uddannet til at klassificere data korrekt, kan en ML-model tilpasse sig forskellige hjemmesidelayouts og kodningsstile og fortsætte, selv når der opstår strukturelle forskelle. Dine udviklere holdes således ikke længere tilbage af konstant at skulle rette og genstarte parsere.

Uovervåget eller semi-overvåget dyb læring lærer parsere at identificere ligheder og mønstre i HTML-data indsamlet fra offentlige websteder. Uddannet på denne måde hænger parsere ikke fast i en forestilling om, hvor man kan finde specifikke data i hjemmesidens struktur. Det kan snarere tilpasse sig og opsøge den specifikke type information.

Derfor kan du for eksempel træne en adaptiv parser til at skrabe og parse forskellige e-handelssider effektivt. Uanset hvordan webstedets HTML-data er struktureret, vil parseren vide, hvordan de konverteres til strukturerede og relevante data. Det, du modtager, vil netop være de filtrerede produktbeskrivelser, priser og andre oplysninger, som du muligvis har brug for.

Adaptive, ML-baserede parsere er også i stand til at håndtere dynamiske, JavaScript-tunge websteder. Efter at være blevet trænet i forskellige layouts til tematisk ensartede websteder, vil parsere finde de målrettede data selv efter hyppige layoutændringer. Dette vil forhindre fejl og forbedre robustheden af ​​dataindsamlingsprocessen.

Vejen frem

Det er kun et spørgsmål om tid (og sandsynligvis ikke så meget tid), når regelbaseret dataparsing bliver forældet. Fordelene ved AI- og ML-applikationer til webintelligens er for store til at ignorere. De vigtigste opgaver, der ligger foran os, er relateret til at finde de mest effektive måder til uovervåget maskinlæring til webscraping-automatisering.

Tidsstempel:

Mere fra DATAVERSITET