Anomaaliate tuvastamine ML kaudu. Uuendused kontrollimisel – Semiwiki

Taasavaldanud Platon

järgijaid: 0

Väitepõhine kontrollimine tabab ainult need probleemid, mille kohta olete väited kirjutanud. Kas on olemas üksteist täiendav lähenemisviis probleemide leidmiseks, mida te pole mõelnud – tundmatuid tundmatuid? Paul Cunningham (vanem VP/GM, Cadence'i kontrollimine), Raúl Camposano (Silicon Catalyst, ettevõtja, endine Synopsysi tehnoloogiadirektor ja nüüd Silvaco tehnikadirektor) ja mina jätkame oma uurimisideede sarja. Nagu alati, on tagasiside teretulnud.

Innovatsioon

Selle kuu valik on Masinõppel põhinev anomaalia tuvastamine ränijärgse veadiagnoosi jaoks. 2013. aasta DATE konverentsil avaldatud artikkel. Autorid on/olid Michigani ülikoolist.

Anomaaliate tuvastamise meetodid on populaarsed, kui te ei saa otsitavat eelnevalt iseloomustada, näiteks krediitkaardipettuste või reaalajas turvalisuse puhul, kus häkkimised arenevad jätkuvalt. Meetod kogub katseperioodi jooksul käitumist, kontrollitakse käsitsi, et neid eeldatava käitumise piires arvesse võtta, ja seejärel otsitakse käimasolevas testimises kõrvalekaldeid kui võimalikke probleeme, et neid lähemalt uurida.

Anomaaliate tuvastamise tehnikad kasutavad kas statistilisi analüüse või masinõpet. Selles artiklis kasutatakse masinõpet, et luua eeldatava käitumise mudel. Samuti võite kergesti ette kujutada, et see analüüs nihutatakse vasakule ränieelsesse kontrolli.

Pauli nägemus

Sel kuul oleme koostanud 10 aasta taguse paberi masinõppe kasutamisest, et püüda ränijärgses valideerimises vead automaatselt esile kutsuda. See on lõbus lugemine ja tundub, et see sobib suurepäraselt uuesti külastamiseks, kasutades DNN-i või LLM-e.

Autorid võrdsustavad algpõhjustavad ränijärgsed vead krediitkaardipettuste tuvastamisega: igas kellatsüklis jälgitavat signaali võib pidada krediitkaarditehinguks ja vea põhjuse probleem muutub analoogseks petturliku krediitkaarditehingu tuvastamisega. .

Autorite lähenemisviis on järgmine: jagage simulatsioonid ajalõikudeks ja jälgige, mitu protsenti ajast on iga ränijärgse jälgitava silumissignaal igas ajalõikes kõrge. Seejärel jagage signaalid mooduli hierarhia alusel, et mooduli suurus oleks umbes 500 signaali. Iga mooduli jaoks igas ajalõikes koostage signaali "oodatava" jaotuse mudel % kõrgetel kordadel, kasutades kuldset veavaba ränijärgsete jälgede komplekti. See mudel kujutab endast väga lihtsat signaalide k-keskmist rühmitamist, kasutades kahe signaali vahelise "kaugusena" % kõrgete kordade erinevust.

Iga ebaõnnestunud ränijärgse testi puhul võrreldakse iga mooduli % kõrget signaalijaotust igas ajalõikes kuldse mudeliga ja loendatakse signaalide arv, mille % kõrge aeg on väljaspool selle kuldse mudeli klastri piirdekasti. Kui see arv ületab müraläve, märgitakse need signaalid selles ajalõikes tõrke algpõhjuseks.

See on lahe idee, kuid kümne OpenSPARCi testijuhtumi puhul ei anna 30% testidest õiget ajalõiku ega signaale, mis on liiga kõrge, et sellest praktilist kasu oleks. Mulle meeldiks näha, mis juhtuks, kui lihtsa k-keskmiste klastrite asemel kasutataks kaasaegset LLM-i või DNN-i.

Raúli nägemus

See on 2013. aasta "varajane" paber, mis kasutab ränijärgse vea tuvastamiseks masinõpet. Selleks ajaks pidi see olema täiustatud töö, mis on Google Scholaris loetletud 62 tsitaadiga.

Idee on sirgjooneline: katsetage mitu korda ränijärgse kujundusega ja salvestage tulemused. Kui ilmnevad vahelduvad vead, annavad sama testi erinevad teostused erinevaid tulemusi, mõned läbivad ja mõned ebaõnnestuvad. Vahelduvad rikked, mis on sageli tingitud kiibil aset leidvatest asünkroonsetest sündmustest ja elektrilistest mõjudest, on ühed kõige raskemini diagnoositavad. Autorid kaaluvad lühidalt juhendatud õppe kasutamist, eriti ühes klassis õppimist (saadaval on ainult positiivsed koolitusandmed, vead on haruldased), kuid loobuge sellest kui "ei sobi vealeidmise rakenduseks”. Selle asemel nad taotlevad k-tähendab rühmitamist; sarnased tulemused on rühmitatud k klastrid, mis koosnevad "lähedatest" tulemustest, minimeerides ruutude summa kauguse klastrites. Paber paljastab arvukalt tehnilisi üksikasju, mis on vajalikud tulemuste reprodutseerimiseks: Tulemused registreeritakse kui "murdosa ajast oli signaali väärtus ajasammul üks”; kujundusest saadavate signaalide arv suurusjärgus 10,000 XNUMX on mõõtmed k-tähendab klasterdamist, mis on dimensioonide arvu suhtes NP-raske, nii et signaalide arv on peakomponentide analüüsi abil piiratud 500-ni; klastrite arv ei tohi olla liiga väike (alasobitamine) ega liiga suur (ülesobitus); tuleb valida õige anomaalia tuvastamise lävi, mida väljendatakse protsendina kõigist vaadeldavatest ebaõnnestunud näidetest; Vea ajaline lokaliseerimine saavutatakse kaheastmelise anomaaliate tuvastamisega, tuvastades, milline ajaetapp sisaldab piisava arvu kõrvalekaldeid, et tuvastada vea esinemine, ja seejärel tuvastades teises ringis vastutavad veasignaalid.

Umbes 2 miljonist transistorist koosneva OpenSPARC T500 disainiga tehtud katsed läbisid treeninguna 10 töökoormust katsepikkusega 60,000 1.2 kuni 100 miljonit tsüklit 10 korda. Seejärel sisestasid nad 1000 viga ja viisid läbi 347 lollakate testi. Vea jaoks tuvastati keskmiselt 1000 signaali (vahemikus ükski kuni 350) ja vea sisestamisest vea tuvastamiseni kulus ~30 latentsustsüklit. Klastrite arv ja tuvastuslävi mõjutavad tulemusi tugevalt, nagu ka treeningandmete kogus. Valepositiivsed ja valenegatiivsed on kokku 40–1000 (XNUMX lollakas testis).

Kuigi autorid märgivad, et "Üldiselt tuvastas anomaaliate tuvastamise algoritm 41,743 2 OpenSPARC T347 tipptaseme signaali hulgast 0.8 vigade keskmistamist. See moodustab 99.2% signaalide koguarvust. Seega on meie lähenemisviis võimeline vähendama signaalide kogumit XNUMX% võrra., praktikas ei pruugi sellest kogenud disainerile suurt abi olla. 10 aastat on möödas, huvitav oleks seda tööd korrata, kasutades tänapäeva masinõppe võimalusi, näiteks LLM-e anomaalia tuvastamiseks.

Jaga seda postitust: