More Data Science Cheatsheets - Plato AiStream V2.1

Ponovno objavil Platon

Spremljevalci: 0

Pred kratkim smo ugotovili, da vam že nekaj časa nismo prinesli nobenih obrazcev za znanost o podatkih. In ne zaradi pomanjkanja razpoložljivosti; podatkovne varalnice so povsod, od uvodnih do naprednih, zajemajo teme od algoritmov, statistike, nasvetov za razgovore in še več.

Toda kaj naredi dober cheatsheet? Zakaj je varalica vredna, da jo izpostavijo kot posebno dobro? Težko je dati prst Ravno tisto, kar naredi dober cheatsheet, a očitno tisti, ki kratko in bistveno posreduje informacije - ali so te informacije splošne narave - je vsekakor dober začetek. In prav zaradi tega so današnji kandidati omembe vredni. Zato si preberite štiri kurirane komplementarne varalnice, ki vam bodo v pomoč pri učenju ali pregledu podatkovne znanosti.

Najprej je Aaron Wang's Data Science Cheatsheet 2.0, štiristranska zbirka statističnih abstrakcij, temeljnih algoritmov strojnega učenja ter tem in konceptov globokega učenja. Ni mišljeno, da bi bilo izčrpno, temveč hitra referenca za situacije, kot so priprave na razgovore in pregledi izpitov, ter vse drugo, kar zahteva podobno raven globine pregleda. Avtor ugotavlja, da bi tisti, ki imajo osnovno razumevanje statistike in linearne algebre, ta vir najbolj koristen, vendar bi morali biti začetniki sposobni pridobiti koristne informacije tudi iz njegove vsebine.

Slika
Posnetek zaslona Aarona Wanga Data Science Cheatsheet 2.0

Naša naslednja današnja ponudba goljufij je tista, na kateri temeljijo viri Aarona Wanga, Maverick Lin's Data Science Cheatsheet (Wangovo sklicevanje na svojega kot 2.0 je neposredno prikimavanje Linovemu "izvirniku"). O Lin-ovem cheatsheetu lahko mislimo, da je bolj poglobljen kot Wang-ov (čeprav se Wang-ova odločitev, da bo naredil manj poglobljeno, zdi namerna in koristna alternativa), ki zajema bolj temeljne koncepte znanosti o podatkih, kot so čiščenje podatkov, ideja modeliranja, dela " veliki podatki «s Hadoop, SQL in celo osnovami Pythona.

Jasno je, da bo to všeč tistim, ki so bolj trdno v taboru za "začetnike" in si dobro prizadevajo, da bi spodbudili apetite in ozaveščali bralce o širokem področju znanosti o podatkih in številnih različnih konceptih, ki jih zajema. To je vsekakor še en dober vir, še posebej, če je bralec novinec v znanosti o podatkih.

Slika
Posnetek zaslona Mavericka Lina Podatkovna znanost Cheatsheet

Ko se premikamo nazaj v preteklost - poiščemo navdih za Linovo goljufico -, naletimo Cheatsheet 2.0 za verjetnost Williama Chena. Chenova cheatsheet je v preteklih letih pritegnila veliko pozornosti in pohval, zato ste jo morda kdaj naleteli. Jasno je, da je Chenov cheatsheet z drugačnim poudarkom (glede na njegovo ime) tečaj padca verjetnostnih konceptov ali poglobljen pregled, vključno z različnimi porazdelitvami, kovarianco in transformacijami, pogojnimi pričakovanji, Markovimi verigami, različnimi pomembnimi formulami veliko več.

Na 10 straneh bi si lahko predstavljali širino verjetnostnih tem, ki so tukaj zajete. A naj vas to ne odvrne; Omeniti velja Cenovo zmožnost, da koncepte zniža do njihovih bistvenih točk in razloži v preprosti angleščini, pri tem pa ne žrtvuje bistvenega. Bogat je tudi z razlagalnimi vizualizacijami, nekaj zelo koristnega, kadar je prostor omejen in je želja po jedrnatosti močna.

Ne samo, da je Cenova kompilacija kakovostna in vredna vašega časa, kot začetnik ali nekdo, ki se zanima za celoten pregled, bi delal v obratnem vrstnem redu, kako so bili predstavljeni ti viri - od Chenovega cheatsheet-a, Lin-a in na koncu do Wanga, graditi na vrhu konceptov, ko greš.

Slika
Posnetek zaslona Williama Chena Verjetnost Cheatsheet 2.0

Končni vir, ki sem ga vključil sem, čeprav tehnično ni goljufija, je Ugrizi strojnega učenja Rishabh Ananda. Anand se je zaračunal kot "[vodič] za pogovore o običajnih konceptih strojnega učenja, najboljših praksah, definicijah in teoriji", Anand pa je sestavil široko zbirko "ugrizov" znanja, katerih uporabnost vsekakor presega prvotno predvideno pripravo na razgovor. Vključene teme vključujejo:

Metrike točkovanja modelov
Skupna raba parametrov
k-Fold navzkrižno preverjanje
Vrste podatkov Python
Izboljšanje zmogljivosti modela
Modeli računalniškega vida
Pozornost in njene različice
Ravnanje z neravnovesjem v razredu
Slovar računalniškega vida
Razmnoževanje vanilije
Regularizacija
Reference

Slika
Posnetek zaslona iz Ugrizi strojnega učenja

Medtem ko se dotaknejo »konceptov, najboljših praks, definicij in teorije« strojnega učenja, kot je obljubljeno v samem opisu vira, so ti »ugrizi« vsekakor usmerjeni k praktičnemu delu, zaradi česar je spletno mesto komplementarno velikemu delu gradiva, tri prej omenjene cheatsheets. Če bi želel zajeti vse gradivo v vseh štirih virih v tej objavi, bi to zagotovo pogledal po ostalih treh.

Torej imate na voljo štiri varalnice (ali tri varalnice in en vir, ki je v bližini), ki jih lahko uporabite za svoje učenje ali pregled. Upajmo, da je nekaj tukaj koristno za vas, in vabim vsakogar, da v spodnjih komentarjih deli varalnice, ki so se jim zdele koristne.