Fler Data Science Cheatsheets - Plato AiStream V2.1

Återutgiven av Platon

anhängare: 0

Vi insåg nyligen att vi inte hade gett dig några datavetenskapliga cheatsheets på ett tag. Och det är inte för deras brist på tillgänglighet; fuskblad för datavetenskap finns överallt, allt från introduktion till avancerad, som täcker ämnen från algoritmer till statistik, till intervjutips och mer.

Men vad gör ett bra cheatsheet? Vad gör en cheatsheet värd att pekas ut som en särskilt bra? Det är svårt att sätta fingret på exakt det som gör ett bra cheatsheet, men uppenbarligen en som förmedlar viktig information kortfattat - oavsett om den informationen är av en specifik av allmän karaktär - är definitivt en bra början. Och det är det som gör våra kandidater idag anmärkningsvärda. Så läs vidare för fyra kurerade kompletterande cheatsheets som hjälper dig i ditt lärande eller recension av datavetenskap.

Först upp är Aaron Wangs Data Science Cheatsheet 2.0, en fyrasidig sammanställning av statistiska abstraktioner, grundläggande maskininlärningsalgoritmer och ämnen och koncept för djupinlärning. Det är inte tänkt att vara uttömmande, utan istället en snabbreferens för situationer som intervjuförberedelser och tentamenscensioner och allt annat som kräver en liknande nivå av granskningsdjup. Författaren noterar att även om de med en grundläggande förståelse för statistik och linjär algebra skulle finna denna resurs mest fördelaktigt, bör nybörjare också kunna hämta användbar information från dess innehåll.

Figur
Skärmdump från Aaron Wangs Data Science Cheatsheet 2.0

Vårt nästa cheatsheet-erbjudande idag är det som Aaron Wangs resurs är baserad på, Maverick Lins Data Science Cheatsheet (Wangs hänvisning till sin egen som 2.0 är en direkt nick till Lins "original"). Vi kan tänka på Lins cheatsheet som mer djupgående än Wangs (även om Wangs beslut att göra hans mindre djupgående verkar avsiktligt och ett användbart alternativ), som täcker mer grundläggande datavetenskapliga begrepp som datarensning, idén om att modellera, göra " big data” med Hadoop, SQL och till och med grunderna i Python.

Detta kommer helt klart att tilltala dem som är mer fast i "nybörjarlägret", och gör ett bra jobb med att väcka aptit och göra läsare medvetna om det breda fältet av datavetenskap, och många av de olika begrepp som det omfattar. Detta är definitivt en annan solid resurs, särskilt om läsaren är nykomling inom datavetenskap.

Figur
Skärmdump från Maverick Lin's Data Science Cheatsheet

När vi går längre tillbaka i tiden – söker inspiration till Lins cheatsheet – stöter vi på William Chens chansblad 2.0. Chens cheatsheet har fått mycket uppmärksamhet och beröm genom åren, så du kan ha stött på det någon gång. Tydligen med ett annat fokus (med tanke på dess namn), är Chens cheatsheet en snabbkurs om, eller djupdykning av, sannolikhetsbegrepp, inklusive en mängd olika distributioner, kovarians och transformationer, villkorad förväntan, Markov-kedjor, olika formler av betydelse, och mycket mer.

På 10 sidor bör du kunna föreställa dig bredden av sannolikhetsämnen som tas upp här. Men låt inte det avskräcka dig; Chens förmåga att koka ner begreppen till sina väsentliga punktpunkter och förklara på vanlig engelska utan att offra det väsentliga är anmärkningsvärt. Den är också rik på förklarande visualiseringar, något ganska användbart när utrymmet är begränsat och viljan att vara kortfattad är stark.

Inte bara är Chens sammanställning av hög kvalitet och värd din tid, som nybörjare eller någon som är intresserad av en fullständig recension, jag skulle arbeta i omvänd ordning av hur dessa resurser presenterades - från Chens fuskblad, till Lins och slutligen till Wangs, bygga vidare på koncept medan du går.

Figur
Skärmdump från William Chen's Probability Cheatsheet 2.0

En sista resurs som jag inkluderar här, men inte tekniskt sett ett fuskblad, är Rishabh Anands Machine Learning Bites. Anand har fakturerat sig själv som "en intervjuguide om vanliga maskininlärningskoncept, bästa praxis, definitioner och teorier" och har sammanställt en omfattande samling av kunskaps-"bites", vars användbarhet definitivt överstiger den ursprungligen avsedda intervjuförberedelsen. Ämnen som tas upp inom inkluderar:

Modellpoängmått
Parameterdelning
k-Fold korsvalidering
Python-datatyper
Förbättra modellprestanda
Modeller för datorseende
Attention och dess varianter
Hantera klassobalans
Ordlista för datorseende
Vanilj Backpropagation
reglering
Referensprojekt

Figur
Skärmdump från Machine Learning Bites

Medan maskininlärning "koncept, bästa praxis, definitioner och teori" berörs, som utlovats i resursens beskrivning av sig själv, är dessa "bites" definitivt inriktade på det praktiska, vilket gör webbplatsen komplementär till mycket av materialet som täcks i de tre tidigare nämnda cheatsheets. Om jag var ute efter att täcka allt material i alla fyra resurserna i det här inlägget, skulle jag verkligen titta på det här efter de andra tre.

Så där har du fyra cheatsheets (eller tre cheatsheets och en cheatsheet-angränsande resurs) att använda för din inlärning eller recension. Förhoppningsvis är något här användbart för dig, och jag inbjuder alla att dela de cheatsheets de har funnit användbara i kommentarerna nedan.