Más hojas de trucos sobre ciencia de datos

Más hojas de trucos sobre ciencia de datos

Nodo de origen: 1792233

Recientemente nos dimos cuenta de que no le habíamos traído ninguna hoja de trucos de ciencia de datos en un tiempo. Y no es por su falta de disponibilidad; Las hojas de trucos de ciencia de datos están en todas partes, desde las introductorias hasta las avanzadas, cubriendo temas desde algoritmos, estadísticas, consejos para entrevistas y más.

Pero, ¿qué hace una buena hoja de referencia? ¿Qué hace que una hoja de referencia sea digna de ser destacada como particularmente buena? Es difícil poner el dedo en el precisamente lo que constituye una buena hoja de referencia, pero obviamente una que transmite información esencial de manera concisa, ya sea que esa información sea de naturaleza específica o general, es definitivamente un buen comienzo. Y eso es lo que hace que nuestros candidatos de hoy sean dignos de mención. Así que siga leyendo para conocer cuatro hojas de trucos complementarias seleccionadas que lo ayudarán en su aprendizaje o revisión de la ciencia de datos.

En primer lugar es Hoja de referencia de ciencia de datos 2.0 de Aaron Wang, una compilación de cuatro páginas de abstracciones estadísticas, algoritmos fundamentales de aprendizaje automático y temas y conceptos de aprendizaje profundo. No pretende ser exhaustivo, sino una referencia rápida para situaciones como la preparación de entrevistas y revisiones de exámenes, y cualquier otra cosa que requiera un nivel similar de profundidad de revisión. El autor señala que si bien aquellos con un conocimiento básico de estadística y álgebra lineal encontrarían este recurso de mayor beneficio, los principiantes también deberían poder obtener información útil de su contenido.

Figura
Captura de pantalla de Aaron Wang Hoja de referencia de ciencia de datos 2.0
 

Nuestra próxima oferta de cheatsheet hoy es aquella en la que se basa el recurso de Aaron Wang, Hoja de referencia de ciencia de datos de Maverick Lin (La referencia de Wang al suyo como 2.0 es un guiño directo al "original" de Lin). Podemos pensar en la hoja de trucos de Lin como más profunda que la de Wang (aunque la decisión de Wang de hacer la suya menos profunda parece intencional y una alternativa útil), cubriendo conceptos de ciencia de datos más fundamentales como la limpieza de datos, la idea de modelar, hacer " big data ”con Hadoop, SQL e incluso los conceptos básicos de Python.

Claramente, esto atraerá a aquellos que están más firmemente en el campo de "principiantes" y hace un buen trabajo al despertar el apetito y hacer que los lectores sean conscientes del amplio campo de la ciencia de datos y muchos de los diferentes conceptos que abarca. Este es definitivamente otro recurso sólido, especialmente si el lector es un recién llegado a la ciencia de datos.

Figura
Captura de pantalla de Maverick Lin's Hoja de referencia de ciencia de datos
 

A medida que retrocedemos en el tiempo, en busca de inspiración para la hoja de referencia de Lin, nos encontramos con Hoja de trucos de probabilidad 2.0 de William Chen. La hoja de trucos de Chen ha atraído mucha atención y elogios a lo largo de los años, por lo que es posible que la haya encontrado en algún momento. Claramente con un enfoque diferente (dado su nombre), la hoja de trucos de Chen es un curso intensivo o una revisión profunda de los conceptos de probabilidad, incluida una variedad de distribuciones, covarianza y transformaciones, expectativa condicional, cadenas de Markov, varias fórmulas de importancia y mucho más.

En 10 páginas, debería poder imaginar la amplitud de los temas de probabilidad que se tratan aquí. Pero no dejes que eso te detenga; La capacidad de Chen para resumir los conceptos en sus puntos esenciales y explicarlos en un inglés sencillo sin sacrificar lo esencial es digna de mención. También es rico en visualizaciones explicativas, algo bastante útil cuando el espacio es limitado y el deseo de ser conciso es fuerte.

La compilación de Chen no solo es de calidad y digna de su tiempo, como principiante o alguien interesado en una revisión completa, sino que trabajaría en orden inverso a cómo se presentaron estos recursos, desde la hoja de trucos de Chen hasta la de Lin y finalmente la de Wang. construyendo sobre conceptos sobre la marcha.

Figura
Captura de pantalla de William Chen Hoja de trucos de probabilidad 2.0
 

Un último recurso que incluyo aquí, aunque técnicamente no es una hoja de referencia, es Mordidas de aprendizaje automático de Rishabh Anand. Factándose a sí mismo como “[una] guía de entrevistas sobre conceptos, mejores prácticas, definiciones y teorías comunes de Machine Learning”, Anand ha compilado una amplia colección de “mordiscos” de conocimiento, cuya utilidad definitivamente trasciende la preparación de la entrevista originalmente prevista. Los temas cubiertos dentro incluyen:

  • Métricas de puntuación del modelo
  • Uso compartido de parámetros
  • Validación cruzada de k-Fold
  • Tipos de datos de Python
  • Mejora del rendimiento del modelo
  • Modelos de visión artificial
  • Atención y sus variantes
  • Manejo del desequilibrio de clases
  • Glosario de visión artificial
  • Retropropagación de vainilla
  • Regularización
  • Referencias

Figura
Captura de pantalla de Bocadillos de aprendizaje automático
 

Si bien se abordan los "conceptos, las mejores prácticas, las definiciones y la teoría" del aprendizaje automático, como se prometió en la descripción del recurso de sí mismo, estos "fragmentos" definitivamente están orientados a lo práctico, lo que hace que el sitio sea complementario de gran parte del material cubierto las tres hojas de trucos mencionadas anteriormente. Si estuviera buscando cubrir todo el material en los cuatro recursos de esta publicación, ciertamente miraría esto después de los otros tres.

Ahí tienes cuatro hojas de trucos (o tres hojas de trucos y un recurso adyacente a una hoja de trucos) para usar en tu aprendizaje o revisión. Con suerte, algo aquí es útil para usted, e invito a cualquiera a compartir las hojas de trucos que han encontrado útiles en los comentarios a continuación.

Sello de tiempo:

Mas de nuggets