Las 16 principales fuentes de datos técnicos para proyectos avanzados de ciencia de datos - KDnuggets

Las 16 principales fuentes de datos técnicos para proyectos avanzados de ciencia de datos – KDnuggets

Nodo de origen: 3081921

Las 16 principales fuentes de datos técnicos para proyectos avanzados de ciencia de datos
Imagen del autor
 

Ha leído en estas páginas (y soy culpable de escribir algunos de esos artículos) que los proyectos de ciencia de datos son cruciales para desarrollar todo el paquete de habilidades técnicas de ciencia de datos. Eso es cierto, lo son. Pero lo que también es vital es tener conjuntos de datos de alta calidad para sus proyectos de ciencia de datos. Recopilar datos de calidad es simplemente una de las etapas de un proyecto de ciencia de datos, sino el que puede hacerlo o deshacerlo.

La pregunta es, ¿dónde encontrar estos malditos datos? Afortunadamente, numerosos sitios web ofrecen una gran cantidad de datos para diversos fines.

 

Las 16 principales fuentes de datos técnicos para proyectos avanzados de ciencia de datos
Imagen del autor

Escuchaste sobre Kaggle, probablemente la plataforma más conocida en la comunidad de ciencia de datos. Alberga una amplia gama de conjuntos de datos en varios formatos (CSV, JSON, SQLite, BigQuery) y de múltiples industrias y temas, como salud, automoción, arte y entretenimiento, biología, ciencias sociales, inversiones, redes sociales, deportes, etc. en. También puede buscar conjuntos de datos según su enfoque técnico, por ejemplo, informática, clasificación, visión por computadora, PNL o visualización de datos.

Actualmente, hay 274,855 conjuntos de datos disponibles, por lo que no le faltarán datos.

La interfaz fácil de usar de Kaggle y los foros comunitarios activos lo convierten en un recurso excelente tanto para principiantes como para profesionales.

Si eres un entusiasta del aprendizaje automático, el Depósito de aprendizaje automático de UCI debería ser su sitio de referencia. Como su nombre lo indica, este repositorio fue creado por la Universidad de California, Irvine (UCI). Recopilaron una extensa colección de conjuntos de datos diseñados para el aprendizaje automático. Como los conjuntos de datos cubren varios temas, son especialmente útiles. Estos conjuntos de datos cubren una amplia gama de temas y son particularmente útiles para quienes desean practicar y mejorar sus habilidades de aprendizaje automático.

Actualmente hay 653 conjuntos de datos; puede explorarlos por tipo de datos, área temática, tarea, número de funciones e instancias y tipo de función.

StrataScratch proporciona 49 conjuntos de datos y proyectos procedentes de empresas reales. Esto es particularmente beneficioso para quienes se preparan para entrevistas sobre ciencia de datos, ya que ayuda a los usuarios a desarrollar sus habilidades técnicas y su capacidad para obtener conocimientos comerciales a partir de los datos. Esto permite un enfoque práctico y relevante para la industria para los proyectos de ciencia de datos.

Los proyectos cubren diversos temas, como exploración de datos, ingeniería de datos, análisis empresarial, regresión, clasificación, PNL y agrupación.

Búsqueda de conjuntos de datos de Google es una herramienta cuyo propósito es encontrar conjuntos de datos en la web. Ya sabes cómo usarlo, incluso si nunca habías oído hablar de él hasta ahora. ¿Por qué? Bueno, se ve y funciona como una búsqueda normal en Google, sólo que se centra exclusivamente en encontrar conjuntos de datos. Es extremadamente útil si busca datos de diversas fuentes, artículos académicos y bases de datos gubernamentales.

Amazon's Conjuntos de datos públicos de AWS El programa es otro sitio donde puedes encontrar muchos datos abiertos. Con 494 conjuntos de datos disponibles actualmente, es un recurso valioso para los científicos de datos. Los conjuntos de datos que encuentre allí se pueden integrar con los servicios en la nube de AWS. Esto puede resultar útil si sus proyectos requieren más recursos informáticos. 

La gama de datos disponibles incluye genómica, meteorología y astronomía, entre otros.

Data.gov es un depósito de datos patrocinado por el gobierno de EE. UU. y contiene datos de varias organizaciones estadounidenses. Incluye 283,935 conjuntos de datos de 132 organizaciones estadounidenses. Existe una amplia gama de datos, como agricultura, salud pública, finanzas, educación, demografía, economía y datos ambientales.

Los conjuntos de datos vienen en casi 50 formatos diferentes, siendo los más populares HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON y TEXT.

FiveThirtyEight by ABC News es el repositorio de códigos y datos de sus artículos y gráficos. Es un recurso perfecto para periodistas de datos y cualquier persona interesada en la narración estadística. Si está interesado en realizar proyectos que involucren eventos actuales, política, deportes y más, esta es su fuente. 

Ofrece más de 160 conjuntos de datos desde 2014 hasta la actualidad.

La Datos abiertos del Banco Mundial ofrece amplios conjuntos de datos que giran en torno a datos de desarrollo global. Estos datos incluyen indicadores sobre la economía, el medio ambiente y cuestiones sociales de países de todo el mundo. Si está interesado en temas socioeconómicos y de desarrollo global, puede encontrar muchos datos interesantes aquí.

GitHub no es sólo una plataforma para compartir código. También se puede utilizar para buscar conjuntos de datos para proyectos de datos. Muchas organizaciones y usuarios individuales alojan sus conjuntos de datos en repositorios de GitHub. Estos datos cubren una amplia gama de temas, a menudo respaldados por documentación extensa y código para análisis.

OpenML es una plataforma en línea para el aprendizaje automático. Esto también significa darle acceso a una gran cantidad de datos. Más concretamente, casi 5,400 conjuntos de datos. Está diseñado para compartir, organizar y discutir datos y resultados de experimentos de aprendizaje automático. OpenML se puede integrar con entornos populares de aprendizaje automático, lo cual es una ventaja para su aprendizaje en ciencia de datos. 

La Subreddit de conjuntos de datos es una fuente de datos impulsada por la comunidad. La gente comparte todo en reddit. Bueno, también comparten y solicitan conjuntos de datos para proyectos de datos. A veces es difícil encontrar datos allí. Pero no por falta de datos. ¡De lo contrario! El lugar está repleto de datos, lo que a veces puede hacer que la búsqueda de datos sea bastante caótica. Los datos varían desde conjuntos de datos muy específicos e inusuales hasta conjuntos de datos más tradicionales. Como se trata básicamente de un foro, también puede participar en debates y solicitar ayuda con conjuntos de datos. 

La oficina estadística de la Unión Europea se llama Eurostat, y es una fuente completa de datos. Si está interesado en datos estadísticos de alta calidad sobre los países miembros de la UE, esta debería ser su principal fuente de datos. Los datos sobre los países de la UE incluyen temas como la economía, la población, la salud y el comercio.

HDX es una plataforma abierta donde puedes encontrar datos humanitarios. Está gestionado por la Oficina de las Naciones Unidas para la Coordinación de Asuntos Humanitarios. Esta plataforma proporciona datos sobre crisis humanitarias y emergencias en todos los países del mundo. Podría resultarle útil si le interesan proyectos centrados en problemas globales, respuesta a desastres y bienestar humano.

Hay 20,344 conjuntos de datos activos y 2,570 archivados con diversas características y formatos.

En CDC, puede encontrar datos relacionados con la salud. Los conjuntos de datos se centran en diversas condiciones de salud, factores de riesgo y salud pública. Entonces, si estos son los temas que le interesan, aquí encontrará muchos datos útiles.

La BLS El sitio tiene muchos datos sobre las condiciones económicas de EE. UU., el mercado laboral, los cambios de precios, la calidad de vida, etc. Encontrará muchos conjuntos de datos de calidad si le interesan esos temas. 

La última fuente de datos que mencionaré es NASA. Hay muchos datos sobre aeroespacial, ciencia aplicada, aplicaciones, ciencias de la Tierra, gestión/operaciones, datos sin procesar, software y ciencia espacial.

Tiene más de 10,000 conjuntos de datos, ¡así que no te pierdas en su universo de datos!

Estos 16 sitios web, estoy seguro, le brindarán suficientes datos para trabajar hasta el fin de los tiempos, ¡que era precisamente mi objetivo! Sin embargo, la cantidad de datos no lo es todo.

Elegí estos sitios porque le brindarán una gama muy diversa de conjuntos de datos adecuados para una variedad de proyectos de ciencia de datos. Los detalles del conjunto de datos difieren de una industria a otra. Por lo tanto, trabajar con varios conjuntos de datos también le permite adquirir conocimientos del dominio.

Ya sea que esté profundizando en el aprendizaje automático, el análisis de datos, el periodismo de datos, el análisis estadístico o la visualización de datos, siempre puede contar con estos recursos.

¡Ahora puedes hacer tu propio proyecto de ciencia de datos! Si necesitas más ideas, aquí tienes algunas. proyectos de ciencia de datos puedes hacerlo como principiante.
 
 

Nate Rosidi es científico de datos y en estrategia de producto. También es profesor adjunto de enseñanza de análisis y es el fundador de StrataScratch, una plataforma que ayuda a los científicos de datos a prepararse para sus entrevistas con preguntas de entrevistas reales de las principales empresas. Conéctate con él en Gorjeo: StrataScratch or Etiqueta LinkedIn.

Sello de tiempo:

Mas de nuggets