Imagen generada con DALL-E
En una época en la que el procesamiento analítico de datos es la diferencia fundamental entre un negocio exitoso o no, necesitamos una pila de herramientas que pueda satisfacer las necesidades. El avance de la tecnología ha ayudado a avanzar en todas estas herramientas de datos que necesitamos, a saber, DuckDB y MotherDuck.
PatoDB es un sistema de gestión de bases de datos de procesamiento analítico en línea (OLAP) SQL en proceso de código abierto. El sistema de base de datos está diseñado para manejar rápidamente consultas analíticas de datos, independientemente del tamaño de los datos. El sistema implementa procesamiento en memoria y sistemas OLAP que mejoran efectivamente nuestro proceso de análisis de datos.
DuckDB es perfecto para almacenar y procesar datos tabulares que implican análisis de datos (unión de tablas, agregación de datos, etc.) y cuando nuestro flujo de trabajo suele implicar cambios significativos en la tabla. Por otro lado, DuckDB no es adecuado para una actividad de datos de gran volumen y múltiples procesos simultáneos en una base de datos.
madrepato es un servicio administrado de DuckDB en la nube. Es de uso gratuito y de código abierto mientras lo mantiene la comunidad DuckDB. Es un servicio creado al asociarse con DuckDB Lab para crear una plataforma de servicios en la nube que el público pueda utilizar.
Con una combinación de DuckDB y Motherduck, podemos crear un motor de análisis que se pueda utilizar fácilmente en todos los escenarios. ¿Como hacemos eso? Entremos en ello.
Utilizaremos la interfaz de usuario nativa de MotherDuck para brindarle un ejemplo de cómo funciona el servicio y por qué DuckDB es una herramienta poderosa para el análisis de datos. Regístrese en el sitio web y adquiera la cuenta MotherDuck si aún no lo ha hecho.
Una vez que se registre exitosamente para la cuenta MotherDuck, accederemos a la interfaz de usuario de MotherDuck. Intente familiarizarse con la interfaz de usuario y se dará cuenta de que es similar a Jupyter Notebook si alguna vez usa una.
Experimentaremos con el poder de DBduck en la interfaz de usuario de MotherDuck con los datos de DS Salary de Kaggle. Sube los datos usando el botón Agregar Archivos y se mostrará una nueva celda con la consulta a ejecutar. La consulta debería verse así.
CREATE OR REPLACE TABLE ds_salaries AS SELECT * FROM read_csv_auto(['ds_salaries.csv']);
Una vez que cree la tabla, intente consultar los datos con el siguiente código.
select * from my_db.ds_salaries limit 10;
Como puede ver, MotherDuck es muy parecido a realizar análisis de datos en Notebook, pero con consultas SQL. Probemos la consulta para realizar análisis de datos en MotherDuck.
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
Puedes ejecutar la consulta en la celda; El resultado de la tabla se muestra de manera similar a la imagen a continuación.
Puede filtrar los datos, girar la tabla o descargar el resultado con el botón de selección disponible en la interfaz de usuario.
MotherDuck también permite al usuario acceder a la base de datos a través de Python en su Notebook. Necesitamos instalar el paquete DuckDB usando el siguiente código.
pip install duckdb==v0.9.2
La versión actual que admite MotherDuck es DuckDB 0.9.2; por eso instalamos esa versión.
Cuando la instalación sea exitosa, necesitamos conectar DuckDB con Motherduck. Hay algunas formas de autenticar la conexión, pero usaríamos el token de servicio. Este token se adquiere en la configuración de MotherDuck.
import duckdb
token = "insert token here"
# initiate the MotherDuck connection
con = duckdb.connect(f'md:?motherduck_token={token}')
Si no establecimos ningún nombre de base de datos, MotherDuck accedería utilizando la base de datos predeterminada, que es my_db. A continuación, usemos la misma consulta que hicimos anteriormente en Notebook.
q = """
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
"""
con.sql(q).show()
Verá un resultado similar a la siguiente tabla.
┌─────────────────────────────────────┬───────────────────────┐
│ job_title │ average_salary_in_usd │
│ varchar │ double │
├─────────────────────────────────────┼───────────────────────┤
│ 3D Computer Vision Researcher │ 21352.25 │
│ AI Developer │ 136666.0909090909 │
│ AI Programmer │ 55000.0 │
│ AI Scientist │ 110120.875 │
│ Analytics Engineer │ 152368.63106796116 │
│ Applied Data Scientist │ 113726.3 │
│ Applied Machine Learning Engineer │ 99875.5 │
│ Applied Machine Learning Scientist │ 109452.83333333333 │
│ Applied Scientist │ 190264.4827586207 │
│ Autonomous Vehicle Technician │ 26277.5 │
│ · │ · │
│ · │ · │
│ · │ · │
│ Principal Data Engineer │ 192500.0 │
│ Principal Data Scientist │ 198171.125 │
│ Principal Machine Learning Engineer │ 190000.0 │
│ Product Data Analyst │ 56497.2 │
│ Product Data Scientist │ 8000.0 │
│ Research Engineer │ 163108.37837837837 │
│ Research Scientist │ 161214.19512195123 │
│ Software Data Engineer │ 62510.0 │
│ Staff Data Analyst │ 15000.0 │
│ Staff Data Scientist │ 105000.0 │
├─────────────────────────────────────┴───────────────────────┤
│ 93 rows (20 shown) 2 columns │
└─────────────────────────────────────────────────────────────┘
Con la consulta anterior, puede utilizar el siguiente código para procesarlos en Pandas DataFrame.
import pandas as pd
df = con.sql(q).fetchdf()
Por último, puede cargar otro conjunto de datos en la base de datos utilizando la siguiente consulta.
con.sql("CREATE TABLE mytable AS SELECT * FROM '~/filepath.csv'")
La consulta anterior supone que sus datos son un archivo CSV. Otras opciones incluyen S3 o el DuckDB local para la base de datos MotherDuck.
DuckDB es un sistema de base de datos de código abierto desarrollado específicamente para el análisis de datos. El sistema está diseñado para manejar el procesamiento de datos de manera rápida y eficiente. MotherDuck es un servicio administrado en la nube de código abierto para DuckDB.
Al combinar DuckDB y MotherDuck, podemos convertir nuestras computadoras portátiles en un motor de análisis personal al tener nuestros datos en la nube y procesarlos rápidamente con DuckDB.
Cornelio Yudha Wijaya es subgerente de ciencia de datos y escritor de datos. Mientras trabaja a tiempo completo en Allianz Indonesia, le encanta compartir consejos sobre Python y datos a través de las redes sociales y los medios de escritura.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
- PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
- PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
- PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
- Fuente: https://www.kdnuggets.com/turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck?utm_source=rss&utm_medium=rss&utm_campaign=turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck
- :posee
- :es
- :no
- :dónde
- 10
- 125
- 15000
- 20
- 25
- 3d
- 7
- 8
- 8000
- 9
- a
- arriba
- de la máquina
- Mi Cuenta
- adquirir
- adquirido
- actividad
- add
- avanzar
- avance
- agregación
- AI
- Todos
- Allianz
- permite
- ya haya utilizado
- también
- an
- análisis
- analista
- Analítico
- Pruebas analíticas
- Analytics
- y
- Otra
- cualquier
- aplicada
- somos
- AS
- Legal
- asume
- At
- autenticar
- autónomo
- vehículo autónomo
- Hoy Disponibles
- BE
- a continuación
- entre
- construido
- pero
- .
- by
- PUEDEN
- (SCD por sus siglas en inglés),
- Cambios
- Soluciones
- código
- Columnas
- combinación
- combinar
- vibrante e inclusiva
- computadora
- Visión por computador
- competidor
- Contacto
- conexión
- podría
- Para crear
- crítico
- Current
- datos
- análisis de los datos
- analista de datos
- Data Analytics
- ingeniero de datos
- proceso de datos
- Ciencia de los datos
- científico de datos
- Base de datos
- Predeterminado
- diseñado
- desarrollado
- Developer
- HIZO
- un cambio
- do
- "Hacer"
- doble
- descargar
- de manera eficaz
- eficiente.
- Motor
- ingeniero
- etc.
- Éter (ETH)
- NUNCA
- Cada
- ejemplo
- ejecutar
- experimento
- familiarizar
- pocos
- Archive
- archivos
- filtrar
- siguiendo
- Gratis
- Desde
- generado
- obtener
- Donar
- Grupo procesos
- mano
- encargarse de
- Manejo
- es
- he
- ayudado
- esta página
- Cómo
- HTTPS
- if
- imagen
- implementos
- mejorar
- in
- incluir
- Indonesia
- iniciar
- instalar
- instalación
- dentro
- implica
- que implica
- IT
- únete
- Cuaderno Jupyter
- nuggets
- el lab
- portátil
- ordenadores portátiles
- aprendizaje
- como
- LIMITE LAS
- Etiqueta LinkedIn
- carga
- local
- Mira
- parece
- ama
- máquina
- máquina de aprendizaje
- gestionado
- Management
- sistema de gestión
- gerente
- Medios
- mucho más
- múltiples
- nombre
- a saber
- nativo
- ¿ Necesita ayuda
- Nuevo
- Next
- cuaderno
- of
- on
- ONE
- en línea
- de código abierto
- Opciones
- or
- solicite
- Otro
- "nuestr
- salir
- salida
- paquete
- Los pandas
- Asociación
- perfecto
- con
- Pivot
- plataforma
- Platón
- Inteligencia de datos de Platón
- PlatónDatos
- Por favor
- industria
- poderoso
- bastante
- previamente
- Director de la escuela
- en costes
- tratamiento
- Producto
- Programador
- público
- Python
- consultas
- con rapidez
- fácilmente
- darse cuenta de
- Independientemente
- registrarte
- reemplazar
- la investigación
- investigador
- resultado
- sueldo
- mismo
- guión
- Ciencia:
- Científico
- ver
- selecciona
- selección
- de coches
- set
- ajustes
- Compartir
- tienes
- mostrado
- importante
- similares
- Del mismo modo
- Tamaño
- Social
- redes sociales
- Software
- específicamente
- SQL
- montón
- Staff
- exitosos
- Con éxito
- adecuado
- SOPORTE
- soportes
- rápidamente
- te
- Todas las funciones a su disposición
- mesa
- toma
- Tecnología
- esa
- La
- Les
- Ahí.
- Estas
- así
- equipo
- recomendaciones
- a
- ficha
- del IRS
- try
- GIRO
- ui
- utilizan el
- Usuario
- usando
- generalmente
- vehículo
- versión
- vía
- visión
- fue
- formas
- we
- Página web
- cuando
- que
- mientras
- porque
- seguirá
- flujo de trabajo
- trabajando
- funciona
- se
- escritor
- la escritura
- Usted
- tú
- a ti mismo
- zephyrnet