Imagen de portada
Imagen de perfil
Seguir

Nataya Flores - Datos | Programación | Tecnología | Ciencia

Ciencia y tecnología
4Seguidos
3Seguidores

Bolsas de Trabajo IT

¡Hola! #FriendlyReminder a todos los que me están leyendo por acá que tienen a disposición de forma gratuita algunas iniciativas de bolsas de trabajo y de eventos de networking que listaré en este posteo: Canales de STEM en general: -Canal de Instagram: https://www.instagram.com/j/AbYSxhKtdj8T-Qvy/ -Canal de Telegram: https://t.me/natayadevcomunidad Canales de temática específica: -Data Plumbers: una comunidad de WhatsApp sobre Ingeniería de Datos en Español: https://chat.whatsapp.com/FPPDkGwcYB61yBOfx4Pnm7 -Comunidad Misiones IT: una comunidad de Whatsapp para aquellos residentes en la Provincia de Misiones (Argentina) Y por último pero no menos importante, un listado de portales de empleo en LATAM, templates de seguimiento de entrevistas y recursos de infromación sobre sueldos: https://github.com/natayadev/portales-empleo ¡Espero que te sirvan y éxitos en tu vida profesional!
Ver más

¿Qué es Polars? [Parte 2]

Sigamos con la segunda parte del posteo de Polars... Rendimiento y manejo de memoria -Pandas: velocidad moderada, escalabilidad limitada a la memoria y ejecución inmediata (ansiosa). -Polars: velocidad alta, muy buena escalabilidad y ejecución diferida (perezosa). -PySpark: alta velocidad en clústeres, escala horizontalmente y tiene ejecución distribuida. Polars destaca por su eficiencia en operaciones paralelizadas y uso de memoria. Pandas, aunque más lento con grandes volúmenes de datos, sigue siendo muy útil para trabajos más pequeños. PySpark es ideal cuando se necesita escalar el procesamiento en entornos distribuidos. Comparativas clave: -Pandas y Polars trabajan con DataFrames y tienen APIs similares. -PySpark se basa en RDDs y estructuras distribuidas. -Pandas está construido sobre NumPy (en C); Polars está basado en Rust. -Pandas es adecuado para análisis ligeros; Polars para cargas mayores. -Pandas utiliza PyArrow; Polars se basa directamente en Arrow. -Polars soporta mejor columnas complejas como datetime, booleanas o binarias. -Pandas ejecuta operaciones inmediatamente; Polars usa ejecución diferida. -Pandas tiene una comunidad consolidada; Polars es más reciente y menos interoperable. La herramienta adecuada depende del tamaño del dataset, los recursos disponibles y los objetivos del análisis. Entonces... podríamos concluir con lo siguiente: Usa Pandas si trabajás con datos pequeños o medianos y buscás simplicidad. Usa PySpark si tu escenario involucra grandes volúmenes distribuidos y procesamiento en clúster. Usa Polars si necesitás mayor rendimiento con datos grandes y eficiencia en memoria. ¿Y vos cuál preferís?
Ver más

¿Qué es Polars? [Parte 1]

Hablemos de los frameworks de Python más conocidos que existen para el análisis de datos que existen: Pandas, PySpark y Polars: ¿Cuál elegir? Repasemos uno a uno y hagamos algunas comparativas, pero primero... Un framework es un conjunto de herramientas, librerías y buenas prácticas que permite desarrollar software más rápido y ordenado. En Python, existen frameworks para desarrollo web, análisis de datos, machine learning y más. Pandas, PySpark y Polars no son frameworks completos, pero sí bibliotecas muy potentes que facilitan el trabajo con datos de forma estructurada. Pandas es una biblioteca muy popular en el ecosistema Python. Utiliza estructuras de datos llamadas DataFrames, que permiten trabajar con datos tabulares de forma sencilla y eficiente. Ideal para: -Análisis de datasets pequeños a medianos -Limpieza, transformación y agregación de datos PySpark es la interfaz de Python para Apache Spark, una plataforma de procesamiento distribuido. Está diseñada para procesar grandes volúmenes de datos en paralelo sobre clústeres y soporta procesamiento en tiempo real. Ideal para: -Procesamiento de big data -Análisis en tiempo real -Trabajos distribuidos con RDDs Polars es una biblioteca moderna enfocada en el rendimiento y la eficiencia de memoria. Utiliza paralelización interna y está escrita en Rust, lo que le permite ser muy rápida, especialmente con datasets grandes. Ideal para: -Datasets medianos a grandes -Procesamiento eficiente y rápido -Análisis exploratorio intensivo ¿Para qué sirven estas herramientas? Estas bibliotecas permiten trabajar con diferentes tipos de datos para tareas como: -Análisis de datos históricos -Procesamiento de archivos de logs -Construcción de modelos de machine learning -Detección de eventos o alertas en tiempo real -Análisis de tráfico de red -Identificación de comportamientos anómalos o amenazas Sigue leyendo en la parte 2...
Ver más