Walmart opera miles de tiendas en entornos muy distintos entre sí — distintos tamaños, regiones, perfiles de cliente y contextos económicos. Tomar buenas decisiones en ese escenario requiere algo más que intuición: requiere entender qué está pasando realmente en cada segmento del negocio.
Este proyecto trabaja con datos históricos de ventas semanales de 45 tiendas Walmart en Estados Unidos, cubriendo el periodo 2010–2012. El dataset incluye información sobre tipo y tamaño de tienda, presencia de promociones, días festivos e indicadores macroeconómicos como el CPI y el desempleo.
Lo que hace interesante a este dataset no es su tamaño, sino las preguntas que permite responder: ¿Las promociones realmente mueven las ventas, o solo generan ruido? ¿Qué tipo de tienda aprovecha mejor su espacio? ¿Cómo reacciona cada segmento ante la inflación o los días festivos? Preguntas que cualquier retailer enfrenta, y que rara vez se responden con datos.
El análisis busca convertir esos datos en decisiones: identificar qué tipos de tienda rinden mejor, bajo qué condiciones, y dónde hay oportunidades de mejora que no son evidentes a simple vista.
El objetivo de este proyecto es explorar el comportamiento de ventas de Walmart a través de cinco preguntas de negocio concretas, cada una diseñada para revelar un ángulo distinto de la operación retail.
¿Qué tipo de tienda tiene mejor desempeño y mayor estabilidad en ventas? Entender qué segmento vende más y con menor variabilidad es el punto de partida para cualquier decisión de inversión o expansión.
¿Las promociones realmente incrementan las ventas y su efecto varía según el tipo de tienda? No todas las promociones tienen el mismo impacto. El análisis busca separar los segmentos donde las promociones generan retorno real de aquellos donde simplemente no mueven la aguja.
¿Cómo impactan los días festivos en el comportamiento de las ventas? Los festivos son momentos críticos en el calendario retail. Aquí se evalúa si ese impacto es universal o si algunos tipos de tienda se benefician más que otros.
¿A mayor inflación, menor ganancia de ventas? El entorno macroeconómico afecta el bolsillo del consumidor. Esta pregunta analiza si el alza del CPI se traduce en una caída real del ticket de venta, y si ese efecto es igual en todos los segmentos.
¿Cuál es el tipo de tienda con mayor eficiencia en ventas por pie cuadrado? Las ventas absolutas pueden ser engañosas. Esta métrica normaliza el rendimiento por tamaño de tienda, revelando cuál segmento aprovecha mejor su espacio físico independientemente de su volumen.
Lenguaje y entorno: Python, en Jupyter Notebook, combinando análisis, visualización y narrativa en un mismo flujo de trabajo documentado.
Manipulación y análisis de datos: Pandas fue la columna vertebral del proyecto — limpieza, fusión de tablas, agrupaciones, creación de métricas derivadas y pivoteo de datos. NumPy complementó el trabajo con operaciones numéricas puntuales como cálculo de regresiones y medias móviles.
Visualización: Matplotlib y Seaborn para la construcción de todas las visualizaciones del proyecto: gráficas de barras, dispersión, líneas con media móvil, mapas de calor y gráficas de regresión. La combinación de ambas bibliotecas permitió balancear control fino sobre los elementos visuales con una API de alto nivel para gráficas estadísticas.
Estadística: SciPy (scipy.stats) para las pruebas de hipótesis — t-test de Student para comparar grupos y coeficientes de correlación de Pearson y Spearman para medir la relación entre variables continuas como CPI y ventas semanales.
El punto de partida fue la exploración inicial de tres archivos fuente: train.csv, stores.csv y features.csv. Antes de cualquier análisis, se realizó una revisión del estado de los datos — tipos de columna, valores nulos, duplicados y rangos — para entender con qué se estaba trabajando y qué necesitaba atención antes de continuar.
La limpieza se enfocó en los problemas más relevantes: las columnas de Markdown (MarkDown1–MarkDown5) fueron descartadas por su alto porcentaje de valores faltantes, se estandarizaron tipos de dato y se construyeron variables derivadas que serían clave para el análisis posterior — entre ellas una columna que identifica semanas con promociones activas (offers_logical) y la extracción del periodo YearMonth para agregaciones temporales.
Con los datos limpios, las tres tablas se fusionaron en un único DataFrame de trabajo (df_merged) mediante joins por Store y Date, consolidando toda la información relevante — ventas, características de tienda e indicadores externos — en una sola estructura lista para analizar.
El análisis exploratorio siguió una lógica de embudo: primero una visión global del comportamiento de ventas, y luego una desagregación progresiva por tipo de tienda (A, B y C), que resultó ser la variable con mayor poder explicativo a lo largo de todo el proyecto. Cada pregunta de negocio se abordó de forma independiente pero acumulativa — los hallazgos de una pregunta informaron el enfoque de la siguiente.
Para cada pregunta se combinaron tres capas de análisis: visualización exploratoria para identificar patrones, métricas de tendencia central y dispersión robustas (mediana e IQR) para resumir el comportamiento sin distorsiones por outliers, y validación estadística mediante pruebas de hipótesis y coeficientes de correlación para confirmar que los patrones observados no eran producto del azar.
DataFrame "features_clean", version ya limpia de "fetures"
1) ¿Qué tipo de tienda tiene mejor desempeño y mayor estabilidad en ventas?
Para responder esta pregunta se analizó la distribución de ventas mensuales promedio y el coeficiente de variación (CV) de cada tipo de tienda a lo largo del periodo 2010–2012, combinando métricas de volumen y estabilidad en una misma visualización.
(Véase Figura 1 en la galería)
Las tiendas tipo A lideran en volumen con $20 mil millones USD mensuales y presentan el CV más bajo (1.3), lo que indica ventas consistentes a lo largo del tiempo. Las tipo B alcanzan $12 mil millones USD con un CV de 1.33 y mayor presencia de eventos extremos. Las tipo C, con $9 mil millones USD y CV de 1.7, muestran una variación más estacional que esporádica.
💡 Insight: Las tiendas tipo A no solo venden más — venden mejor. Son el único segmento que combina alto volumen con alta estabilidad.
🏢 Implicación de negocio: Las tiendas tipo A representan el modelo operativo más sólido del portafolio. Cualquier estrategia de expansión o inversión debería tomar este segmento como referencia.
2) ¿Las promociones realmente incrementan las ventas y su efecto varía según el tipo de tienda?
Se compararon las ventas promedio semanales en periodos con y sin promociones activas para cada tipo de tienda, graficando ambos valores en un diagrama de dispersión con una línea de referencia que marca el punto de neutralidad — donde las ventas con promoción igualan a las ventas sin promoción.
(Véase Figura 2 en la galería)
Las tiendas tipo A concentran la mayoría de sus puntos por encima de la línea de referencia, evidenciando un impacto promocional positivo y consistente. Las tipo B se distribuyen alrededor de la diagonal sin tendencia clara. Las tipo C se ubican cerca o por debajo de ella, sin mostrar beneficio real de las promociones.
💡 Insight: Las promociones amplifican el desempeño de tiendas que ya operan bien, pero no corrigen debilidades estructurales. El efecto es positivo en A, neutro en B e inexistente en C.
🏢 Implicación de negocio: Concentrar el presupuesto promocional en tiendas tipo A maximiza el retorno. En tiendas B conviene evaluar caso por caso. En tiendas C, destinar recursos a promociones representa un costo sin retorno claro.
3) ¿Cómo impactan los días festivos en el comportamiento de las ventas?
Se compararon las ventas semanales promedio entre semanas festivas y ordinarias, primero a nivel global y luego segmentado por tipo de tienda. Para validar que las diferencias observadas no fueran producto del azar, se aplicó una prueba t de Student a cada segmento.
(Véase Figura 3 y 4 en la galería)
Globalmente, las semanas festivas generan un incremento del 7% en ventas promedio — de $15,901 a $17,035 USD. Al desagregar, las tiendas A y B muestran diferencias estadísticamente significativas (p < 0.05). Las tiendas C presentan prácticamente el mismo nivel de ventas con o sin festivo, con un p-value de 0.96 que confirma que la diferencia es indistinguible del azar.
💡 Insight: Los días festivos no son un impulsor universal de ventas — su efecto depende del tipo de tienda. A y B responden, C es indiferente.
🏢 Implicación de negocio: Las campañas estacionales y el refuerzo operativo en fechas festivas generan retorno en tiendas A y B. Replicar esa inversión en tiendas C sin ajustes previos es ineficiente.
4) ¿A mayor inflación, menor ganancia de ventas?
Se analizó la relación entre el Índice de Precios al Consumidor (CPI) y las ventas semanales medianas, tanto a nivel global como segmentado por tipo de tienda. Se utilizaron gráficas de línea con media móvil para identificar tendencias y gráficas de dispersión con regresión lineal para cuantificar la dirección e intensidad de la relación. La correlación se midió con los coeficientes de Pearson y Spearman.
(Véase Figura 5 en la galería)
Globalmente existe una correlación negativa moderada (Pearson -0.494, Spearman -0.558), con el efecto intensificándose a partir de niveles intermedios de CPI. Al segmentar, las tiendas B son las más vulnerables con una correlación negativa muy fuerte (Pearson -0.927). Las tiendas A muestran prácticamente ninguna correlación (+0.126), operando con resiliencia ante la presión inflacionaria. Las tiendas C arrojan resultados contradictorios entre ambos coeficientes, sin permitir una conclusión robusta.
💡 Insight: La inflación no golpea a todos por igual. Las tiendas B son altamente vulnerables; las tiendas A absorben la presión macroeconómica sin impacto significativo en ventas.
🏢 Implicación de negocio: En contextos de inflación creciente, las tiendas tipo B requieren estrategias defensivas activas — ajuste de precios, revisión de mix de productos o promociones de valor. Las tiendas A pueden operar con mayor normalidad. Las tiendas C requieren análisis adicional antes de tomar decisiones.
5) ¿Cuál es el tipo de tienda con mayor eficiencia en ventas por pie cuadrado?
Para comparar tiendas de distintos tamaños en igualdad de condiciones, se calculó la métrica Sales per Square Foot — ventas semanales divididas entre el tamaño de la tienda en pies cuadrados. Se utilizó la mediana como métrica de resumen y el IQR para medir estabilidad, ambas robustas ante los picos atípicos recurrentes en el dataset.
(Véase Figura 6 en la galería)
Las tiendas tipo B lideran en eficiencia con $0.066 USD/ft² de mediana, aunque con una variabilidad media (IQR 0.139). Las tiendas tipo A quedan en segundo lugar en eficiencia ($0.056 USD/ft²) pero presentan el IQR más bajo (0.129), siendo el segmento más estable y predecible. Las tiendas tipo C cierran el ranking en ambas dimensiones: menor eficiencia ($0.028 USD/ft²) y mayor volatilidad (IQR 0.302).
💡 Insight: Las tiendas tipo B aprovechan mejor su espacio físico; las tipo A lo hacen de forma más consistente. Las tipo C son ineficientes en ambas dimensiones.
🏢 Implicación de negocio: Si el objetivo es maximizar el retorno por espacio, las tiendas B son el modelo a replicar. Si la prioridad es predictibilidad operativa, las tiendas A son la referencia. Las tiendas C requieren una revisión estratégica que va más allá de la eficiencia por pie cuadrado.
Figura 1 del análisis de la primera pregunta de negocio
Figura 2 del análisis de la segunda pregunta de negocio
Figura 3 del análisis de la tercera pregunta de negocio
Figura 4 del análisis de la tercera pregunta de negocio
Figura 5 del análisis de la cuarta pregunta de negocio
Figura 6 del análisis de la quinta pregunta de negocio
A lo largo del análisis emergen patrones consistentes que se repiten pregunta tras pregunta, todos apuntando en la misma dirección: el tipo de tienda es la variable con mayor poder explicativo del negocio.
Las tiendas tipo A son el activo más valioso del portafolio. Lideran en volumen de ventas ($20 mil millones USD mensuales), tienen la mayor estabilidad operativa, responden mejor a las promociones, se benefician de los días festivos y absorben la presión inflacionaria sin impacto significativo. Son el único segmento que rinde bien en todas las dimensiones analizadas.
Las tiendas tipo B son más eficientes de lo que parecen, pero vulnerables. Aunque en ventas absolutas quedan por debajo de las tipo A, lideran en eficiencia por pie cuadrado ($0.066 USD/ft²). Sin embargo, son el segmento más sensible a la inflación — con una correlación negativa de -0.927 entre CPI y ventas — lo que las convierte en el segmento de mayor riesgo en contextos macroeconómicos adversos.
Las tiendas tipo C muestran un patrón de bajo rendimiento estructural. En todas las preguntas analizadas, las tiendas C quedaron en el último lugar o arrojaron resultados no concluyentes: menor volumen, mayor volatilidad, nula respuesta a promociones y festivos, e ineficiencia por espacio. Su problema no es coyuntural — es estructural.
Las promociones y los festivos no son palancas universales. Su efectividad depende del tipo de tienda. Aplicar la misma estrategia promocional a los tres segmentos implica invertir recursos donde no generan retorno.
La inflación segmenta el riesgo del portafolio. En un escenario de CPI creciente, no todas las tiendas se ven afectadas igual. Las tipo B requieren atención activa; las tipo A operan como refugio natural ante la presión de precios.
Via Google Colab: Ver Notebook aqui
Este proyecto fue una oportunidad para aplicar un flujo de trabajo completo de análisis de datos — desde la limpieza y tratamiento de valores atípicos hasta la generación de insights accionables — usando herramientas fundamentales del ecosistema Python. Cada etapa del proceso, desde la imputación de datos hasta la validación estadística, reforzó que la calidad del análisis depende directamente de la calidad de los datos que lo alimentan.
Más allá del ejercicio técnico, los resultados tienen implicaciones de negocio concretas. Saber que las tiendas tipo A son las que mejor responden a promociones permite redirigir el presupuesto de marketing hacia donde genera retorno real. Conocer que las tiendas tipo B lideran en eficiencia por pie cuadrado abre una conversación sobre qué mix de productos potenciaría aún más ese rendimiento. Entender que las tiendas tipo C no reaccionan ni a promociones ni a festivos invita a replantear su modelo operativo antes de seguir invirtiendo en palancas que no funcionan en ese segmento.
El hallazgo sobre inflación quizás sea el más estratégico: saber qué tipos de tienda son vulnerables al CPI y cuáles operan con resiliencia macroeconómica le da a la organización una ventaja real en la planificación — no para reaccionar cuando la crisis ya llegó, sino para anticiparse, reasignar recursos y proteger los segmentos más expuestos antes de que el impacto se materialice en los resultados.
En conjunto, este proyecto demuestra que el análisis exploratorio de datos no es un ejercicio descriptivo — es una herramienta de toma de decisiones.
Este proyecto establece una base sólida de análisis exploratorio, pero abre la puerta a extensiones más avanzadas que permitirían pasar de describir el comportamiento histórico a predecirlo y optimizarlo.
Modelado predictivo con Machine Learning supervisado El siguiente paso natural es construir modelos que predigan el ticket de venta semanal por tienda y departamento. Algoritmos como Random Forest, Gradient Boosting (XGBoost, LightGBM) o regresión regularizada (Ridge, Lasso) permitirían no solo predecir ventas futuras, sino también identificar qué variables — tipo de tienda, CPI, festivos, promociones — tienen mayor peso predictivo real sobre los resultados.
Redes neuronales para series de tiempo Dado que los datos tienen una dimensión temporal clara, arquitecturas como LSTM o modelos de la familia Transformer entrenados sobre las series de ventas semanales podrían capturar patrones estacionales complejos que los métodos tradicionales no detectan — especialmente en segmentos con alta volatilidad como las tiendas tipo C.
Métodos estadísticos avanzados para caracterización de distribuciones Aplicar pruebas de bondad de ajuste (Kolmogorov-Smirnov, Anderson-Darling) permitiría identificar qué distribución probabilística sigue cada segmento de tienda, habilitando modelos estadísticos más precisos. Complementariamente, la estimación de densidad por kernel (KDE) ofrecería una representación más fiel de la distribución real de ventas sin asumir normalidad, mejorando la base de cualquier modelo posterior.
Simulaciones estocásticas para estimación de ventas Con las distribuciones caracterizadas, sería posible implementar simulaciones de Monte Carlo para estimar rangos de ticket de venta bajo distintos escenarios — variaciones de CPI, presencia o ausencia de promociones, semanas festivas — cuantificando no solo el valor esperado sino también el riesgo e incertidumbre asociados a cada escenario. Esto transformaría el análisis en una herramienta de planificación financiera bajo incertidumbre.
Machine Learning no supervisado para descubrimiento de patrones ocultos Técnicas de clustering como K-Means o DBSCAN aplicadas sobre el perfil de ventas, estacionalidad y respuesta a promociones de cada tienda podrían revelar segmentos naturales que van más allá de la clasificación A, B, C del dataset original — identificando, por ejemplo, tiendas tipo B que se comportan más como A, o tiendas dentro del mismo tipo con perfiles radicalmente distintos que merecen estrategias diferenciadas.
Análisis a nivel de departamento Todo el análisis actual opera a nivel de tienda. Bajar la granularidad al nivel de departamento permitiría identificar qué categorías de producto impulsan las ventas en cada tipo de tienda, qué departamentos son más sensibles a la inflación o los festivos, y dónde se concentran realmente las oportunidades de optimización dentro de cada segmento.