PIPELINE ETL — CALIDAD DEL AIRE EN INDIA
Pipeline end-to-end para procesar el dataset Air Quality Data in India (Kaggle). Los datos se procesan en zonas progresivas hasta generar analisis y visualizaciones.
OBJETIVO
ARQUITECTURA POR ZONAS
data/landing-zoneArchivos CSV descargados directamente de Kaggle mediante scripts/extract.py.
data/raw-zoneInformes de calidad generados con ydata_profiling; los HTML se guardan en data/raw-zone/data_quality_reports.
data/refined-zoneDatos transformados, AQI_Bucket codificado numericamente y guardados en Parquet. Incluye aqi_bucket_mapping.json.
ESQUEMA DE DATOS
city_dayMediciones agregadas por ciudad y dia — PM2.5, PM10, NO2, SO2, CO, O3, AQI, AQI_Bucket.
city_hourMediciones agregadas por ciudad y hora.
station_dayMediciones por estacion individual y dia.
station_hourMediciones por estacion individual y hora.
stationsCatalogo de estaciones: nombre, ciudad, estado, latitud, longitud.
CLASIFICACION AQI_BUCKET
El archivo data/refined-zone/aqi_bucket_mapping.json mapea cada etiqueta a un codigo numerico para ML.
RECURSOS DEL REPOSITORIO
notebooks/etl_pipeline.ipynbLectura y procesamiento de datos con Apache Spark.
notebooks/data_transformation.ipynbTransformaciones, encoding y guardado en Parquet.
scripts/extract.pyDescarga del dataset desde Kaggle API.
scripts/profile.pyGeneracion de informes de calidad con ydata_profiling.
scripts/transform.pyPipeline de limpieza y transformacion.
scripts/load.pyCarga de datos transformados.