Usando Tableau

Introducción:

En este análisis, nos adentraremos en el estudio de los datos de los estudiantes de Colombia recopilados a partir del portal oficial del Sistema Nacional de Información de la Educación Superior (SNIES) del Ministerio de Educación https://snies.mineducacion.gov.co. Para llevar a cabo este análisis, utilizaremos la biblioteca Selenium en Python. Aunque su uso no es estrictamente necesario para esta tarea en particular, emplearlo nos permitirá practicar y desarrollar nuestras habilidades con esta herramienta.

Una vez recopilados los datos, procederemos a la etapa de limpieza y transformación. Aquí es donde aprovecharemos las funcionalidades de la biblioteca Pandas en Python. Utilizaremos las diversas capacidades de manipulación y procesamiento de datos de Pandas para asegurarnos de que los datos sean consistentes, precisos y listos para su análisis posterior.

Una vez que hayamos realizado la limpieza y transformación de los datos, pasaremos a la fase de visualización. Para esta etapa, haremos uso de Tableau, una plataforma de visualización de datos poderosa y flexible. Tableau nos permitirá explorar y presentar los datos de manera intuitiva y efectiva, brindándonos la capacidad de crear gráficos, tablas y paneles interactivos para visualizar y comunicar los hallazgos de manera clara y comprensible.

En resumen, este proyecto nos permitirá realizar un análisis detallado de los datos de los estudiantes de Colombia, utilizando Selenium para la extracción, Pandas para la limpieza y transformación, y Tableau para la visualización. A través de este proceso, podremos obtener información valiosa y generar conocimiento a partir de los datos, lo que nos ayudará a comprender mejor el panorama educativo en Colombia y a tomar decisiones informadas en el ámbito educativo.

SELENIUM

Utilizamos la biblioteca Selenium para automatizar la descarga de archivos en formato Excel desde el sitio web https://snies.mineducacion.gov.co. Esta técnica es especialmente útil cuando se requiere extraer datos para análisis posterior.

En primer lugar, se inicializa el controlador de Chrome mediante Selenium. Esto permite interactuar con el navegador web de forma programática y realizar acciones automatizadas. Luego, se establece una ruta de descarga personalizada donde se guardarán los archivos que se obtendrán del sitio web.

A continuación, se configuran las opciones del controlador de Chrome, incluyendo las preferencias de descarga. Esto asegura que los archivos descargados se almacenen en la ubicación especificada sin mostrar solicitudes de confirmación de descarga. Una vez que se han configurado las opciones, se inicializa nuevamente el controlador de Chrome.

Después de la inicialización, el código navega hacia la página https://snies.mineducacion.gov.co/portal/ESTADISTICAS/Bases-consolidadas/. En esta página, se realiza una búsqueda específica utilizando el campo de búsqueda del sitio web. La cadena de búsqueda utilizada es “estudiantes inscritos”. Luego, se presiona la tecla Enter para realizar la búsqueda y obtener los resultados correspondientes.

Para garantizar que se carguen todos los resultados en la página, se simula el desplazamiento hacia abajo utilizando la tecla de flecha hacia abajo. Esto asegura que todos los enlaces relevantes estén disponibles para su procesamiento.

Después de esperar un breve período de tiempo para permitir que la página se cargue completamente, se buscan todos los enlaces que contengan el texto “Estudiantes”. Estos enlaces representan los archivos que se desean descargar.

Finalmente, se realiza un clic en cada enlace encontrado para iniciar la descarga de los archivos correspondientes. Se agrega un breve tiempo de espera después de cada clic para permitir que se complete la descarga antes de continuar con el siguiente enlace.

En resumen, este código automatiza el proceso de descarga de archivos en formato Excel desde el sitio web snies.mineducacion. Esto facilita la obtención de datos de estudiantes inscritos para su posterior análisis y procesamiento.

LIMPIEZA DE DATOS

El proceso de Extracción, Transformación y Carga (ETL) es una etapa fundamental en el análisis de datos.

En primer lugar, se importan las bibliotecas necesarias, como pandas y os, para el manejo de datos y operaciones en el sistema de archivos.

La extracción de datos comienza leyendo archivos en formato Excel (.xlsx) utilizando la función “pd.read_excel”. Se leen varios archivos correspondientes a diferentes años y se almacenan en DataFrames separados.

Después de la extracción, se realiza la transformación de los datos para adaptarlos a las necesidades del análisis. Se define una función “eliminar_filas_iniciales” que elimina las primeras filas del DataFrame y establece la primera fila como encabezado. Esta función se aplica a cada DataFrame para eliminar filas innecesarias y establecer los encabezados adecuados.

Se llevan a cabo diversas transformaciones adicionales, como la eliminación de columnas específicas y la corrección de nombres de columnas. También se realizan ajustes en los valores de las columnas para asegurar la consistencia y uniformidad de los datos.

A continuación, se unen todos los DataFrames en uno solo mediante la función “pd.concat”. Esto permite combinar los datos de diferentes años en un único DataFrame para su posterior análisis.

Después de la transformación y unión de los datos, se realiza una exploración inicial mediante la función “describe” de pandas para obtener estadísticas descriptivas de las columnas.

Se realizan algunas correcciones y limpieza adicionales en ciertas columnas mediante la identificación de valores únicos y la aplicación de reemplazos específicos.

Finalmente, se guarda el DataFrame resultante en un archivo CSV utilizando la función “to_csv” de pandas.

GITHUB

Se puede encontrar el notebook en mi github

TABLEAU

TABLEU