Carwler InfoEscuela

En el repositorio esta disponible una primera versión del crawler para infoescuela, se basa en la solución propuesta en una entrada anterior. Al ejecutar el crawler se obtienen 3.7GB de datos en páginas html (con mas de 30 horas de ejecución). Luego, al ejecutar un proceso de scraping besico, sobre cada página, se logra un total de 117M en datos formateados (el proceso toma 8 horas de ejecución). El siguiente es un ejemplo de la data formateada para la escuela con RBD 9061.



De un total de 12114 colegios, existen 287 que presentaron problemas al momento de consultar por alguna de las páginas con información. Los problemas se concentran en solo dos paginas, la de datos sobre el SIMCE (58 casos) y la página de datos de profesores (229 casos). Por ejemplo la escuela con RBD 5421 presenta problemas en la pagina de datos del SIMCE, y la escuela con RBD 9813 presenta problemas con la página de datos de profesores. Es probable que estos problemas se deban a un bug en la generación de las páginas en el sistema InfoEscuela.

No hay comentarios: