De 568 años a 25 días

Proyecto: Métodos Machine Learning aplicados para estimar la concentración de los contaminantes de la DQO y de los SST en hidrosistemas de saneamiento urbano a partir de espectrometría UV-Visible.
Autor del Proyecto: David Andrés Zamora Ávila, (Estudiante de Maestría en Hidrosistemas)
Director: Andrés Torres, PhD
Asesoría ZINE: Alexander Herrera Castro, Coordinador HPC ZINE

El conocimiento de la concentración de contaminantes representa un insumo fundamental para el desarrollo de la gestión de los sistemas de saneamiento urbano (SSU). Para este fin tecnologías recientes instalables in situ como las sondas de espectrometría UV-Visible, que son capaces de proporcionar informaciones a alta frecuencia, que pueden traducirse en términos de concentraciones equivalentes de Sólidos Suspendidos Totales y Demanda Química de Oxígeno (u otro tipo de contaminante), lo cual permite monitorear el estado de los flujos contaminantes favoreciendo la comprensión y el control sobre éstos, especialmente en la detección de perturbaciones. Dado que estos captores no proporcionan directamente valores de concentraciones de contaminantes, se deben desarrollar y poner en práctica métodos específicos para evaluar las concentraciones equivalentes y sus incertidumbres. Por lo tanto, este trabajo investigación tuvo como objetivo desarrollar nuevas metodologías basadas en métodos machine learning (ML), para lo cual se implementaron tres técnicas de inteligencia artificial denominadas: Support Vector Machine (SVM), Redes Neuronales Artificiales (RNA) y algoritmos evolutivos, y comparar sus resultados con Partial Least Squares una técnica ampliamente utilizada en quimiometría.

Además, se tuvo en cuenta la incertidumbre de los datos de concentración y de los espectros UV-Vis cuantificada por medio de la ley de la propagación de la incertidumbre y métodos Monte Carlo, así como la detección de outliers de una bivariada, y finalmente calibrar 1000 modelos de cada uno de los métodos propuestos para cada contaminante y para cada uno de los siguientes casos de estudio: Planta de Tratamiento de Aguas Residuales (PTAR) de San Fernando en Medellín, Colombia (escenario piloto), PTAR de Fontaines-sur-Saône (en tiempo seco y lluvia), Grand Lyon, Francia, y la estación elevadora de aguas residuales Gibraltar (EEG) en Bogotá, Colombia.

Por otra parte, normalmente los tiempos computacionales de los métodos de machine learning son altos y este caso no fue la excepción, se realizaron pruebas para un solo modelo RNA en un computador de 6 cores y tomo un tiempo de 21 días por modelo, lo que daría un tiempo total para los 9000 modelos de 189000 días, algo más de 517 años,  y en el caso de SVM las pruebas también se realizaron en un computador de 6 cores gastando un tiempo de 48 horas por ejecución, para las 9000 ejecuciones necesarias tomaría un tiempo de 432000 horas, osea 18000 días, algo así como 49 años, en total se necesitarían 568 años para ejecutar todo el proyecto en un computador de 6 cores.

Fue entonces necesario utilizar las tecnologías computacionales disponibles en el Centro de Alto Rendimiento Computacional – ZINE, para ejecutar de forma paralela y múltiple los modelos de RNA y SVM, gracias a la implementación e infraestructura de estos recursos de hardware (exactamente 384 cores) y software, se logró reducir significativamente el tiempo de cómputo llegando a un total de 25 días de ejecución continua.

De las ejecuciones de estos modelos uno de los resultados obtenidos fue que el modelo SVM genero resultados satisfactorios, incluso en algunos casos con un grado de error menor al obtenido por medio de los modelos PLS, principalmente cuando el conjunto de datos de calibración y validación es mayor, Lo anterior incidió en que los parámetros de la arquitectura de los modelos SVM sean más robustos y permitan la representación de la variabilidad de las concentraciones para diferentes comportamientos del espectro de absorbancia.

Figura 1

Evaluación del desempeño de los modelos SVM en la etapa de calibración y validación en el caso de la estimación de las concentraciones equivalentes de DQO del afluente de la PTAR de Fontaines-sur-Saône en tiempo seco

Parsimonia de los modelos PLS (recuadro rojo) y SVM (recuadro verde): frecuencia de las longitudes de onda y sus valores de absorbancia utilizadas en la calibración de los 1000 modelos del contaminante DQOf del afluente de la PTAR de Fontaines-sur-Saône (tiempo lluvia)

Parsimonia de los modelos PLS (recuadro rojo) y SVM (recuadro verde): frecuencia de las longitudes de onda y sus valores de absorbancia utilizadas en la calibración de los 1000 modelos del contaminante DQOf del afluente de la PTAR de Fontaines-sur-Saône (tiempo lluvia)

Finalizó el Segundo Curso en “Uso de la infraestructura ZINE”

Con 14 investigadores certificados, finalizó el 14 de junio y después de siete sesiones el curso de “Uso de la infraestructura ZINE”, el curso fue dictado por la coordinación de gestión de ZINE, en esta ocasión se inscribieron 19 investigadores de los cuales 14 cumplieron con los requisitos para obtener el certificado respectivo.

Los cupos asignados para este curso entre las dependencias interesadas fueron los siguientes:

Grupo GEBIX (12 Investigadores)
Facultad de Ciencias (2 Investigadores)
ZINE (1 Investigador)
Facultad de Ingeniería (4 Investigadores)

Esta capacitación de 15 horas estuvo dirigida a diferentes usuarios potenciales de la infraestructura ZINE, se abarcaron temas sobre la organización y procesos en ZINE, GNU/Linux para uso en cluster, HTCondor para gestionar los trabajos, acompañados de talleres dirigidos haciendo uso de ZINE.

Pronto ZINE continuara con las capacitaciones y abrirá nuevos cursos.