Estamos rodeados de dispositivos capaces de capturar enormes cantidades de datos. Muchas ramas de la ciencia y los negocios han pasado de una situación de escasez de datos a un tsunami de información. La extracción de conocimientos de esas vastas recopilaciones de datos ha aumentado su importancia. Por otro lado, los problemas de optimización en áreas como la logística, la organización o la planificación han aumentado su tamaño enormemente lo que las imposibilita para buscar soluciones óptimas.
José Antonio Lozano, profesor e investigador en BCAM UPV/EHU y el investigador de BCAM Researche, Dae-Jin Lee, describen cómo, a través del área de investigación Data Science del Basque Center of Applied Mathematics (BCAM) contribuyen a aportar soluciones y luz a este asunto a través de las matemáticas.
«Nuestro principal objetivo es crear modelos de aprendizaje innovadores automáticos y estadísticos, métodos de inferencia, algoritmos computacionales y herramientas de visualización para el análisis de datos masivos. Estos modelos pueden utilizarse para resolver problemas específicos de un dominio que pueden agruparse en clasificación supervisada, agrupación, regresión, graduación, etc. Nuestro segundo objetivo es desarrollar nuevos algoritmos de optimización de metaheurística capaces de llegar a buenas soluciones en un tiempo computacional limitado. Los métodos estadístico y computacional son necesarios para acceder, gestionar, integrar, analizar y modelar conjuntos de datos de distinta naturaleza y complejidad.
En este sentido, las contribuciones científicas al análisis de datos son dobles, teóricas y prácticas. Las contribuciones teóricas consisten en desarrollar modelos y teorías matemáticas novedosas capaces de extraer el conocimiento de los datos, junto con el diseño y el análisis del propósito general o algoritmos eficientes y modulables específicos de los dominios para modelos estadísticos de aprendizaje. Desde el punto de vista de la optimización, nuestro objetivo es estudiar los aspectos teóricos y computacionales de la optimización combinatoria y desarrollar nuevas técnicas de optimización heurística que puedan encontrar buenas soluciones en un tiempo de computación razonable. Las contribuciones prácticas son la aplicación de las técnicas desarrolladas a distintos campos como nosotros, biología, medicina, bioinformática, ecología, transporte, etc.
El rápido crecimiento del tamaño y la dimensionalidad de los conjuntos de datos impulsa la necesidad de nuevos métodos y modelos estadísticos que puedan manejar estas nuevas estructuras de datos. Este nuevo marco se ocupa, no solo del volumen de datos, sino también de la complejidad, la variedad del tipo de información disponible, las estructuras de correlación y los algoritmos computacionales y eficientes para resolver problemas complejos con modelos matemáticos. En el campo de la estadística aplicada, el principal tema de nuestra investigación son la regresión semiparamétrica, el suavizado multidimensional, los modelos jerárquicos (bayesianos), modelos de efectos combinados y aleatorios, el diseño del aumento en la generación de datos (Big Data) ha hecho indispensable el desarrollo de nuevos algoritmos y métodos de aprendizaje automático y estadístico para la extracción y optimización del conocimiento. Los experimentos DS 05 Data Science 33 SIMULACIONES y ANOVA, modelado especial y espaciotemporal, análisis de datos funcionales, estadística computacional, y métodos y herramientas de visualización de datos.
En lo que respecta al aprendizaje automático, trabajamos en modelos gráficos probabilísticos (PGM), centrados principalmente en el aprendizaje automático de PGM de los datos. Los PGM pueden utilizarse para extraer conocimientos a partir de los datos, para razonar en la incertidumbre y para simular dominios sin un modelo físico explícito. Los PGM pueden utilizarse para realizar un razonamiento probabilístico eficiente y, como sistemas para el respaldo de decisiones. Además, son apropiados para abordar muchos problemas estadísticos como la clasificación supervisada, la agrupación y la graduación.
Finalmente, en el área de la optimización, pensamos desarrollar nuevos algoritmos metaheurísticos basados en la Computación Evolutiva y en particular Algoritmos de Estimación de Distribución. Además exploraremos algoritmos híbridos que combinen métodos heurísticos con métodos exactos: métodos de ramificación y poda y ramificación y corte. Finalmente se realizará un estudio de los métodos bayesianos para la optimización.
Nuestro estudio aporta conceptos y métodos y que serán aplicables a muchos campos que demandan una amplia variedad de modelado de datos y herramientas computacionales para el análisis de problemas complejos. Las áreas de aplicación clásicas han sido la robótica, los campos de la medicina, epidemiología, ciencias ambientales, genética, económicas, demografía, ingeniería y finanzas. Debido al aumento del índice de adquisición de datos en los últimos años, surgen problemas de big data o datos masivos en campos que van desde la física de partículas y la astrofísica al comercio electrónico, las redes sociales y el marketing.
La bioestadística se ocupa de la aplicación de los métodos estadísticos a los problemas relacionados con la medicina, la biología y la salud (p.ej. estadística médica, ensayos clínicos o epidemiología). En lo que respecta al aprendizaje automático, dos de las aplicaciones más conocidas de los modelos estadísticos son la Clasificación Supervisada (naturalmente aplicada como una herramienta para el respaldo de decisiones en aéreas médicas – diagnóstico y pronóstico) y la Agrupación (comúnmente aplicada en la segmentación de marketing). Las principales aplicaciones relacionadas con las técnicas de optimización incluyen la logística (rutas para vehículos, problemas de orientación), planificación (organización de trabajadores, horarios), programación (aterrizaje de aviones, producción en cadena “flow shop”), embalaje (carga de contenedores), etc.