Crean una herramienta capaz de predecir el futuro
En el MIT crearon una herramienta capaz de predecir el futuro. En cierta forma es lo que hacen los modelos meteorológicos, que partiendo de una situación inicial conocida predicen el comportamiento atmosférico. Loa algoritmos cada vez mejores a la hora de predecir abren las puertas a este mundo tan especial.
Hoy en día las herramientas que nos da la ciencia, y especialmente la matemática y la estadística, nos permiten conocer posibles escenarios en el futuro. Eso es así tanto cuando queremos determinar el comportamiento del tiempo, pronosticar los precios de las acciones en el futuro, identificar las oportunidades de venta perdidas en el comercio minorista o estimar el riesgo de que un paciente desarrolle una enfermedad. Para todo ello echamos mano de la interpretación de los datos de series temporales.
Una serie temporal es una colección de observaciones registradas a lo largo del tiempo. Hacer predicciones con datos de series temporales suele requerir varios pasos de procesamiento de datos y el uso de complejos algoritmos de aprendizaje automático, que tienen una curva de aprendizaje tan pronunciada que no son fácilmente accesibles para quienes no son expertos.
Para que estas potentes herramientas sean más fáciles de usar, y según relatado en un informe de SciTechDayly, los investigadores del Massachusetts Institute of Technology (MIT) han desarrollado un sistema que integra directamente las funciones de predicción sobre una base de datos de series temporales ya existente. Su interfaz simplificada, a la que llaman tspDB (time series predict database), realiza todo el complejo modelado entre bastidores para que un no experto pueda generar fácilmente una predicción en sólo unos segundos.
El futuro vive en los datos del ahora
Lo novedoso de este algoritmo es que resulta más preciso y eficiente que los métodos de aprendizaje profundo más avanzados a la hora de realizar dos tareas: predecir valores futuros y rellenar los puntos de datos que faltan. Una de las razones por las que tspDB tiene tanto éxito es que incorpora un novedoso algoritmo de predicción de series temporales. Esto lo explica el estudiante de postgrado de Ingeniería Eléctrica e Informática (EECS) Abdullah Alomar, que también es autor de un reciente artículo de investigación en el que él y sus coautores describen el algoritmo.
Este algoritmo es especialmente eficaz a la hora de hacer predicciones sobre datos de series temporales multivariantes, que son datos que tienen más de una variable dependiente del tiempo. En una base de datos meteorológicos, por ejemplo, la temperatura, el punto de rocío y la cobertura de nubes dependen de sus valores pasados, y todos a su vez del tiempo.
Algo muy importante, el algoritmo también estima la volatilidad de una serie temporal multivariable para proporcionar al usuario un nivel de confianza para sus predicciones. Devavrat Shah es catedrático Andrew y Erna Viterbi en EECS y miembro del Instituto de Datos, Sistemas y Sociedad y del Laboratorio de Sistemas de Información y Decisión e indica que "aunque los datos de las series temporales son cada vez más complejos, este algoritmo puede captar eficazmente cualquier estructura de serie temporal que exista.
Cuanto más simple, mejor
Devavrat Shah es optimista: “parece que hemos encontrado la lente adecuada para observar la complejidad del modelo de los datos de las series temporales". Junto a Alomar y Shah, el autor principal del trabajo es Anish Agrawal, antiguo estudiante de posgrado de EECS que actualmente es postdoctoral en el Instituto Simons de la Universidad de California en Berkeley. La investigación se presentará en la conferencia ACM SIGMETRICS.
Este grupo de investigadores llevan años trabajando en el problema de la interpretación de datos de series temporales, adaptando diferentes algoritmos e integrándolos en tspDB a medida que construían la interfaz. Hace unos cuatro años, accedieron a un algoritmo clásico especialmente potente, llamado análisis de espectro singular (SSA), que imputa y pronostica series temporales únicas. La imputación es el proceso de sustitución de los valores que faltan o de corrección de los valores pasados.
Aunque este algoritmo requería la selección manual de los parámetros, los investigadores sospechaban que podría permitir a su interfaz hacer predicciones eficaces con los datos de las series temporales. En un trabajo posterior, eliminaron esta necesidad de intervenir manualmente para la aplicación del algoritmo. El principal reto intelectual era cómo adaptarlo para utilizar múltiples series temporales. Tras unos años de lucha, se dieron cuenta de que la respuesta era algo muy sencillo: "Apilar" las matrices de cada serie temporal individual, tratarlas como una sola matriz grande y, a continuación, aplicar el algoritmo de serie temporal única sobre ella. O sea, sencillo para ellos.