NREL proporciona pautas para crear un ecosistema de datos de próxima generación

¡Compártelo!

Los científicos del Laboratorio Nacional de Energía Renovable (NREL) están ayudando a allanar el camino para la próxima generación de ciencia de materiales basada en datos y habilitada por IA.

En un nuevo artículo de la revista Patrones, los autores describen un esfuerzo de una década para construir un ecosistema de datos moderno para apoyar una interacción cercana entre las ciencias computacionales y las ciencias de los materiales. Quieren que la gente sepa que esto no es una hazaña fácil, pero también que no se puede exagerar la importancia de tal sistema.

El artículo, “Infraestructura de datos de investigación para la ciencia de materiales experimentales de alto rendimiento, ”Aparece como artículo de portada en el diario. Patrones y proporciona un plan para el desarrollo de una futura infraestructura de datos de investigación de una mejor manera, que está diseñada para aumentar la integración de la investigación experimental y de datos en el mundo de la ciencia de los materiales.

“Para que el aprendizaje automático haga contribuciones significativas a la ciencia de los materiales, los algoritmos deben ingerir y aprender de conjuntos de datos de gran volumen y alta calidad”, dijo Andriy Zakutayev, científico senior de materiales y coautor de este estudio. “La infraestructura de datos de investigación (RDI) de NREL descrita en este artículo proporciona un conjunto de datos de este tipo mediante la organización de los datos de materiales experimentales en la base de datos de materiales experimentales de alto rendimiento (HTEM-DB)”.

Además de Zakutayev, el artículo fue escrito por Kevin Talley, Robert White, Nick Wunder, Matthew Eash, Marcus Schwarting, Dave Evenson, John Perkins, William Tumas, Kristin Munch y Caleb Phillips, todos los cuales hicieron este trabajo como parte de Dirección de Materiales, Química y Ciencias Computacionales (MCCS) de NREL.

Las bases de datos son la piedra angular de la ciencia de materiales moderna basada en datos, lo que permite el descubrimiento de materiales al resumir las estructuras cristalinas y las propiedades predichas para decenas de miles de materiales calculados. Para proporcionar acceso a grandes cantidades de datos experimentales, NREL abrió al público en 2018 el HTEM-DB, que permite a los investigadores descubrir materiales experimentales con propiedades útiles. Este conjunto de datos experimentales incluye condiciones de síntesis de materiales, composición química, estructura cristalina y propiedades físicas. El conjunto de datos inicialmente contenía 140.000 muestras, con más de la mitad a disposición del público, y ahora tiene más de 320.000 muestras. Estas cifras están a la par con las bases de datos de materiales computacionales, como las financiadas por el Departamento de Energía. Proyecto de materiales.

La clave del éxito de HTEM-DB es la Infraestructura de datos de investigación (RDI) de NREL, un sistema de gestión de datos. El RDI se integra en el flujo de trabajo del laboratorio al catalogar los datos recopilados de los experimentos realizados en NREL durante la última década.

“El esfuerzo sostenido para desarrollar la infraestructura de datos de investigación en NREL continúa dando dividendos”, señaló Bill Tumas, director de laboratorio asociado de NREL para MCCS y un firme defensor del descubrimiento y desarrollo de materiales. “Al establecer varios componentes de RDI, integrarlos y proporcionarlos a los investigadores, se implementó un flujo de trabajo de datos completo que selecciona datos valiosos en HTEM-DB para su uso futuro en estudios de aprendizaje automático”.

Las herramientas de datos que forman la RDI, como el almacén de datos, el recopilador de metadatos, el proceso de extracción de datos y el propio HTEM-DB, se consideran críticas para el éxito de la RDI y se han utilizado en NREL durante la última década. . Los investigadores dijeron que, al describir estos componentes de I + D + i en este artículo, esperan que estas herramientas de datos sirvan como mejores prácticas para que las sigan otras instituciones.

En la ciencia de los materiales y su búsqueda de lo nuevo, los investigadores adoptan dos enfoques distintos: probar una hipótesis a través de la experimentación y filtrar los datos resultantes para analizar las conexiones. Cada uno de esos enfoques basados ​​en experimentos y basados ​​en datos tiene sus propios requisitos, pero se pueden integrar en un solo proceso. Los investigadores experimentales necesitan herramientas para analizar y aprender de los datos, mientras que los investigadores de datos necesitan conjuntos de datos grandes, diversos y de alta calidad. Sin embargo, ambos necesitan acceso a datos obtenidos previamente y un repositorio para nuevos datos, por lo que existe una fuerte superposición en sus entradas y salidas de la investigación de materiales impulsada por experimentos y basada en datos.

Esos requisitos, señalaron los investigadores, motivaron la creación del RDI que recopila, procesa y almacena datos y metadatos experimentales, así como el HTEM-DB. El RDI proporciona una eficiencia mejorada y una mayor precisión en el manejo de datos de investigación experimental y permite que los métodos de aprendizaje automático examinen una amplia gama de materiales. Los autores dejan en claro el inmenso valor de la ciencia interdisciplinaria en la construcción de un marco común para datos y metadatos experimentales cuidadosamente seleccionados.

“La construcción de la infraestructura de datos de investigación en NREL se realizó de abajo hacia arriba, con múltiples contribuciones de muchas personas durante más de una década. Aprendimos mucho de este proceso ”, dijo Kristin Munch, uno de los primeros desarrolladores del RDI. “Idealmente, los futuros sistemas de RDI también podrían diseñarse con un enfoque de arriba hacia abajo, para garantizar la coherencia y la procedencia de los datos a lo largo del tiempo”.

Sin embargo, el enfoque de arriba hacia abajo requeriría una inversión inicial sustancial en hardware, instalación de redes y desarrollo de software, así como un gasto continuo en mantenimiento y mejora.

“Una tercera opción interesante sería desarrollar el marco de I + D + i de arriba hacia abajo utilizando financiamiento externo en una institución con experiencia previa en esto, como NREL, y luego personalizarlo de abajo hacia arriba para que sea más útil para otros laboratorios de investigación externos fuera de NREL ”, Dijo Caleb Phillips, científico de datos senior de este estudio. “Pero sin importar el mecanismo de financiación, las inversiones en infraestructura de datos de investigación como estas son fundamentales para hacer avanzar la ciencia moderna basada en datos en la intersección de la ciencia de los materiales y muchos otros campos”.

El apoyo financiero para la operación y las mejoras de HTEM y RDI provino del programa de Investigación y Desarrollo Dirigido por Laboratorio de NREL. La financiación original para la creación de prototipos de Data Warehouse fue financiada por la Oficina de Eficiencia Energética y Energías Renovables del Departamento de Energía de EE. UU.

Artículo cortesía de Laboratorio Nacional de Energías Renovables

.
Si ha sido una lectura recomendable, puedes compartir este contenido con esa persona interesada.

¡Compártelo!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *