El lenguaje BigSMILES permite que las computadoras y los investigadores transmitan configuraciones estocásticas con mayor claridad.
moléculas o fragmentos químicos que son gráficos atomísticos bien definidos. Dado que los polímeros son moléculas estocásticas, no tienen representaciones SMILES únicas. Esta falta de una convención de identificación o nomenclatura unificada para los materiales poliméricos es uno de los principales obstáculos que frenan el desarrollo del campo de la informática de polímeros. Si bien los esfuerzos pioneros en la informática de polímeros, como el Proyecto Genoma de polímeros, han demostrado la utilidad de las extensiones SMILES en la informática de polímeros,
«El aprendizaje automático presenta una enorme oportunidad para acelerar el desarrollo y el descubrimiento de productos químicos», dice Lin He, subdirector interino de la División de Química de la Fundación Nacional de Ciencias (NSF). “Esta herramienta ampliada para etiquetar estructuras, diseñada específicamente para abordar los desafíos únicos inherentes a los polímeros, mejora en gran medida la capacidad de búsqueda de datos estructurales químicos y nos acerca un paso más a aprovechar la revolución de los datos”.
Los investigadores han creado una nueva construcción de base estructural como complemento a la exitosa representación SMILES que puede tratar la naturaleza aleatoria de los materiales poliméricos. Dado que los polímeros son moléculas de masa molar alta, esta construcción se denomina BigSMILES. En BigSMILES, los fragmentos poliméricos se representan mediante una lista de unidades repetitivas encerradas entre corchetes. Las estructuras químicas de las unidades repetitivas se codifican utilizando la sintaxis normal de SMILES, pero con descriptores de unión adicionales que especifican cómo se conectan las diferentes unidades repetitivas para formar polímeros. Este diseño simple de sintaxis permitiría la codificación de macromoléculas en una amplia gama de diferentes químicas, incluidos homopolímeros, copolímeros aleatorios y copolímeros de bloque, y una variedad de conectividad molecular, que van desde polímeros lineales hasta polímeros de anillo e incluso polímeros ramificados. Al igual que en SMILES, las representaciones de BigSMILES son cadenas de texto compactas e independientes.
«Estandarizar la representación digital de estructuras poliméricas con BigSMILES fomentará el intercambio y la agregación de datos de polímeros, mejorando la calidad del modelo con el tiempo y reforzando los beneficios de su uso», dice Jason Clark, líder de materiales en Innovación Abierta para Químicos y Materiales Renovables en Braskem, que no estuvo asociado a la investigación. «BigSMILES es una contribución significativa al campo, ya que aborda la necesidad de un sistema flexible para representar estructuras poliméricas complejas digitalmente».
Clark agrega: “Los desafíos que enfrenta la industria del plástico en el contexto de la economía circular comienzan con la fuente de materias primas y continúan hasta la gestión del final de la vida útil. Abordar estos desafíos requiere el diseño innovador de materiales basados en polímeros, que tradicionalmente ha sufrido largos ciclos de desarrollo. Los avances en inteligencia artificial y aprendizaje automático se han mostrado prometedores para acelerar el ciclo de desarrollo de aplicaciones que utilizan aleaciones metálicas y pequeñas moléculas orgánicas, lo que motiva a la industria del plástico a buscar un enfoque paralelo”. Las representaciones digitales de BigSMILES facilitan la evaluación de las relaciones estructura-rendimiento mediante la aplicación de métodos de ciencia de datos, dice,
“Se puede construir una multitud de estructuras poliméricas complicadas a través de la composición de tres nuevos operadores básicos y símbolos SMILES originales”, dice Olsen, “campos completos de la química, la ciencia de los materiales y la ingeniería, incluida la ciencia de los polímeros, los biomateriales, la química de los materiales y mucho más”. de la bioquímica, se basan en macromoléculas que tienen estructuras estocásticas. Esto básicamente se puede considerar como un nuevo lenguaje sobre cómo escribir la estructura de moléculas grandes”.
«Una de las cosas que me emociona es cómo la entrada de datos podría finalmente vincularse directamente con los métodos sintéticos utilizados para fabricar un polímero en particular», dice Craig, «Debido a eso, existe la oportunidad de capturar y procesar más información sobre las moléculas que normalmente está disponible a partir de caracterizaciones estándar. Si esto se puede hacer, permitirá todo tipo de descubrimientos”.
Este trabajo fue financiado por la NSF a través del Centro para la Química de Redes Optimizadas Molecularmente, un Centro de Innovación Química de la NSF.