INSTITUTE OF ORGANIC CHEMISTRY AND BIOCHEMISTRY OF
MADRID 27 maio (EUROPA PRESS) -
Um novo modelo de aprendizado de máquina chamado DreaMS acelera significativamente a análise de moléculas previamente desconhecidas, de acordo com pesquisa publicada na Nature Biotechnology.
A equipe inclui o vencedor do Neuron Award deste ano para jovens cientistas promissores, Dr. Tomáš Pluskal do IOCB Praga, juntamente com seu aluno Roman Bushuiev e colegas do Instituto Tcheco de Informática, Robótica e Cibernética da Universidade Técnica Tcheca (CIIRC CTU), Dr. Josef Sivic e Anton Bushuiev.
A natureza está repleta de substâncias químicas não descobertas. Acredita-se que a grande maioria das moléculas naturais permaneça desconhecida. Descrevê-las poderia abrir caminho para novos medicamentos, pesticidas mais ecológicos, uma compreensão mais profunda dos processos biológicos ou pesquisas mais avançadas sobre a vida no universo.
Cada substância tem um padrão exclusivo, semelhante a uma impressão digital humana, chamado de espectro de massa, que pode ser capturado por um método conhecido como espectrometria de massa. Embora essa abordagem gere grandes quantidades de dados, interpretá-los e descobrir as estruturas moleculares exatas é extremamente difícil. Os conjuntos de dados resultantes geralmente aparecem como grandes tabelas de números sem nenhum significado óbvio.
Para desvendar o mistério das moléculas desconhecidas, a equipe do IOCB e do CIIRC CTU recorreu à inteligência artificial. Assim como os grandes modelos linguísticos, como o ChatGPT, aprendem a entender a linguagem sem conhecer previamente o significado das palavras, o modelo DreaMS tenta interpretar os espectros de massa sem conhecimento prévio de suas estruturas químicas.
"O ChatGPT pode inferir o significado das palavras e as conexões entre elas a partir de grandes volumes de texto, e a rede neural DreaMS, por meio da aprendizagem automática autossupervisionada, aprende a reconhecer as estruturas moleculares ocultas nos espectros. Ela se baseia em dados de milhões de exemplos", explica a Sivic em um comunicado.
"O modelo DreaMS foi treinado em dezenas de milhões de espectros de vários organismos e ambientes: plantas, micróbios, alimentos, tecidos e amostras de solo. Graças a isso, ele pode descobrir semelhanças ocultas entre espectros que, à primeira vista, parecem não estar relacionados", diz Pluskal.
O resultado é uma rede interconectada que facilita a navegação no vasto conjunto de dados químicos. Essa rede, que pode ser imaginada como uma rede de espectros de massa, foi denominada Atlas DreaMS. Cada espectro é como um site conectado a outros.
Nessa "rede de espectros", os usuários podem pesquisar, explorar as conexões descobertas e fazer novas perguntas, por exemplo: O que pesticidas, alimentos e pele humana têm em comum?
O DreaMS descobriu semelhanças químicas inesperadas entre eles e levantou a hipótese de que certos pesticidas poderiam estar ligados a doenças autoimunes, como a psoríase.
Além de conectar espectros de diferentes estudos, o DreaMS também pode ser usado para uma variedade de tarefas práticas, por exemplo, para estimar quantos fragmentos específicos uma molécula contém ou se ela inclui elementos químicos específicos.
"Ficamos especialmente surpresos com o fato de o modelo ter aprendido a detectar o flúor", diz Bushuiev.
O flúor está presente em cerca de um terço de todos os produtos farmacêuticos e agroquímicos, mas antes não conseguíamos detectá-lo de forma confiável nos espectros de massa. Depois de pré-treinar o DreaMS com milhões de espectros, nós o refinamos com milhares de exemplos de moléculas contendo flúor e, de repente, ele funcionou.
Os pesquisadores agora estão trabalhando na próxima etapa: ensinar o modelo a prever estruturas moleculares completas. Se for bem-sucedido, ele poderá transformar radicalmente nossa compreensão da diversidade química, tanto na Terra quanto em todo o mundo, afirmam os autores.
Esta notícia foi traduzida por um tradutor automático