Nova inteligência artificial extrai dados numéricos de artigos científicos de forma automatizada
Pesquisadores do Centro de Jülich desenvolveram um sistema de inteligência artificial capaz de identificar, categorizar e converter números dispersos em artigos científicos em dados estruturados. A ferramenta, denominada estrutura Quinex, foi criada para solucionar a dificuldade de analisar informações quantitativas que, embora essenciais para a ciência, costumam estar enterradas no meio de textos longos e complexos, dificultando a extração rápida e precisa.
A tecnologia atua transformando informações não estruturadas, que são textos em formato livre, em dados organizados que podem ser processados por máquinas. Esse processo é fundamental porque a ciência utiliza números como linguagem principal, mas a maneira como esses dados são apresentados em publicações acadêmicas geralmente exige que pesquisadores realizem a leitura manual de cada página para tabular os resultados.
O funcionamento do sistema baseia-se na capacidade de a inteligência artificial varrer o conteúdo de documentos científicos e isolar valores numéricos específicos. Uma vez identificados, esses dados passam por um processo de categorização, onde o software define a que parâmetro aquele número se refere, permitindo que a informação seja convertida em um formato de dados estruturados, que são conjuntos de informações organizados em tabelas ou bancos de dados.
Essa inovação surge em um contexto onde o volume de publicações científicas cresce em ritmo acelerado, tornando humanamente impossível a análise manual de todos os dados disponíveis. A automação da mineração de dados, que consiste na técnica de extrair padrões e informações valiosas de grandes conjuntos de textos, permite que a comunidade científica acelere a validação de hipóteses e a comparação entre diferentes estudos.
Ao eliminar a necessidade de trabalho manual exaustivo e demorado, a estrutura Quinex reduz a probabilidade de erros humanos durante a transcrição de números e estatísticas. A precisão na coleta de dados é crítica em ambientes de pesquisa, onde um pequeno erro de digitação ou interpretação pode alterar completamente a conclusão de um experimento ou a análise de um fenômeno físico ou químico.
O impacto dessa ferramenta no mercado de inteligência artificial aplicada à ciência é significativo, pois ela ataca um gargalo histórico na comunicação acadêmica. A transição de modelos de leitura estáticos para ecossistemas nativos de dados permite que as descobertas sejam integradas mais rapidamente em novos modelos de treinamento, que é o processo onde a inteligência artificial aprende a reconhecer padrões a partir de informações reais.
Com a implementação desse sistema, espera-se que a velocidade de descoberta científica aumente, já que os pesquisadores poderão agregar dados de centenas de artigos em poucos segundos. A capacidade de transformar a prosa científica em planilhas utilizáveis abre caminho para análises estatísticas em larga escala e para a criação de bases de conhecimento mais robustas e acessíveis.
A solução desenvolvida pelos pesquisadores do Centro de Jülich representa um avanço na digitalização do saber científico. Ao transformar números enterrados em textos em dados prontos para uso, a tecnologia não apenas poupa tempo, mas potencializa a capacidade de síntese de informações complexas, facilitando a evolução de pesquisas em diversas áreas do conhecimento técnico.