Pesquisadores de Beersheba usam Inteligência Artificial para ler palavras ilegíveis em hebraico antigo e aramaico

Laje de mármore com inscrição em hebraico encontrada em Kursi (crédito da foto: JENNIFER MUNRO)

Este estudo é a primeira tentativa de aplicar uma abordagem de modelagem de linguagem mascarada a inscrições corrompidas nas línguas hebraica e aramaica.

Mais textos antigos são descobertos em todo o Oriente Próximo todos os anos, tanto em hebraico quanto em aramaico.

A análise desses textos é de extrema importância para os pesquisadores que estudam a cultura e a história da região.

Uma vez que muitas dessas inscrições são danificadas ao longo do tempo devido a terremotos, incêndios, conflitos políticos e outras causas naturais e humanas.

Epigrafistas – especialistas responsáveis por reconstruir, traduzir e datar inscrições e encontrar qualquer circunstância relevante, deixando isso para os historiadores para determinar e interpretar os eventos registrados – até agora usaram procedimentos manuais demorados para estimar o conteúdo faltante.

Este tem sido um grande desafio na reconstrução das partes que faltam nesses valiosos escritos.

Agora, estudantes do departamento de engenharia de software e sistemas de informação da Universidade Ben-Gurion do Negev (BGU) em Beersheba abordaram esse desafio como uma tarefa estendida de modelagem de linguagem mascarada, onde o conteúdo danificado pode compreender caracteres únicos, caracteres n-gramas (parciais palavras), palavras únicas completas e n-gramas de várias palavras.

Este estudo é a primeira tentativa de aplicar a abordagem de modelagem de linguagem mascarada a inscrições corrompidas nas línguas hebraica e aramaica, ambas usando o alfabeto hebraico que consiste principalmente em símbolos consonantais.

Em seu projeto final sob a supervisão do Prof.

Mark Last; e os alunos do quarto ano de graduação Niv Fono, Harel Moshayof, Eldar Karol e Itay Asraf aplicaram a abordagem de modelagem de linguagem mascarada a inscrições corrompidas em hebraico e aramaico.

Professor Mark Last (crédito: DANI MACHLIS/BGU)

O seu modelo, denominado “Embible”, foi destacado na última reunião do Capítulo Europeu da Associação de Linguística Computacional no mês passado.

Eles publicaram suas descobertas na revista ACL Anthology sob o título “Embible: Reconstruction of Ancient Hebrew and Aramaic Texts Using Transformers”.

O sistema analisou milhares de frases da Bíblia Judaica.

Os alunos treinaram o sistema em 22.144 frases da Bíblia Hebraica.

O sistema foi testado nas outras 536 sentenças com sucesso significativo.

Um conjunto de modelos de previsão de palavras e caracteres teve a maior precisão.

“Podemos ajudar os historiadores que dedicaram suas vidas a recriar esses textos antigos com a maior precisão possível”, concluiu.

Por último, “Além disso, acredito que o modelo pode ser estendido para cobrir outras línguas antigas morfologicamente ricas”.

Publicado em 11/04/2024 01h09

Artigo original:

https://www.jpost.com/business-and-innovation/article-796140