Este estudo é a primeira tentativa de aplicar uma abordagem de modelagem de linguagem mascarada a inscrições corrompidas nas línguas hebraica e aramaica.
Mais textos antigos são descobertos em todo o Oriente Próximo todos os anos, tanto em hebraico quanto em aramaico.
A análise desses textos é de extrema importância para os pesquisadores que estudam a cultura e a história da região.
Uma vez que muitas dessas inscrições são danificadas ao longo do tempo devido a terremotos, incêndios, conflitos políticos e outras causas naturais e humanas.
Epigrafistas – especialistas responsáveis por reconstruir, traduzir e datar inscrições e encontrar qualquer circunstância relevante, deixando isso para os historiadores para determinar e interpretar os eventos registrados – até agora usaram procedimentos manuais demorados para estimar o conteúdo faltante.
Este tem sido um grande desafio na reconstrução das partes que faltam nesses valiosos escritos.
Agora, estudantes do departamento de engenharia de software e sistemas de informação da Universidade Ben-Gurion do Negev (BGU) em Beersheba abordaram esse desafio como uma tarefa estendida de modelagem de linguagem mascarada, onde o conteúdo danificado pode compreender caracteres únicos, caracteres n-gramas (parciais palavras), palavras únicas completas e n-gramas de várias palavras.
Este estudo é a primeira tentativa de aplicar a abordagem de modelagem de linguagem mascarada a inscrições corrompidas nas línguas hebraica e aramaica, ambas usando o alfabeto hebraico que consiste principalmente em símbolos consonantais.
Em seu projeto final sob a supervisão do Prof.
Mark Last; e os alunos do quarto ano de graduação Niv Fono, Harel Moshayof, Eldar Karol e Itay Asraf aplicaram a abordagem de modelagem de linguagem mascarada a inscrições corrompidas em hebraico e aramaico.
O seu modelo, denominado “Embible”, foi destacado na última reunião do Capítulo Europeu da Associação de Linguística Computacional no mês passado.
Eles publicaram suas descobertas na revista ACL Anthology sob o título “Embible: Reconstruction of Ancient Hebrew and Aramaic Texts Using Transformers”.
O sistema analisou milhares de frases da Bíblia Judaica.
Os alunos treinaram o sistema em 22.144 frases da Bíblia Hebraica.
O sistema foi testado nas outras 536 sentenças com sucesso significativo.
Um conjunto de modelos de previsão de palavras e caracteres teve a maior precisão.
“Podemos ajudar os historiadores que dedicaram suas vidas a recriar esses textos antigos com a maior precisão possível”, concluiu.
Por último, “Além disso, acredito que o modelo pode ser estendido para cobrir outras línguas antigas morfologicamente ricas”.
Publicado em 11/04/2024 01h09
Artigo original: