Modelo de IA para transcrição automática de documentos manuscritos

Make an Enquiry

A utilização do modelo permite a transcrição maciça de documentos históricos.

Sobre o serviço

O reconhecimento de texto manuscrito (HTR) é uma tecnologia recente e importante utilizada maioritariamente por arquivos, bibliotecas e investigadores.

O TraPrInq Portuguese Handwriting 16th-19 c. é o primeiro modelo genérico em acesso aberto. Está disponível na plataforma de Paleografia Digital Transkribus, gerida pela ReadCoop, uma cooperativa europeia (readcoop.eu). O modelo foi criado no âmbito do projeto exploratório “Transcrição dos Processos da Inquisição Portuguesa (1536-1821)”, financiado pela FCT (ref.: EXPL/HAR-HIS/0499/2021).

Dados (de transcrições paleográficas) por uma equipa de 10 paleógrafos: 1,3 milhões de palavras (total do conjunto de treino e do conjunto de validação).

O modelo transcreve automaticamente com uma CER (Character Error Rate) de 5,2%.

Plataforma disponível aqui.

 

 

Fig 1: Captura de ecrã da interface Transkribus, com uma visão geral dos resultados do nono treino do modelo.

Vantagens Competitivas

  • Transcrições mais rápidas e económicas.
  • Utilizações a nível institucional e individual (por exemplo, projectos de mestrado e doutoramento).
  • Qualquer projeto de edição online.

Aplicações

  • Documentos históricos (séculos XVI a XIX).
  • Modelo como modelo de base.
  • Extensão do modelo (outros períodos)
  • Futura ligação com a tecnologia LLM.

Mais detalhes

  • Em 2020, foi lançado um primeiro modelo público de material impresso do século XVII: https://readcoop.eu/model/latin-portuguese-print-17th-century/
  • Informações sobre as tarefas: desde 2022, o blogue de investigações do projeto tem vindo a apresentar relatórios sobre cada formação do modelo: https://traprinq.hypotheses.org/
  • Website do projeto: https://traprinq.mozellosite.com/home/

Unidade de Investigação

CHAM – Centro de Humanidades

 

NOVA FCSH