Modelo de IA para transcrição automática de documentos manuscritos
A utilização do modelo permite a transcrição maciça de documentos históricos.
Sobre o serviço
O reconhecimento de texto manuscrito (HTR) é uma tecnologia recente e importante utilizada maioritariamente por arquivos, bibliotecas e investigadores.
O TraPrInq Portuguese Handwriting 16th-19 c. é o primeiro modelo genérico em acesso aberto. Está disponível na plataforma de Paleografia Digital Transkribus, gerida pela ReadCoop, uma cooperativa europeia (readcoop.eu). O modelo foi criado no âmbito do projeto exploratório “Transcrição dos Processos da Inquisição Portuguesa (1536-1821)”, financiado pela FCT (ref.: EXPL/HAR-HIS/0499/2021).
Dados (de transcrições paleográficas) por uma equipa de 10 paleógrafos: 1,3 milhões de palavras (total do conjunto de treino e do conjunto de validação).
O modelo transcreve automaticamente com uma CER (Character Error Rate) de 5,2%.
Fig 1: Captura de ecrã da interface Transkribus, com uma visão geral dos resultados do nono treino do modelo.
Vantagens Competitivas
- Transcrições mais rápidas e económicas.
- Utilizações a nível institucional e individual (por exemplo, projectos de mestrado e doutoramento).
- Qualquer projeto de edição online.
Aplicações
- Documentos históricos (séculos XVI a XIX).
- Modelo como modelo de base.
- Extensão do modelo (outros períodos)
- Futura ligação com a tecnologia LLM.
Mais detalhes
- Em 2020, foi lançado um primeiro modelo público de material impresso do século XVII: https://readcoop.eu/model/latin-portuguese-print-17th-century/
- Informações sobre as tarefas: desde 2022, o blogue de investigações do projeto tem vindo a apresentar relatórios sobre cada formação do modelo: https://traprinq.hypotheses.org/
- Website do projeto: https://traprinq.mozellosite.com/home/
Unidade de Investigação
CHAM – Centro de Humanidades