Resumo

Resumo: O CE-DOHS – Corpus Eletrônico de Documentos Históricos do Sertão (FAPESB 5566/2010 – CONSEPE 202/2010), com o objetivo de contribuir com o Projeto Para a História do Português Brasileiro (PHPB), em diferentes perspectivas teóricas epor meio de parceria tecnológica com o projeto Corpus Histórico do Português Tycho Brahe (www.tycho.iel.unicamp.br), traz um conjunto de documentos originados sobretudo da grande área do semiárido baiano, editados em linguagem XML, com o uso do eDictor, desenvolvido por Kepler, Paixão de Sousa e Faria (2007), um editor de textos especialmente voltado ao trabalho filológico e à análise linguística automática. Essa ferramenta combina um editor de XML e um etiquetador morfossintático, e permite a geração automática de versões correspondentes a edições diplomáticas, semidiplomáticas e modernizadas (em html), e de versões com anotação morfossintática (em texto simples e xml). O projeto CE-DOHS, conciliando a antiga Filologia e as mais recentes tecnologias, já disponibiliza diversos acervos, sobretudo de cartas manuscritas, organizando-as por grau de escolaridade e por grau de habilidade com a escrita; são 1037 cartas particulares (1808-2000), escritas por 418 remetentes (nascidos entre 1724 e 1980), extraída a maior parte de CARNEIRO (2011). Na segunda fase do projeto, que está em andamento, o número de documentos tem sido ampliado, tanto manuscritos como impressos, com inserção, ainda, de amostras de fala, organizadas, no Banco, por comunidade, por tipo de contato linguístico e por vertente (popular e culta). Todo material – representativo de variedades diacrônicas do português brasileiro, de diferentes regiões do país, de graus de escolaridade e de graus de habilidade com a escrita distintos – está sendo preparado para a anotação morfossintática, que manterá a maioria das características do padrão de anotação existente e permitirá a busca automática de dados, o que facilitará o estudo linguístico dos acervos, no que consiste o principal objetivo do CE-DOHS. O material disponível no Banco atende não somente a pesquisadores interessados em análises de aspectos linguísticos, mas em aspectos da difusão da escrita, da leitura, das transmissões textuais, históricos, políticos, econômico-sociais, entre outros.

Anúncios