GT: Linguística de corpus

Descrição: O grupo dedica-se à constituição de corpus eletrônico para o estudo da história do português brasileiro com ênfase no semiárido baiano. 

Coordenadores:
Zenaide de Oliveira Novaes Carneiro
Mariana Fagundes de Oliveira

Pesquisadores:
Patrício Nunes Barreiros
Huda da Silva Santiago

Mestrandos:
Adilson Silva de Jesus
Bruna Trindade Lima Santos
Cacilda Silva Oliveira Carneiro
Janaina de Oliveira Costa Mascarenhas
Lorena Rosa Santos
Maria Graziela Evangelista de Sousa
Marinalda Silva Freitas
Matheus Santos Oliveira
Priscila Estrela Sterline Tuy Batista

Iniciação Científica:
Ângela da Silva de Almeida
Cristielle Oliveira de Jesus
Elaine Brandão Santos
Elane Santos e Santos
Igor Leal Souza
Rosana Rodrigues Xavier

Projeto:

CE-DOHS. Corpus Eletrônico de Documentos Históricos do Sertão Descrição
O CE-DOHS – Corpus Eletrônico de Documentos Históricos do Sertão (FAPESB 5566/2010 – CONSEPE 202/2010), com o objetivo de contribuir com o Projeto Para a História do Português Brasileiro (PHPB), em diferentes perspectivas teóricas epor meio de parceria tecnológica com o projeto Corpus Histórico do Português Tycho Brahe (www.tycho.iel.unicamp.br), traz um conjunto de documentos originados sobretudo da grande área do semiárido baiano, editados em linguagem XML, com o uso do eDictor, desenvolvido por Kepler, Paixão de Sousa e Faria (2007), um editor de textos especialmente voltado ao trabalho filológico e à análise linguística automática. Essa ferramenta combina um editor de XML e um etiquetador morfossintático, e permite a geração automática de versões correspondentes a edições diplomáticas, semidiplomáticas e modernizadas (em html), e de versões com anotação morfossintática (em texto simples e xml). O projeto CE-DOHS, conciliando a antiga Filologia e as mais recentes tecnologias, já disponibiliza diversos acervos, sobretudo de cartas manuscritas, organizando-as por grau de escolaridade e por grau de habilidade com a escrita; são 1037 cartas particulares (1808-2000), escritas por 418 remetentes (nascidos entre 1724 e 1980), extraída a maior parte de CARNEIRO (2011). Na segunda fase do projeto, que está em andamento, o número de documentos tem sido ampliado, tanto manuscritos como impressos, com inserção, ainda, de amostras de fala, organizadas, no Banco, por comunidade, por tipo de contato linguístico e por vertente (popular e culta). Todo material – representativo de variedades diacrônicas do português brasileiro, de diferentes regiões do país, de graus de escolaridade e de graus de habilidade com a escrita distintos – está sendo preparado para a anotação morfossintática, que manterá a maioria das características do padrão de anotação existente e permitirá a busca automática de dados, o que facilitará o estudo linguístico dos acervos, no que consiste o principal objetivo do CE-DOHS. O material disponível no Banco atende não somente a pesquisadores interessados em análises de aspectos linguísticos, mas em aspectos da difusão da escrita, da leitura, das transmissões textuais, históricos, políticos, econômico-sociais, entre outros.

Plano de trabalho


Atividades


Publicações


					
Anúncios

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s