Ayuda
Ir al contenido

Dialnet


Resumen de Avaliando entidades mencionadas na coleção ELTeC-por

Diana Santos, Eckhard Bick, Marcin Wlodek

  • português

    Este artigo relata a preparação da anotação da coleção ELTeC-por com entidades mencionadas apropriadas ao género textual "romances e novelas publicadas entre 1840 e 1920", para possibilitar a leitura distante em português.

    Em primeiro lugar apresentamos a coleção ELTeC-por, compilada no âmbito da ação COST "Distant Reading for European Literary History" para estudar a literatura europeia, e explicamos as diversas restrições e escolhas necessárias, fornecendo uma caracterização inicial segundo vários eixos: a origem e tamanho das obras, o seu (sub)género literário, o género do autor, o local de publicação e a existência ou não de mais edições.

    Em seguida apresentamos o sistema PALAVRAS-NER, com o qual anotaremos a coleção, explicando detalhadamente o seu funcionamento.

    Passamos então à descrição da criação de uma subcoleção de oito obras revistas, que servem, por um lado, para avaliar o desempenho do sistema de REM automático, e, por outro, para caracterizar o tipo de população esperada. As obras podem classificar-se segundo dois eixos diferentes: romances históricos vs. romances contemporâneos; e obras com grafia original ou grafia modernizada. Além disso, algumas obras são obviamente canónicas, outras não.

    Além da descrição quantitativa do resultado de anotação e revisão, apresentamos algumas considerações qualitativas sobre o processo.

    Também fornecemos uma análise detalhada de algumas categorias, tentando mostrar como os lugares, profissões e gentílicos mais mencionados podem ser indicadores numa leitura distante.

    Concluímos comparando com o trabalho internacional feito na análise de entidades mencionadas de obras literárias, explicando as diferenças e sugerindo trabalho futuro.

  • English

    This paper reports on the NER annotation of the ELTeC-por collection, a collection of hundred Portuguese novels published between 1840 and 1920, compiled in the scope of the COST action "Distant reading for European literary history".

    In addition to discussing its compilation, the choices taken and what remains to be done, we provide an initial characterization of the novels according to size, subgenre, publication place, author gender and which edition was used.

    Then we present PALAVRAS-NER, the NER system which we use to annotate the collection, explaining the way it works.We then focus on a subcollection of eight novels fully human revised, which we use to both evaluate the performance of the automatic system, and to characterize the population of the full collection. These novels can be further subdivided according to two different features: historical versus contemporary novels, on the one hand, and original vs. modernized ortography, on the other. Also some works are canonical while others are not.

    In addition to the quantitative analysis of the annotation results and process, we present some qualitative description of the human revision as well.

    We offer a detailed analysis of some categories, demonstrating how the most mentioned places, professions and demonyms can be good indicators for distant reading.

    We end the paper comparing briefly with other work using named entities for literary texts and suggesting future work.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus