Sistema para la construcción automatizada de corpus lingüisticos

Ascanio Suárez, Octavio Rodolfo

Title:	Sistema para la construcción automatizada de corpus lingüisticos
Authors:	Ascanio Suárez, Octavio Rodolfo
Director:	González Cabrera, Antonio Carlos Carreras Riudavets, Francisco Javier
UNESCO Clasification:	120317 Informática
Keywords:	Informáitca
Issue Date:	2011
Abstract:	Un corpus lingüístico es un conjunto de textos almacenados en formato electrónico, representativos del lenguaje que se desea estudiar, y que se agrupan con el fin de estudiar una lengua o una determinada variedad lingüística. Este trabajo aborda la construcción de un sistema que permita constituir una fuente de información textual del español para fines diversos, utilizando para ello Internet como fuente ilimitada y actualizada de textos para la creación de un corpus lingüístico, que en este proyecto se limita al español, dejando la puerta abierta a otros idiomas. El sistema construido se ejecuta de manera continua en el tiempo, actualizando la información a medida que se van identificando bien nuevas páginas en un determinado sitio web, o bien descubriendo nuevos sitios web. El sistema garantiza que el corpus que se genera está formado por entradas únicas, concretamente párrafos únicos. Este sistema trata adecuadamente los dos principales problemas que se plantean, que son la magnitud de la información a tratar, y la ubicuidad de las fuentes de información... A linguistic corpus is a collection of texts stored in an electronic format wich represents the language is going to be studied. These texts can be grouped together to study a language or a determinated linguistic variety. This work addresses the construction of a system that provides a source of textual information of Spanish language for various purposes. Internet is the limitless and updated source to build this corpus. This work is limited to Spanish language, leaving the doors open to other languages. This system runs continuously in time, the information is updated as long as new web pages are identified in a particular website, or new websites are discovered. This system ensures that the generated corpus consists of unique entries, specifically not repeated paragraphs. This system discuss properly about the two main problems that arise, which are the amount of information to be treated and the ubiquity of the information sources...
Department:	Departamento de Informática Y Sistemas
Faculty:	Escuela de Ingeniería Informática
Degree:	Grado en Ingeniería Informática
URI:	https://accedacris.ulpgc.es/handle/10553/65323
Rights:	Acceso restringido para la comunidad universitaria de la ULPGC
Appears in Collections:	Trabajo final de grado Restringido ULPGC

Adobe PDF (4,95 MB)

This file is reserved to the following groups: autenticados

En el caso de que no encuentre el documento puede ser debido a que el centro o las/os autoras/es no autorizan su publicación. Si tiene verdadero interés en el contenido del mismo, puede dirigirse al director/a o directores/as del trabajo cuyos datos encontrará más arriba.

Show full item record

Adobe PDF (4,95 MB)

Page view(s)

Download(s)

Google Scholar^TM

Share

Export metadata

Dirección

Contacto

Legal

De interés

Adobe PDF (4,95 MB)

Page view(s)

Download(s)

Google ScholarTM

Share

Export metadata

Dirección

Google Scholar^TM