Sistema para la construcción automatizada de corpus lingüisticos

Ascanio Suárez, Octavio Rodolfo

Título:	Sistema para la construcción automatizada de corpus lingüisticos
Autores/as:	Ascanio Suárez, Octavio Rodolfo
Director/a :	González Cabrera, Antonio Carlos Carreras Riudavets, Francisco Javier
Clasificación UNESCO:	120317 Informática
Palabras clave:	Informáitca
Fecha de publicación:	2011
Resumen:	Un corpus lingüístico es un conjunto de textos almacenados en formato electrónico, representativos del lenguaje que se desea estudiar, y que se agrupan con el fin de estudiar una lengua o una determinada variedad lingüística. Este trabajo aborda la construcción de un sistema que permita constituir una fuente de información textual del español para fines diversos, utilizando para ello Internet como fuente ilimitada y actualizada de textos para la creación de un corpus lingüístico, que en este proyecto se limita al español, dejando la puerta abierta a otros idiomas. El sistema construido se ejecuta de manera continua en el tiempo, actualizando la información a medida que se van identificando bien nuevas páginas en un determinado sitio web, o bien descubriendo nuevos sitios web. El sistema garantiza que el corpus que se genera está formado por entradas únicas, concretamente párrafos únicos. Este sistema trata adecuadamente los dos principales problemas que se plantean, que son la magnitud de la información a tratar, y la ubicuidad de las fuentes de información... A linguistic corpus is a collection of texts stored in an electronic format wich represents the language is going to be studied. These texts can be grouped together to study a language or a determinated linguistic variety. This work addresses the construction of a system that provides a source of textual information of Spanish language for various purposes. Internet is the limitless and updated source to build this corpus. This work is limited to Spanish language, leaving the doors open to other languages. This system runs continuously in time, the information is updated as long as new web pages are identified in a particular website, or new websites are discovered. This system ensures that the generated corpus consists of unique entries, specifically not repeated paragraphs. This system discuss properly about the two main problems that arise, which are the amount of information to be treated and the ubiquity of the information sources...
Departamento:	Departamento de Informática Y Sistemas
Facultad:	Escuela de Ingeniería Informática
Titulación:	Grado en Ingeniería Informática
URI:	https://accedacris.ulpgc.es/handle/10553/65323
Derechos:	Acceso restringido para la comunidad universitaria de la ULPGC
Colección:	Trabajo final de grado Restringido ULPGC

Adobe PDF (4,95 MB)

Inicia sesión para acceder

En el caso de que no encuentre el documento puede ser debido a que el centro o las/os autoras/es no autorizan su publicación. Si tiene verdadero interés en el contenido del mismo, puede dirigirse al director/a o directores/as del trabajo cuyos datos encontrará más arriba.

Vista completa

Adobe PDF (4,95 MB)

Visitas

Descargas

Google Scholar^TM

Comparte

Exporta metadatos

Dirección

Contacto

Legal

De interés

Adobe PDF (4,95 MB)

Visitas

Descargas

Google ScholarTM

Comparte

Exporta metadatos

Dirección

Google Scholar^TM