Please use this identifier to cite or link to this item:
http://hdl.handle.net/10553/65323
Title: | Sistema para la construcción automatizada de corpus lingüisticos | Authors: | Ascanio Suárez, Octavio Rodolfo | Director: | González Cabrera, Antonio Carlos Carreras Riudavets, Francisco Javier |
UNESCO Clasification: | 120317 Informática | Keywords: | Informáitca | Issue Date: | 2011 | Abstract: | Un corpus lingüístico es un conjunto de textos almacenados en formato electrónico,
representativos del lenguaje que se desea estudiar, y que se agrupan con el fin de estudiar una
lengua o una determinada variedad lingüística.
Este trabajo aborda la construcción de un sistema que permita constituir una fuente de
información textual del español para fines diversos, utilizando para ello Internet como fuente
ilimitada y actualizada de textos para la creación de un corpus lingüístico, que en este
proyecto se limita al español, dejando la puerta abierta a otros idiomas.
El sistema construido se ejecuta de manera continua en el tiempo, actualizando la
información a medida que se van identificando bien nuevas páginas en un determinado sitio
web, o bien descubriendo nuevos sitios web. El sistema garantiza que el corpus que se genera
está formado por entradas únicas, concretamente párrafos únicos. Este sistema trata
adecuadamente los dos principales problemas que se plantean, que son la magnitud de la
información a tratar, y la ubicuidad de las fuentes de información... A linguistic corpus is a collection of texts stored in an electronic format wich represents the language is going to be studied. These texts can be grouped together to study a language or a determinated linguistic variety. This work addresses the construction of a system that provides a source of textual information of Spanish language for various purposes. Internet is the limitless and updated source to build this corpus. This work is limited to Spanish language, leaving the doors open to other languages. This system runs continuously in time, the information is updated as long as new web pages are identified in a particular website, or new websites are discovered. This system ensures that the generated corpus consists of unique entries, specifically not repeated paragraphs. This system discuss properly about the two main problems that arise, which are the amount of information to be treated and the ubiquity of the information sources... |
Department: | Departamento de Informática Y Sistemas | Faculty: | Escuela de Ingeniería Informática | Degree: | Grado en Ingeniería Informática | URI: | http://hdl.handle.net/10553/65323 | Rights: | Acceso restringido para la comunidad universitaria de la ULPGC |
Appears in Collections: | Trabajo final de grado Restringido ULPGC |
En el caso de que no encuentre el documento puede ser debido a que el centro o las/os autoras/es no autorizan su publicación. Si tiene verdadero interés en el contenido del mismo, puede dirigirse al director/a o directores/as del trabajo cuyos datos encontrará más arriba.
Show full item recordPage view(s)
161
checked on Oct 19, 2024
Download(s)
22
checked on Oct 19, 2024
Google ScholarTM
Check
Share
Export metadata
Items in accedaCRIS are protected by copyright, with all rights reserved, unless otherwise indicated.