Identificador persistente para citar o vincular este elemento: http://hdl.handle.net/10553/65323
Campo DC Valoridioma
dc.contributor.advisorGonzález Cabrera, Antonio Carloses
dc.contributor.advisorCarreras Riudavets, Francisco Javieres
dc.contributor.authorAscanio Suárez, Octavio Rodolfoes
dc.date.accessioned2020-01-22T20:46:15Z-
dc.date.available2013-03-22T00:00:00Zes
dc.date.available2020-01-22T20:46:15Z-
dc.date.issued2011en_US
dc.identifier.othercontentdm-postulpgces
dc.identifier.urihttp://hdl.handle.net/10553/65323-
dc.description.abstractUn corpus lingüístico es un conjunto de textos almacenados en formato electrónico, representativos del lenguaje que se desea estudiar, y que se agrupan con el fin de estudiar una lengua o una determinada variedad lingüística. Este trabajo aborda la construcción de un sistema que permita constituir una fuente de información textual del español para fines diversos, utilizando para ello Internet como fuente ilimitada y actualizada de textos para la creación de un corpus lingüístico, que en este proyecto se limita al español, dejando la puerta abierta a otros idiomas. El sistema construido se ejecuta de manera continua en el tiempo, actualizando la información a medida que se van identificando bien nuevas páginas en un determinado sitio web, o bien descubriendo nuevos sitios web. El sistema garantiza que el corpus que se genera está formado por entradas únicas, concretamente párrafos únicos. Este sistema trata adecuadamente los dos principales problemas que se plantean, que son la magnitud de la información a tratar, y la ubicuidad de las fuentes de información...en_US
dc.description.abstractA linguistic corpus is a collection of texts stored in an electronic format wich represents the language is going to be studied. These texts can be grouped together to study a language or a determinated linguistic variety. This work addresses the construction of a system that provides a source of textual information of Spanish language for various purposes. Internet is the limitless and updated source to build this corpus. This work is limited to Spanish language, leaving the doors open to other languages. This system runs continuously in time, the information is updated as long as new web pages are identified in a particular website, or new websites are discovered. This system ensures that the generated corpus consists of unique entries, specifically not repeated paragraphs. This system discuss properly about the two main problems that arise, which are the amount of information to be treated and the ubiquity of the information sources...en_US
dc.languagespaen_US
dc.rightsAcceso restringido para la comunidad universitaria de la ULPGCes
dc.subject120317 Informáticaen_US
dc.subject.otherInformáitcaes
dc.titleSistema para la construcción automatizada de corpus lingüisticoses
dc.typeinfo:eu-repo/semantics/bachelorThesisen_US
dc.typeBachelorThesisen_US
dc.contributor.departamentoDepartamento de Informática Y Sistemases
dc.contributor.facultadEscuela de Ingeniería Informáticaen_US
dc.identifier.absysnet637393es
dc.investigacionIngeniería y Arquitecturaen_US
dc.type2Trabajo final de gradoen_US
dc.identifier.currensHostinges
dc.description.numberofpages121 p.es
dc.utils.revisionen_US
dc.identifier.matriculaTFT-49906es
dc.identifier.ulpgcen_US
dc.contributor.buulpgcBU-INFes
dc.contributor.titulacionGrado en Ingeniería Informáticaes
item.grantfulltextrestricted-
item.fulltextCon texto completo-
crisitem.advisor.deptGIR IATEXT: Cognition, linguistic, text and information processing-
crisitem.advisor.deptIU de Análisis y Aplicaciones Textuales-
crisitem.advisor.deptDepartamento de Informática y Sistemas-
Colección:Trabajo final de grado
Restringido ULPGC
miniatura
Adobe PDF (4,95 MB)
Inicia sesión para acceder
Vista resumida

Visitas

177
actualizado el 15-mar-2025

Descargas

24
actualizado el 15-mar-2025

Google ScholarTM

Verifica


Comparte



Exporta metadatos



Los elementos en ULPGC accedaCRIS están protegidos por derechos de autor con todos los derechos reservados, a menos que se indique lo contrario.