Please use this identifier to cite or link to this item:
http://hdl.handle.net/10553/132981
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | Sánchez Medina, Javier Jesús | - |
dc.contributor.author | Vega Sánchez, Jorge | - |
dc.date.accessioned | 2024-09-08T20:02:18Z | - |
dc.date.available | 2024-09-08T20:02:18Z | - |
dc.date.issued | 2024 | en_US |
dc.identifier.other | Gestión académica | - |
dc.identifier.uri | http://hdl.handle.net/10553/132981 | - |
dc.description.abstract | El desarrollo de un aplicativo de alto rendimiento para la descarga masiva y en l´ınea de res´umenes de la plataforma Crossref, partiendo de un t´opico de b´usqueda, requiere el uso de t´ecnicas avanzadas de computaci´on paralela y Big data [1]. Este proyecto recopila datos de Crossref [2] utilizando DOI como identificadores ´unicos, mediante consultas de metadatos web. Los datos se almacenan en un sistema de archivos distribuido de Hadoop dispuesto en un cl´uster, lo que permite manejar grandes vol´umenes de informaci´on de manera eficiente. Para el procesamiento en tiempo real, se implementa un flujo con Apache Spark Streaming para la ingesti´on de datos. El pipeline de an´alisis de datos en l´ınea incluye an´alisis de sentimiento y frecuencia de palabras repetidas, evaluando la actitud de los documentos por sus DOI. Los metadatos se integran en el an´alisis para proporcionar visualizaciones contextualizadas, facilitando la comprensi´on din´amica de los resultados. Estas visualizaciones se despliegan en un servidor web de Django, permitiendo una interacci ´on en tiempo real con los datos. Se construyen visualizaciones interactivas, como gr´aficos y word clouds, que permiten explorar eficazmente los datos. De este modo, el aplicativo ofrece una herramienta poderosa para analizar y visualizar res´umenes de documentos acad´emicos, mejorando la accesibilidad y el entendimiento de la informaci´on. | en_US |
dc.description.abstract | The development of a high-performance application for the massive and online download of abstracts from the Crossref platform, based on a search topic, requires the use of advanced parallel computing and big data techniques. This project collects data from Crossref using DOIs as unique identifiers through web metadata queries. The data is stored in a Hadoop distributed file system deployed on a cluster, allowing efficient handling of large volumes of information. For real-time processing, a flow with Apache Spark Streaming is implemented for data ingestion. The online data analysis pipeline includes sentiment analysis and repeated word frequency, evaluating the sentiment of the documents by their DOIs. The metadata is integrated into the analysis to provide contextualized visualizations, facilitating the dynamic understanding of the results. These visualizations are deployed on a Django web server, allowing real-time interaction with the data. Interactive visualizations, such as graphs and word clouds, are built to efficiently explore the data. Thus, the application offers a powerful tool for analyzing and visualizing academic document abstracts, improving the accessibility and understanding of information. | en_US |
dc.language | spa | en_US |
dc.subject | 120317 Informática | en_US |
dc.title | Análisis de sentimiento masivo con arquitectura de big data. | en_US |
dc.type | info:eu-repo/semantics/bachelorThesis | en_US |
dc.type | BachelorThesis | en_US |
dc.contributor.departamento | Departamento de Informática y Sistemas | en_US |
dc.contributor.facultad | Escuela de Ingeniería Informática | en_US |
dc.investigacion | Ingeniería y Arquitectura | en_US |
dc.type2 | Trabajo final de grado | en_US |
dc.utils.revision | Sí | en_US |
dc.identifier.matricula | TFT-23252 | - |
dc.identifier.ulpgc | Sí | en_US |
dc.contributor.buulpgc | BU-INF | en_US |
dc.contributor.titulacion | Grado en Ingeniería Informática | - |
item.grantfulltext | open | - |
item.fulltext | Con texto completo | - |
crisitem.advisor.dept | GIR IUCES: Centro de Innovación para la Empresa, el Turismo, la Internacionalización y la Sostenibilidad | - |
crisitem.advisor.dept | IU de Cibernética, Empresa y Sociedad (IUCES) | - |
crisitem.advisor.dept | Departamento de Informática y Sistemas | - |
Appears in Collections: | Trabajo final de grado |
Items in accedaCRIS are protected by copyright, with all rights reserved, unless otherwise indicated.