Please use this identifier to cite or link to this item: http://hdl.handle.net/10553/132981
Title: Análisis de sentimiento masivo con arquitectura de big data.
Authors: Vega Sánchez, Jorge
Director: Sánchez Medina, Javier Jesús 
UNESCO Clasification: 120317 Informática
Issue Date: 2024
Abstract: El desarrollo de un aplicativo de alto rendimiento para la descarga masiva y en l´ınea de res´umenes de la plataforma Crossref, partiendo de un t´opico de b´usqueda, requiere el uso de t´ecnicas avanzadas de computaci´on paralela y Big data [1]. Este proyecto recopila datos de Crossref [2] utilizando DOI como identificadores ´unicos, mediante consultas de metadatos web. Los datos se almacenan en un sistema de archivos distribuido de Hadoop dispuesto en un cl´uster, lo que permite manejar grandes vol´umenes de informaci´on de manera eficiente. Para el procesamiento en tiempo real, se implementa un flujo con Apache Spark Streaming para la ingesti´on de datos. El pipeline de an´alisis de datos en l´ınea incluye an´alisis de sentimiento y frecuencia de palabras repetidas, evaluando la actitud de los documentos por sus DOI. Los metadatos se integran en el an´alisis para proporcionar visualizaciones contextualizadas, facilitando la comprensi´on din´amica de los resultados. Estas visualizaciones se despliegan en un servidor web de Django, permitiendo una interacci ´on en tiempo real con los datos. Se construyen visualizaciones interactivas, como gr´aficos y word clouds, que permiten explorar eficazmente los datos. De este modo, el aplicativo ofrece una herramienta poderosa para analizar y visualizar res´umenes de documentos acad´emicos, mejorando la accesibilidad y el entendimiento de la informaci´on.
The development of a high-performance application for the massive and online download of abstracts from the Crossref platform, based on a search topic, requires the use of advanced parallel computing and big data techniques. This project collects data from Crossref using DOIs as unique identifiers through web metadata queries. The data is stored in a Hadoop distributed file system deployed on a cluster, allowing efficient handling of large volumes of information. For real-time processing, a flow with Apache Spark Streaming is implemented for data ingestion. The online data analysis pipeline includes sentiment analysis and repeated word frequency, evaluating the sentiment of the documents by their DOIs. The metadata is integrated into the analysis to provide contextualized visualizations, facilitating the dynamic understanding of the results. These visualizations are deployed on a Django web server, allowing real-time interaction with the data. Interactive visualizations, such as graphs and word clouds, are built to efficiently explore the data. Thus, the application offers a powerful tool for analyzing and visualizing academic document abstracts, improving the accessibility and understanding of information.
Department: Departamento de Informática y Sistemas
Faculty: Escuela de Ingeniería Informática
Degree: Grado en Ingeniería Informática
URI: http://hdl.handle.net/10553/132981
Appears in Collections:Trabajo final de grado
Adobe PDF (2,99 MB)

En el caso de que no encuentre el documento puede ser debido a que el centro o las/os autoras/es no autorizan su publicación. Si tiene verdadero interés en el contenido del mismo, puede dirigirse al director/a o directores/as del trabajo cuyos datos encontrará más arriba.

Show full item record

Google ScholarTM

Check


Share



Export metadata



Items in accedaCRIS are protected by copyright, with all rights reserved, unless otherwise indicated.