Identificador persistente para citar o vincular este elemento:
http://hdl.handle.net/10553/132981
Título: | Análisis de sentimiento masivo con arquitectura de big data. | Autores/as: | Vega Sánchez, Jorge | Director/a : | Sánchez Medina, Javier Jesús | Clasificación UNESCO: | 120317 Informática | Fecha de publicación: | 2024 | Resumen: | El desarrollo de un aplicativo de alto rendimiento para la descarga masiva y en l´ınea de
res´umenes de la plataforma Crossref, partiendo de un t´opico de b´usqueda, requiere el uso
de t´ecnicas avanzadas de computaci´on paralela y Big data [1]. Este proyecto recopila datos
de Crossref [2] utilizando DOI como identificadores ´unicos, mediante consultas de metadatos
web. Los datos se almacenan en un sistema de archivos distribuido de Hadoop dispuesto en
un cl´uster, lo que permite manejar grandes vol´umenes de informaci´on de manera eficiente.
Para el procesamiento en tiempo real, se implementa un flujo con Apache Spark Streaming
para la ingesti´on de datos. El pipeline de an´alisis de datos en l´ınea incluye an´alisis de
sentimiento y frecuencia de palabras repetidas, evaluando la actitud de los documentos por
sus DOI. Los metadatos se integran en el an´alisis para proporcionar visualizaciones contextualizadas,
facilitando la comprensi´on din´amica de los resultados.
Estas visualizaciones se despliegan en un servidor web de Django, permitiendo una interacci
´on en tiempo real con los datos. Se construyen visualizaciones interactivas, como gr´aficos
y word clouds, que permiten explorar eficazmente los datos. De este modo, el aplicativo ofrece
una herramienta poderosa para analizar y visualizar res´umenes de documentos acad´emicos,
mejorando la accesibilidad y el entendimiento de la informaci´on. The development of a high-performance application for the massive and online download of abstracts from the Crossref platform, based on a search topic, requires the use of advanced parallel computing and big data techniques. This project collects data from Crossref using DOIs as unique identifiers through web metadata queries. The data is stored in a Hadoop distributed file system deployed on a cluster, allowing efficient handling of large volumes of information. For real-time processing, a flow with Apache Spark Streaming is implemented for data ingestion. The online data analysis pipeline includes sentiment analysis and repeated word frequency, evaluating the sentiment of the documents by their DOIs. The metadata is integrated into the analysis to provide contextualized visualizations, facilitating the dynamic understanding of the results. These visualizations are deployed on a Django web server, allowing real-time interaction with the data. Interactive visualizations, such as graphs and word clouds, are built to efficiently explore the data. Thus, the application offers a powerful tool for analyzing and visualizing academic document abstracts, improving the accessibility and understanding of information. |
Departamento: | Departamento de Informática y Sistemas | Facultad: | Escuela de Ingeniería Informática | Titulación: | Grado en Ingeniería Informática | URI: | http://hdl.handle.net/10553/132981 |
Colección: | Trabajo final de grado |
En el caso de que no encuentre el documento puede ser debido a que el centro o las/os autoras/es no autorizan su publicación. Si tiene verdadero interés en el contenido del mismo, puede dirigirse al director/a o directores/as del trabajo cuyos datos encontrará más arriba.
Vista completaLos elementos en ULPGC accedaCRIS están protegidos por derechos de autor con todos los derechos reservados, a menos que se indique lo contrario.