Identificador persistente para citar o vincular este elemento:
https://accedacris.ulpgc.es/jspui/handle/10553/143107
| Título: | Interpretación del lenguaje de signos español basada en visión por computador y aprendizaje profundo. | Autores/as: | León Quintana, Gerardo | Director/a : | Lorenzo Navarro, José Javier Salas Cáceres, José Ignacio |
Clasificación UNESCO: | 120317 Informática | Fecha de publicación: | 2025 | Resumen: | Este trabajo de fin de grado propone nuevos métodos para la interpretación automática de
la Lengua de Signos Española, con el objetivo de fomentar la inclusión social de las personas
sordas mediante el desarrollo de tecnologías accesibles. Para ello, se emplean técnicas de
visión por computador y aprendizaje profundo. A partir del conjunto de datos LSE-Health-
UVigo, se han procesado vídeos de intérpretes mediante herramientas como MediaPipe y
OpenCV, extrayendo coordenadas articulares del cuerpo, rostro y manos. Sobre estos datos, se
entrenaron modelos basados en redes neuronales recurrentes, como LSTM y GRU, orientados
a tareas de clasificación de gestos aislados, reconocimiento de gestos continuos y detección
de novedades.
Además, se exploraron técnicas de aprendizaje métrico como Triplet Loss para construir
espacios de características más discriminativos, y se implementaron arquitecturas basadas en
Temporal Convolutional Networks para realizar segmentación automática de gestos dentro
de secuencias no segmentadas.
Los resultados experimentales demuestran la viabilidad de combinar diferentes enfoques
del aprendizaje profundo para mejorar el reconocimiento automático de gestos en lengua de
signos, incluso en escenarios abiertos y no controlados. Este trabajo supone una contribución
tanto técnica como social, proponiendo un sistema que puede facilitar la comunicación entre
personas sordas y oyentes en entornos educativos, laborales y sanitarios. This bachelor’s thesis proposes novel methods for the automatic interpretation of Spanish Sign Language, aiming to promote the social inclusion of deaf individuals through the development of accessible technologies. To achieve this, the project applies computer vision and deep learning techniques. Using the LSE-Health-UVigo dataset, videos of sign language interpreters were processed with tools such as MediaPipe and OpenCV to extract joint coordinates from the body, face, and hands. Based on these features, recurrent neural network models, including LSTM and GRU, were trained to perform tasks such as isolated gesture classification, continuous gesture recognition, and novelty detection. Additionally, metric learning techniques such as Triplet Loss were explored to build more discriminative feature spaces, and architectures based on Temporal Convolutional Networks were implemented to enable automatic segmentation of gestures within unsegmented video sequences. Experimental results demonstrate the feasibility of combining various deep learning approaches to improve automatic sign language gesture recognition, even under open and uncontrolled conditions. This work contributes both technically and socially by proposing a system that can facilitate communication between deaf and hearing individuals in educational, workplace, and healthcare settings |
Departamento: | Departamento de Informática y Sistemas | Facultad: | Escuela de Ingeniería Informática | Titulación: | Grado en Ciencia e Ingeniería de Datos | URI: | https://accedacris.ulpgc.es/handle/10553/143107 |
| Colección: | Trabajo final de grado |
En el caso de que no encuentre el documento puede ser debido a que el centro o las/os autoras/es no autorizan su publicación. Si tiene verdadero interés en el contenido del mismo, puede dirigirse al director/a o directores/as del trabajo cuyos datos encontrará más arriba.
Vista completaLos elementos en ULPGC accedaCRIS están protegidos por derechos de autor con todos los derechos reservados, a menos que se indique lo contrario.