Generación de datasets sintéticos y auto etiquetados para el entrenamiento de métodos de la IA utilizando aprendizaje profundo generativo

Peña Seco, José Ricardo

Título:	Generación de datasets sintéticos y auto etiquetados para el entrenamiento de métodos de la IA utilizando aprendizaje profundo generativo
Autores/as:	Peña Seco, José Ricardo
Director/a :	Monzón López, Nelson Manuel Suárez Ramírez, Jonay
Clasificación UNESCO:	120317 Informática
Palabras clave:	Modelos de difusión Generación de datasets sintéticos Inteligencia Artificial Aprendizaje profundo generativo Diffusion models, et al.
Fecha de publicación:	2025
Resumen:	La creación de datasets de calidad es uno de los principales desafís que enfrentan los equipos de inteligencia artificial (IA), tanto en investigación como en el sector privado, al momento de entrenar sus modelos. Este proceso, además de ser tedioso y repetitivo, requiere una inversión significativa de tiempo por parte de investigadores y profesionales del sector. Aunque en apariencia se trata de una tarea sencilla, la realidad es muy distinta debido a múltiples factores: la dificultad para obtener datos equilibrados, la variabilidad en la calidad de los datos, la dependencia de variables externas, los elevados costos y la lentitud del etiquetado manual, así como la escasez de ejemplos representativos de casos extremos en los que los modelos suelen cometer errores. Superar estas barreras es, paradójicamente, el factor más determinante para el éxito de un proyecto de inteligencia artificial. El presente Trabajo Fin de Título tiene como objetivo abordar esta problemática mediante el uso de técnicas de aprendizaje profundo generativo, en particular modelos de difusión, para aumentar y generar datasets sintéticos de detección de objetos en el campo de la visión por computador. En concreto, se centra como caso de estudio en el aumento de datos para la detección de embarcaciones en entornos marítimos. Para ello, se propone el desarrollo de varios pipelines de generación de imágenes sintéticas autoetiquetadas, junto con una plataforma que permita almacenar, visualizar y re-etiquetar, de ser necesario, dichos datasets. The creation of high-quality datasets is one of the main challenges faced by artificial intelligence (AI) teams, both in research and the private sector, when training their models. This process, in addition to being tedious and repetitive, requires a significant investment of time from researchers and professionals in the field. Although it may seem like a simple task, the reality is quite different due to multiple factors: the difficulty of obtaining balanced datasets, variability in data quality, dependence on external variables, high costs, the slow pace of manual labeling, and the scarcity of representative examples of extreme cases where models tend to make mistakes. Overcoming these barriers is, paradoxically, the most critical factor for the success of an artificial intelligence project. This Final Degree Project aims to address this issue through the use of generative deep learning techniques, specifically diffusion models, to enhance and generate synthetic datasets for object detection in the field of computer vision. As a case study, the work focuses on data augmentation for vessel detection in maritime environments. To achieve this, the development of several pipelines for generating self-labeled synthetic images is proposed, along with a fullstack platform that enables AI teams to store, visualize and re-label those datasets if needed.
Departamento:	Departamento de Informática y Sistemas
Facultad:	Escuela de Ingeniería Informática
Titulación:	Grado en Ingeniería Informática
URI:	https://accedacris.ulpgc.es/jspui/handle/10553/147517
Colección:	Trabajo final de grado

Adobe PDF (49,07 MB)

En el caso de que no encuentre el documento puede ser debido a que el centro o las/os autoras/es no autorizan su publicación. Si tiene verdadero interés en el contenido del mismo, puede dirigirse al director/a o directores/as del trabajo cuyos datos encontrará más arriba.

Vista completa

Adobe PDF (49,07 MB)

Visitas

Google Scholar^TM

Comparte

Exporta metadatos

Dirección

Contacto

Legal

De interés

Adobe PDF (49,07 MB)

Visitas

Google ScholarTM

Comparte

Exporta metadatos

Dirección

Google Scholar^TM