Semi-Supervised Classification of Hyperspectral Images for Brain Tumours Detection

Beltrán Alonso, Patricia

Título:

Autores/as:

Beltrán Alonso, Patricia

Director/a :

Marrero Callicó, Gustavo Iván
Ortega Sarmiento, Samuel
Martínez Vega, Beatriz

Clasificación UNESCO:

3307 Tecnología electrónica
120302 Lenguajes algorítmicos
320101 Oncología

Palabras clave:

Hyperspectral Images
Brain Tumours
Detection

Fecha de publicación:

2021

Resumen:

This Master Thesis is related to the classification of medical hyperspectral (HS) data. The objective of this Master Thesis is to design a semi-supervised algorithm to carry out the labelling of the new acquired hyperspectral (HS) images, with the goal to incorporate these data in a supervised classification scheme. To develope this Master Thesis, a database obtained at the University Hospital Doctor Negrín was employed. This HS database is composed by 26 HS cubes belonging to a total of 16 different patients diagnosed with Glioblastoma primary brain tumour, where the test set consisted of 6 captures corresponding to 4 patients. The images were labelled with 4 different classes: normal tissue, tumour tissue, hypervascularized tissue, and background. The main idea is to solve the problem that arises in these operating rooms, where there is a previously labelled database and the new data acquired from the patient who is undergoing surgery. The objective is to include this data from the current patient to the database with which the classification model is trained and generated. With this proposal it is possible to generate a learning model using the labelled data obtained in previous surgical interventions and the unlabelled data of the current patient. The main goal is to be able to improve the classification results by including data from the new patient. To carry out the automatic generation of the current patient labels, it was decided to use the k-means algorithm. The chosen method uses the Euclidean distance by default, but a preliminary study was carried out to select the distance metric that better fits our database. According to this study, the cosine distance was chosen. Subsequently, to optimize the algorithm performance, a study was made to select the value of the parameter k. Once these parameters have been selected, the current patient data are automatically labelled. Labelling was done in two ways, first looking what is the majority class for each cluster and then, with the proviso that only those clusters containing more than 60% of the same class will be taken. These data are merged together with the database of previous patients (which are annotated by skilled neurosurgeons) in a Support Vector Machines (SVM) classifier to generate the model and subsequently evaluate its performance. Due to the high computation times of SVM training, the same procedure was developed with the Random Forest (RF) algorithm, where a study was carried out to evaluate the number of trees to be used and the parameter k was redefined. With a k equal to 15 and a number of trees of 100, the data were evaluated. Since most clusters were identified as being of the background class, it is proposed to achieve the same procedure, but using only the 3 clusters that best represent the normal tissue, hypervascularized tissue and the background class in the generation of the current patient labels. All results were evaluated with various evaluation metrics, including the kappa coefficient, which is useful both for multiclass cases and when classes are unbalanced.
Este Trabajo Fin de Máster está relacionado con la clasificación de datos médicos hiperespectrales (HS). El objetivo principal es desarrollo de un algoritmo semi-supervisado para poder realizar el etiquetado de las nuevas imágenes hiperespectrales (HS) adquiridas, con el objetivo de incorporar estos datos al esquema de clasificación supervisada. Para la realización se utilizó una base de datos obtenida en el Hospital Universitario Doctor Negrín. Esta base de datos de imágenes HS está compuesta por 26 cubos HS pertenecientes a un total de 16 pacientes diferentes con un tumor cerebral primario de glioblastoma, donde el conjunto de prueba consta de 6 capturas correspondientes a 4 pacientes. Para realizar el etiquetado de cada una de las imágenes, se definieron 4 clases: tejido normal, tejido tumoral, tejido hipervascularizado y la clase background. La idea principal es la de poder solventar el problema que surge en los quirófanos, donde existe una base de datos previamente etiquetada y los nuevos datos adquiridos del paciente que está siendo intervenido. El objetivo es el de lograr con este estudio incluir estos datos actuales del paciente que se encuentra en la sala de operaciones a la base de datos con la que se entrena y se genera el modelo de clasificación. Con esta propuesta se consigue generar un modelo de aprendizaje utilizando tanto los datos etiquetados obtenidos en intervenciones quirúrgicas previas como los no etiquetados del paciente en cuestión. El objetivo principal es poder mejorar los resultados de la clasificación al incluir datos del nuevo paciente. Para realizar la generación automática de las etiquetas del paciente actual se decide utilizar el algoritmo k-means. El método elegido utiliza la distancia euclidiana por defecto, por lo que se realiza un estudio preliminar para seleccionar la distancia que mejor se adapta a nuestra base de datos. Se escogió la distancia coseno. Posteriormente, para optimizar el rendimiento del algoritmo, se realizó un estudio para seleccionar el valor del parámetro k. Una vez seleccionados estos parámetros, los datos del paciente actual se etiquetaron automáticamente. El etiquetado se realizó de dos maneras, primero teniendo en cuenta la clase mayoritaria que conformaba cada uno de los clústeres y luego, con la condición de que sólo se utilizaran para la generación de etiquetas aquellos clústeres que contuvieran al menos un 60% de algunas de las clases. Estos datos etiquetados junto con la base de datos de los pacientes previos (que son etiquetados por neurocirujanos expertos) son introducidos en el clasificador Support Vector Machine (SVM) para generar el modelo y posteriormente testearlo. Debido a los altos tiempos de cómputo, se elaboró el mismo procedimiento con el algoritmo Random Forest (RF), donde se realizó un estudio para evaluar el número de árboles a utilizar y se redefinió el parámetro k. Con una k igual a 15 y un número de árboles de 100 se evaluaron los datos. Debido a que la mayoría de los clústeres se identificaron como de la clase background, se propuso realizar el mismo procedimiento, pero utilizando en la generación de las etiquetes del paciente actual solo los 3 clúster que mejor representen las clases tejido normal, tejido hipervascularizado y la clase background. Todos los resultados fueron evaluados con varias métricas de evaluación, incluido el coeficiente kappa, que es útil tanto para los casos multiclase como para cuando las clases están desbalanceadas.

Departamento:

Departamento de Ingeniería Electrónica y Automática

Facultad:

Escuela de Arquitectura

Instituto:

Instituto Universitario de Microelectrónica Aplicada

URI:

https://accedacris.ulpgc.es/handle/10553/112296

Colección:

Trabajo final de máster