Implementación de Algoritmos de Clasificación de Imágenes Hiperespectrales para la Detección de Tumores sobre Tarjetas Gráficas Programables (GPUs)


Estudiante: Abián Hernández Guedes
Tutores: Gustavo Iván Marrero Callicó (DIEA), Hímar Fabelo Gómez (IUMA)
Fecha lectura: 11/01/2017
Lugar: Sala de Telesenseñanza, Pab. A. Edificio de Electrónica y Telecomunicación
Resumen castellano:
Las unidades de procesamiento gráfico (GPUs) se han vuelto enormemente populares en el área de computación de alto rendimiento debido a su arquitectura de hardware masivamente paralela. Su arquitectura permite explotar abundantemente el paralelismo a nivel de datos mientras reduce el consumo de energía en la búsqueda, decodificación y emisión de instrucciones. Por esta razón, las GPUs son unas plataformas  perfectas para acelerar las tareas de clasificación de imágenes hiperespectrales, las cuales son una tecnología emergente para el diagnóstico médico. Los sensores de imágenes hiperespectrales miden el brillo de los materiales dentro de cada área de píxeles usando un número muy grande de bandas formadas por longitudes de onda espectrales contiguas y explotando el hecho de que todos los materiales reflejan, absorben o emiten energía electromagnética, a longitudes de onda específicas, en patrones distintivos relacionados con su composición molecular.
Los datos hiperespectrales se pueden procesar utilizando múltiples algoritmos de aprendizaje supervisados para detectar el tejido tumoral en cerebros humano. Random Forest, un método de aprendizaje automático que se ha popularizado en tareas de detección de objetos en la  comunidad de la visión por computador, ha demostrado ser un buen candidato para clasificar las imágenes hiperespectrales. En general, la formación de un modelo de Random Forest con grandes conjuntos de datos supone una elevada carga computacional y dificulta la investigación científica, ya que el proceso requiere mucho tiempo de cómputo si no existe la disponibilidad de una plataforma de computación de alto rendimiento.
El objetivo de este Trabajo de Fin de Máster es acelerar la fase de entrenamiento de Random Forest utilizando GPUs, partiendo de una implementación eficiente secuencial de este algoritmo. A lo largo del documento, se presentan múltiples cuellos de botella identificados en la fase de entrenamiento y la solución a estos cuellos de botella para acelerar los algoritmos. Las diferentes soluciones de este estudio han demostrado que la aceleración obtenida por las GPUs es prometedora para generar modelos en un tiempo más reducido, permitiendo la posibilidad de realizar este proceso en tiempo real en un futuro no muy lejano.
Resumen inglés:
Graphics Processing Units (GPUs) have become extremely popular in the high-performance computing area due to its massively parallel hardware architecture. This architecture allows to exploit abundant data level parallelism while reducing power consumption in the instruction fetching, decoding, and issuing. For this reason, GPUs are suitable platforms to accelerate the classification of hyperspectral images which are an emerging technology for medical diagnosis. Hyperspectral imaging sensors measure the radiance of the materials within each pixel area at a very large number of contiguous spectral wavelengths, exploiting the fact that all materials reflect, absorb or emit electromagnetic energy, at specific wavelengths, in distinctive patterns related to their molecular composition.
Hyperspectral data can be processed using multiples different supervised learning algorithms to detect human brain tumour tissue. Random Forest, a machine learning method that has become popular in object detection tasks in the computer vision community, has proved to be a good candidate in order to classify hyperspectral images. Generally, training a Random Forest model on large datasets is computationally demanding and makes scientific research difficult since the process requires too much computational time if there is not available a high performance computing platform.
The goal of this Master’s Thesis is focused in the Random Forest training phase acceleration using GPUs, starting from an efficiently sequential implementation of this algorithm. We present multiple bottlenecks identified in the training phase and a solution for these bottlenecks in order to accelerate the algorithms. The different bottleneck solutions achieved in this research study have demonstrated that GPU acceleration is promising in order to generate models in a shorter time, giving the possibility to perform this process in real-time in a close future.
Tribunal:
  • Presidente: Ángel Plaza de la Hoz
  • Secretario: Tomas Bautista Delgado
  • Vocal: Valentín de Armas Sosa
Vinculación Proyecto Investigación:
Proyecto Helicoid
Documentos: Resumen Póster Memoria