Enabling rolling shutter optical camera communication using artificial intelligence: towards widespread adoption and dual use of cameras as receivers.

Jurado Verdú, Cristo Manuel

Please use this identifier to cite or link to this item: https://accedacris.ulpgc.es/jspui/handle/10553/121553

Title:	Enabling rolling shutter optical camera communication using artificial intelligence: towards widespread adoption and dual use of cameras as receivers.
Authors:	Jurado Verdú, Cristo Manuel
Director:	Rabadán Borges, José Alberto Guerra Yanez, Victor
UNESCO Clasification:	3325 Tecnología de las telecomunicaciones
Issue Date:	2023
Abstract:	La sociedad actual depende de una infraestructura de comunicaciones inalámbrica basada en radio que está alcanzando niveles de saturación constatables. Son cada vez más los dispositivos que requieren de conexiones inalámbricas de alta capacidad y baja latencia. Para solventar esta problemática, las comunicaciones ´opticas inalámbricas (OWC por sus siglas en ingées, optical wireless communication) se posicionan como candidatas idóneas para ofrecer una infraestructura complementaria capaz de asumir los requerimientos de capacidad de los enlaces del futuro. Existen muchas ramas dentro de las OWC, entre las que destaca las comunicaciones ´opticas de espacio libre (FSO por sus siglas en inglés, free space optical communication) que utilizan transmisores ´opticos basados en láseres, que cuentan ya con implementaciones comerciales exitosas. Por ejemplo, los enlaces FSO se utilizan para las comunicaciones intrasatelitales en StarLink. Por su parte, esta tesis se centra en las comunicaciones ´opticas basadas en luz visible (VLC por sus siglas en inglés, visible light communication). Esta tecnología tiene como objetivo reutilizar los sistemas de iluminación presentes en oficinas, casas, hospitales, aeropuertos, etcétera, para establecer nuevos enlaces de comunicaciones, con diversas aplicaciones: el posicionamiento preciso en interiores, la señalización y el marketing, el soporte de entornos de realidad aumentada, la creación de puntos de acceso a Internet, las comunicaciones vehiculares, la gestión de ciudades inteligentes, la monitorización ambiental, entre otras muchas. Sin embargo, a pesar de que esta tecnología ha alcanzado el nivel de madurez técnico necesario para su despliegue, su penetración en los mercados y la industria se ha visto ralentizada por la necesidad de utilizar un hardware de recepción específico basado en fotodiodos. Los costes derivados de la integración en los dispositivos finales de usuario repercuten negativamente en la adopción de esta tecnología. Por este motivo la comunidad cient´ıfica e ingenieril ha mostrado inter´es en utilizar en lugar de arreglos espec´ıficos de fotodiodos, las c´amaras como receptores, constituy´endose as´ı una nueva rama conocida como las comunicaciones ´opticas basadas en c´amara (OCC, por sus siglas en ingl´es, optical camera communication). De esta forma se promueve la creaci´on masiva de aplicaciones utilizando dispositivos finales de usuario con c´amaras incorporadas como los tel´efonos m´oviles, los laptops, las dashcams, los sistemas de seguridad biom´etricos, entre otros. No obstante, los enlaces OCC tienen una tasa de transmisi´on relativamente baja, la cual est´a intr´ınsecamente limitada por la tasa de captura de im´agenes de la c´amara, con tasas t´ıpicas de 60 a 120 im´agenes por segundo (fps por sus siglas en ingl´es, frames per second). Concretamente, las c´amaras que utilizan una adquisici´on global shutter (GS), esto es, aquellas que exponen todos sus p´ıxeles simult´aneamente durante la captura, muestrean la se˜nal ´optica cada vez que se toma una imagen, por lo que la frecuencia de muestreo de recepci´on coincide directamente con los fps, lo que limita la tasa de datos vii de acuerdo con el teorema de muestreo de Nyquist-Shannon. Por otro lado, las c´amaras rolling shutter (RS) alcanzan tasas de transmisi´on significativamente mayores respecto a las anteriores. Esto es debido a que escanean la escena de forma secuencial fila por fila de p´ıxeles, lo que permite muestrear variaciones en la iluminaci´on que ocurren durante la captura. Estas variaciones se perciben en la imagen como bandas de diferente intensidad de acuerdo con el nivel de iluminaci´on presente en el instante en el que se expuso la correspondiente fila de p´ıxeles. Cuando se utiliza un panel LED como transmisor, este genera bandas en la imagen que se corresponden con los diferentes s´ımbolos que constituyen la se˜nal ´optica. En definitiva, el muestreo se realiza fila por fila de p´ıxeles, por lo que la frecuencia de muestreo de recepci´on depender´a de la velocidad a la que se activan las filas. El intervalo entre la activaci´on de dos filas consecutivas se denomina tiempo de muestreo de fila, y es entre 100 y 10000 veces mayor que el tiempo de captura de una imagen. A modo de ejemplo, tiempos de muestreo de fila t´ıpicos que var´ıan entre los 8 y los 10 microsegundos, suponen frecuencias de muestreo que var´ıan entre los 125 kHz y los 100 kHz. Adem´as, las c´amaras de s´uper c´amara lenta pueden alcanzar y superar frecuencias de muestreo por encima de los 500 kHz. Por este motivo, y por el hecho de que la mayor´ıa de las c´amaras presentes en el mercado utilizan el mecanismo de adquisici´on RS es por el que estos enlaces han recibido especial atenci´on recientemente. A pesar de que los sistemas RS-OCC permiten alcanzar tasas de transmisi´on mayores, requieren, sin embargo, que el tiempo de exposici´on de la c´amara, esto es, el tiempo que permanecen los p´ıxeles expuestos a la luz, sea lo m´as corto posible. De lo contrario, a medida que el tiempo de exposici´on aumenta las bandas de s´ımbolos comienzan a mezclarse en la imagen, ya que los p´ıxeles acumulan la irradiancia de varios s´ımbolos consecutivos. El resultado de exposiciones prolongadas es la aparici´on de una interferencia intersimb´olica (ISI, del ingles intersymbol interference) que perjudica gravemente la decodificaci´on de la se˜nal. En otros t´erminos, el tiempo de exposici´on se comporta como un filtro paso bajo que reduce considerablemente el ancho de banda de recepci´on. Surge entonces un conflicto con la operaci´on habitual de las c´amaras como dispositivos de visualizaci´on. Si se reduce el tiempo de exposici´on, la sensibilidad de la c´amara disminuye y las im´agenes que esta entrega son pr´acticamente oscuras, en las que los objetos presentes dejan de percibirse claramente. El tiempo de exposici´on juega entonces un papel crucial en la mejora de la sensilibidad de la c´amara, y por ende su capacidad para visualizar la escena, y en la reducci´on del ancho de banda del recepci´on, y por ende su capacidad para operar como receptor ´optico. Evitar que las c´amaras pierdan su funcionalidad intr´ınseca es necesario si se desea que esta tecnolog´ıa se adopte masivamente. Por tanto, hay que buscar estrategias que favorezcan el aumento de la sensibilidad sin que esto repercuta en un da˜no para las comunicaciones. Por otro lado, es requisito desarrollar una soluci´on ´unica que sea compatible con la gran diversidad de c´amaras que existen en el mercado. A pesar de que la mayor´ıa de ellas son RS, cada una tiene una configuraci´on interna diferente. Adem´as, en algunos casos sus par´ametros internos son inaccesibles, como la frecuencia de reloj, que est´a relacionada con el tiempo de muestreo de fila simplemente porque carece de aplicaci´on pr´actica en la fotograf´ıa. En otros casos, se ajustan din´amicamente su par´ametros, como es el caso del tiempo de exposici´on, que se selecciona autom´aticamente en funci´on de la iluminaci´on ambiente. En conclusi´on, la adopci´on masiva de los enlaces OCC pasa por conocer la influencia que los par´ametros de las c´amaras tienen en las comunicaciones, haciendo especial hincapi´e en el tiempo de exposici´on, y desarrollar una soluci´on ´unica que favorezca la visualizaci´on de la escena, y que, por tanto, permita el reuso efectivo del mayor n´umero de c´amaras posible. Para conseguir esto en esta tesis se propone el uso de la inteligencia artificial (AI por sus siglas en ingl´es). La b´usqueda de esta soluci´on se condensa en el primer objetivo general (GO1) de esta tesis: desarrollar una arquitectura asistida con AI que sea compatible con un gran n´umero de c´amaras, y que opere de forma independiente al tiempo de exposici´on. Al mismo tiempo ha de favorecer el uso de sensibilidades altas para la c´amara, evitando as´ı, que esta pierda su funcionalidad como dispositivo de visualizaci´on. Adem´as, se enuncian otros dos objetivos generales: (GO2) desarrollar un banco de pruebas experimental para la generaci´on de muestras reales y (GO3) la evaluaci´on de la integraci´on y viabilidad de OCC en las aplicaciones industriales y de mercado. El n´ucleo principal de esta tesis es un compendio de tres publicaciones en revistas de alto impacto las cuales siguen una evoluci´on coherente con el desarrollo iterativo llevado a cabo para abordar este desaf´ıo de car´acter t´ecnico industrial. Esta tesis parte de un trabajo previo realizado por el autor como trabajo de fin de m´aster. En este trabajo se desarroll´o un prototipo funcional de enlace RS-OCC y se evalu´o en condiciones de laboratorio. La tesis comienza en el momento en el que se decide desplegarlo en un entorno industrial, concretamente en una planta de cultivo de microalgas. El objetivo de este proyecto era crear un enlace ´optico utilizando una c´amara de vigilancia para la monitorizaci´on y supervisi´on simult´aneas de m´ultiples fotobiorreactores. Estos fotobiorreactores (en adelante nodos) utilizan un panel LED para simult´aneamente (i) ajustar la iluminaci´on inteligentemente acorde los requerimientos de luz de las microalgas, y (ii) enviar c´odigos ´opticos con par´ametros del cultivo, como la temperatura, el nivel de pH, entre otros. Este trabajo trajo a la luz el hecho de que el ajuste del tiempo de exposici´on es crucial en el dise˜no de este tipo de enlaces. Si se reduc´ıa para favorecer una comunicaci´on m´as r´apida, entonces, la c´amara perd´ıa su funci´on como dispositivo de vigilancia. Por consiguiente, los t´ecnicos del laboratorio, o posibles intrusos, no se pueden discernir en la imagen. Este trabajo, tambi´en analiz´o otros requerimientos t´ecnicos a considerar a la hora de desplegar m´ultiples enlaces, como: (i) la influencia de la orientaci´on de los nodos y su perfil de irradiancia en la calidad del enlace, (ii) su distribuci´on para conseguir tasas de transmisi´on equivalentes entre ellos, y (iii) su colocaci´on para optimizar el espacio disponible. Los resultados y descubrimientos de este trabajo se recogen el primer art´ıculo de compendio de esta tesis, y ofrecen una gu´ıa t´ecnica ´util para el dise˜no y despliegue de enlaces RS en un entorno industrial. Tras resaltar los efectos de las exposiciones prolongadas se realiz´o una extensa revisi´on bibliogr´afica en la b´usqueda de soluciones para este problema. Se detect´o una carencia respecto a la investigaci´on en este aspecto, y se observ´o un creciente inter´es por el uso de la AI para de detecci´on de fuentes en la imagen, y en otras ramas en el campo del procesamiento digital de la se˜nal. Esto sugiri´o la idea de utilizar AI para la ecualizaci´on de los efectos de las exposiciones prolongadas. El fruto del trabajo realizado con este objetivo se public´o en el segundo art´ıculo de compendio y consiste en un bloque de ecualizaci´on asistido con AI, capaz de mitigar de los efectos de la exposici´on en condiciones de ruido moderado/alto. Este ecualizador basado en un autoencoder convolucional (CAE por sus siglas en ingl´es, convolutional autoencoder) permite aumentar el tiempo de exposici´on hasta 7 veces m´as en comparaci´on con el tiempo de exposici´on ideal para la decodificaci´on, con tasas de error de bit inferiores al l´ımite impuesto por las t´ecnicas de correcci´on de errores hacia adelante (FEC por sus siglas en ingl´es forward error correction). En otras palabras, este ecualizador mejora el ancho de banda de recepci´on hasta 14 veces comparado con enlaces no ecualizados. Es importante destacar que los resultados de este trabajo tienen un impacto potencial en el campo del procesado digital de las se˜nales, y, por tanto, en todos los sistemas de comunicaciones sean estos ´opticos, basados en radio o ac´usticos, puesto que demuestran y validan la capacidad de la AI para aumentar el ancho de banda en sistemas fuertemente limitados en banda. En este caso la limitaci´on viene impuesta por el tiempo de exposici´on, pero podr´ıa derivarse de cualquier otro elemento del enlace. Otra de las contribuciones de este trabajo es que el entrenamiento del ecualizador se realiz´o exclusivamente con muestras sint´eticas. Para ello se model´o el mecanismo de RS con el tiempo de exposici´on y se desarroll´o un algoritmo eficiente para la generaci´on sint´etica de muestras. Este algoritmo utiliza ´unicamente par´ametros temporales del enlace como son la tasa de s´ımbolos del transmisor, el tiempo de exposici´on y el tiempo de muestreo de fila de la c´amara. Esta generaci´on sint´etica se valid´o indirectamente con la evaluaci´on del ecualizador utilizando muestras reales. Este entrenamiento sint´etico fue motivado por la dificultad, la complejidad y el gasto de tiempo que implicaba la captura de im´agenes reales. Para este prop´osito habr´ıa que caracterizar rigurosamente las c´amaras utilizadas, y ajustar convenientemente las condiciones del enlace. Esto provocar´ıa, adem´as que el ecualizador no fuese capaz de generalizar bien y operar correctamente con im´agenes provenientes de otras c´amaras y tomadas en otras condiciones. Por lo tanto, el entrenamiento sint´etico, no s´olo agiliza la creaci´on de datasets, y elimina la complejidad de desarrollar un banco de pruebas, sino que adem´as permite abstraer el entrenamiento del receptor utilizado, empleando para ello multitud de muestras representativas de una amplia variedad de transmisores, c´amaras, configuraciones, niveles de ruido, entre otros par´ametros. Finalmente, cuando se empezaron a utilizar c´amaras de m´oviles convencionales, en lugar de c´amaras de laboratorio, para una implementaci´on pr´actica, se descubri´o que muchos de sus par´ametros internos son desconocidos, no se pueden modificar, o se actualizan din´amicamente. Por tanto, en estos casos resulta necesario estimar estos par´ametros directamente en la recepci´on, a partir de las im´agenes capturadas, antes de proceder a la decodificaci´on. Para este prop´osito se propone en el tercer art´ıculo de compendio, el uso de redes convolucionales entrenadas con im´agenes sint´eticas generadas con miles de configuraciones posibles. Los resultados demuestran que estas redes son capaces de obtener errores inferiores al 1.3% y el 3% en la estimaci´on la frecuencia de reloj de los datos y el tiempo de exposici´on de la c´amara respectivamente. Estos errores garantizan la operaci´on ´optima del resto de las rutinas de recepci´on. Como resultado, este estimador desacopla las rutinas de recepci´on de las c´amaras utilizadas, y permite idear una arquitectura que opere directamente con las im´agenes con independencia de la c´amara utilizada y su configuraci´on. Asimismo, esta arquitectura incluye etapas de ecualizaci´on de la exposici´on para permitir aumentar el tiempo de exposici´on hasta condiciones de visibilidad ´optimas. De este modo se favorece el uso de las c´amaras de manera simult´anea para la visualizaci´on y la recepci´on de datos. En definitiva, esta propuesta permite la creaci´on de un software de comunicaciones transferible que puede integrarse f´acilmente en aplicaciones para tel´efonos inteligentes, ordenadores de sobremesa y port´atiles, tabletas, sistemas de conducci´on aut´onoma, cajeros autom´aticos, etc. Adem´as, tambi´en permite el desarrollo de aplicaciones alojadas en la nube que pueden procesar im´agenes provenientes de diferentes flujos multimedia en tiempo real. De esta forma, se habilitan tecnol´ogicamente aquellos dispositivos que no disponen de un ecosistema abierto para el desarrollo de sus aplicaciones. Adicionalmente, en un trabajo posterior se mejoraron, los tiempos de entrenamiento de los ecualizadores hasta 435 veces, usando s´olo 250 im´agenes de entrenamiento en lugar de 35500. Esto se consigui´o utilizando t´ecnicas para transferencia del conocimiento acumulado por el estimador a los ecualizadores. Esta mejora en la eficiencia del entrenamiento de los ecualizadores permite que estos se puedan entrenar bajo demanda sin llegar a interrumpir la comunicaci´on. Por ´ultimo, durante el ejercicio de esta tesis tambi´en se ha trabajado en la parte del transmisor, creando un dispositivo llamado Barcolit que opera como un tradicional c´odigo de barras, pero de manera activa usando paneles LED. Este sistema, adem´as, es compatible con los convencionales lectores de barras, por lo que no disrumpe los procesos industriales actuales. Adem´as, ofrece ventajas significativas respecto a los c´odigos de barra impresos, ya que los c´odigos generados no se distorsionan en la imagen y siempre permanecen correctamente alineados horizontalmente independientemente de la orientaci´on de la c´amara. En conclusi´on, esta tesis equilibra los esfuerzos por abordar (i) un reto industrial en el campo particular de los enlaces RS-OCC, que es conseguir la reutilizaci´on efectiva de las c´amaras como receptores sin perder su funci´on primaria como dispositivos de imagen, con (ii) un problema cient´ıfico-t´ecnico extensible a cualquier campo de las comunicaciones, que es la ecualizaci´on de la ISI producida por la reducci´on del ancho de banda de recepci´on disponible y la estimaci´on indirecta de ciertos par´ametros del enlace. Adem´as, evoluciona y madura en l´ınea con los avances m´as recientes en el campo de la AI y la visi´on por computador, registrando resultados que superan los obtenidos con algoritmos cl´asicos y otros trabajos preliminares. Por ´ultimo, se centra en desvincular la recepci´on en enlaces OCC de las c´amaras utilizadas, con el objetivo de acelerar la adopci´on masiva de esta tecnolog´ıa.
Description:	Programa de Doctorado en Empresa, Internet y Tecnologías de las Comunicaciones por la Universidad de Las Palmas de Gran Canaria
URI:	https://accedacris.ulpgc.es/handle/10553/121553
Appears in Collections:	Tesis doctoral

Adobe PDF (101,98 MB)

Adobe PDF (15,19 MB)

Show full item record

Google Scholar^TM

Check

Adobe PDF (101,98 MB)

Adobe PDF (15,19 MB)

Google Scholar^TM

Share

Export metadata

Dirección

Contacto

Legal

De interés

Adobe PDF (101,98 MB)

Adobe PDF (15,19 MB)

Google ScholarTM

Share

Export metadata

Dirección

Google Scholar^TM