La evolución de la visión por ordenador
Es fácil encontrar la tecnología de visión por ordenador en productos cotidianos, desde consolas de juegos que pueden reconocer sus gestos hasta cámaras de teléfonos móviles que pueden enfocar automáticamente a las personas. Está influyendo en muchos ámbitos de nuestra vida.
De hecho, la visión por ordenador tiene una larga historia de uso comercial y gubernamental. Los sensores ópticos que pueden detectar ondas de luz en varios rangos del espectro se utilizan en muchas aplicaciones: Como el control de calidad en la fabricación, la teledetección para la gestión medioambiental o las cámaras de alta resolución que recogen información sobre los campos de batalla. Algunos de estos sensores son fijos, mientras que otros se fijan a objetos en movimiento, como satélites, drones y vehículos.
En el pasado, muchas de estas aplicaciones de visión por ordenador estaban limitadas a algunas plataformas cerradas. Pero cuando se combinan con las tecnologías de conectividad IP, crean un nuevo conjunto de aplicaciones que antes no eran posibles. La visión por ordenador, junto con la conectividad IP, el análisis avanzado de datos y la inteligencia artificial, serán catalizadores entre sí, dando lugar a saltos revolucionarios en las innovaciones y aplicaciones de la Internet de las Cosas (IoT).
Avances en múltiples campos que impulsan la visión por ordenador
Entorno diseñado para la visión
La vista o visión es el más desarrollado de los cinco sentidos humanos. Lo utilizamos a diario para reconocer a nuestros amigos, detectar obstáculos en nuestro camino, completar tareas y aprender cosas nuevas. Diseñamos nuestro entorno físico para nuestro sentido de la visión. Hay señales de tráfico y semáforos que nos ayudan a ir de un sitio a otro. Las tiendas tienen carteles que nos ayudan a localizarlas. Las pantallas de ordenador y televisión muestran la información y el entretenimiento que consumimos. Dada la importancia de la vista, no es un gran salto extenderla a los ordenadores y la automatización.
La visión por ordenador comienza con la tecnología que captura y almacena una imagen, o un conjunto de imágenes, y luego transforma esas imágenes en información sobre la que se puede actuar. Se compone de varias tecnologías que trabajan juntas (Figura 1). La ingeniería de la visión por ordenador es un campo interdisciplinar que requiere conocimientos transversales y de sistemas en varias de estas tecnologías.
Por ejemplo, Microsoft Kinect utiliza algoritmos de gráficos por ordenador en 3D para que la visión por ordenador analice y comprenda las escenas tridimensionales. Permite a los desarrolladores de juegos fusionar la captura de movimiento de todo el cuerpo en tiempo real con entornos 3D artificiales. Además de los juegos, esto abre nuevas posibilidades en áreas como la robótica, la realidad virtual (RV) y las aplicaciones de realidad aumentada (RA).
Los avances en la tecnología de los sensores también se están produciendo rápidamente en muchos niveles más allá de los sensores convencionales de las cámaras. Algunos ejemplos recientes son
Sensores infrarrojos y láseres
se combinan para percibir la profundidad y la distancia, que son uno de los elementos fundamentales para los coches autoconducidos y las aplicaciones de cartografía en 3D
Sensores no intrusivos que rastrean los signos vitales de los pacientes médicos sin contacto físico
Cámaras de alta frecuencia que pueden captar movimientos sutiles no perceptibles por los ojos humanos para ayudar a los atletas a analizar su marcha
Sensores de visión de muy bajo consumo y bajo coste que pueden desplegarse en cualquier lugar durante un largo periodo de tiempo
La visión por ordenador, impulsada por los avances en múltiples campos
La visión por ordenador se vuelve inteligente
Primeras aplicaciones
El sector de la vigilancia es uno de los primeros en adoptar técnicas de procesamiento de imágenes y análisis de vídeo. El análisis de vídeo es un caso especial de uso de la visión por ordenador que se centra en la búsqueda de patrones a partir de horas de grabación de vídeo. La capacidad de detectar e identificar automáticamente patrones predefinidos en situaciones del mundo real representa una enorme oportunidad de mercado con cientos de casos de uso.
Las primeras herramientas de análisis de vídeo utilizan algoritmos artesanales que identifican características específicas en imágenes y vídeos. Eran precisos en entornos de laboratorio y de simulación. Sin embargo, su rendimiento disminuía rápidamente cuando los datos de entrada, como las condiciones de iluminación y las vistas de la cámara, se desviaban de los supuestos de diseño.
Los investigadores e ingenieros pasaron muchos años desarrollando y ajustando algoritmos o ideando otros nuevos para hacer frente a las distintas condiciones. Sin embargo, las cámaras o videograbadoras que utilizan esos algoritmos siguen sin ser lo suficientemente robustas. A pesar de algunos progresos incrementales realizados a lo largo de los años, el escaso rendimiento en el mundo real limitó la utilidad y la adopción de la tecnología.
El avance del aprendizaje profundo
En los últimos años, la aparición de algoritmos de aprendizaje profundo ha revitalizado la visión por ordenador. El aprendizaje profundo utiliza algoritmos de redes neuronales artificiales (RNA) que imitan las neuronas del cerebro humano.
Desde principios de la década de 2010, el rendimiento de los ordenadores, acelerado por las unidades de procesamiento gráfico (GPU), ha crecido lo suficiente como para que los investigadores puedan hacer realidad las capacidades de las complejas RNA. Además, impulsados en parte por los sitios de vídeo y los dispositivos IoT predominantes, los investigadores disponen de grandes y diversas bibliotecas de datos de vídeo e imágenes para entrenar sus redes neuronales.
En 2012, una versión de la red neuronal profunda (DNN), llamada red neuronal convolucional (CNN), demostró un enorme salto en la precisión. Este desarrollo impulsó un renovado interés y entusiasmo en el campo de la ingeniería de la visión por ordenador. Ahora, en las aplicaciones que requieren la clasificación de imágenes y el reconocimiento facial, los algoritmos de aprendizaje profundo superan incluso a sus homólogos humanos. Y lo que es más importante, al igual que los humanos, estos algoritmos tienen la capacidad de aprender y adaptarse a diferentes condiciones.
Representación semántica de la escena
Con el aprendizaje profundo, estamos entrando en una era de tecnología cognitiva en la que la visión por ordenador y el aprendizaje profundo se integran para abordar problemas complejos de alto nivel que antes eran dominio del cerebro humano (Figura 2). Solo estamos arañando la superficie de lo que es posible. Estos sistemas seguirán mejorando con procesadores más rápidos, algoritmos de aprendizaje automático más avanzados y una mayor integración en los dispositivos de vanguardia. La visión por ordenador está llamada a revolucionar el IoT.
Aumento de los casos de uso
Otros casos de uso interesantes son:
Drones agrícolas que vigilan la salud de los cultivos ( ) (Figura 3)
Gestión de infraestructuras de transporte ( )
Inspecciones con drones ( )
Cámaras de seguridad doméstica de nueva generación ( )
Índice de vegetación a partir de una imagen recogida desde un dron (Crédito: Emmetts, Emmetts – Staying Power – New and Used Farm Machinery Sales
)
Estos son solo algunos pequeños ejemplos de cómo la visión por ordenador puede aumentar enormemente la productividad en muchos campos. Estamos entrando en la siguiente fase de la evolución del IoT. En la primera fase, nos centramos en conectar dispositivos, agregar datos y crear plataformas de big data. En la segunda fase, el enfoque cambiará para hacer que las «cosas» sean más inteligentes a través de tecnologías como la visión por ordenador y el aprendizaje profundo, generando más datos procesables.
Desafíos
Hay muchos problemas que superar para que la tecnología sea más práctica y económica para las masas:
Las plataformas embebidas deben integrar el diseño neuronal profundo. Hay que tomar decisiones de diseño difíciles en torno al consumo de energía, el coste, la precisión y la flexibilidad.
El sector necesita una normalización que permita a los dispositivos y sistemas inteligentes comunicarse entre sí y compartir metadatos.
Los sistemas ya no son recolectores pasivos de datos. Tienen que actuar sobre los datos con una mínima intervención humana. Tienen que aprender e improvisar por sí mismos. Todo el proceso de actualización del software/firmware tiene un nuevo significado en la era del aprendizaje automático.
Los piratas informáticos podrían explotar nuevas vulnerabilidades de seguridad en la visión por ordenador y la IA. Los diseñadores deben tenerlo en cuenta.
Espero que esto ayude 🙂
Fuente : The Rise of Ubiquitous Computer Vision in IoT | IoT For All