En el mundo de la manipulación de imagen digital, los mapas de profundidad son una herramienta muy útil para poder crear efectos que permitan darle más tridimensionalidad a la imagen. Si bien el ojo humano puede comprender la profundidad en las imágenes planas, la máquina aún tiene problemas entendiendo la posición de los elementos en las imágenes. Un nuevo modelo de análisis de imagen basado en inteligencia artificial busca cambiar eso:
Como se puede ver en el video, desarrolladores e investigadores de la Universidad Simon Fraser de Canadá crearon un nuevo modelo de visión computarizada capaz de ver profundidad en la imagen. Como reporta PetaPixel, mediante aprendizaje automático, los desarrolladores crearon un sistema que debe observar la imagen, establecer referencias contextuales y a partir de ahí determinar tamaños de los elementos en la escena para ir creando el mapa de profundidad.
Este proceso utiliza un acercamiento lógico a cómo los humanos comprendemos la profundidad del espacio en una imagen plana. Somos conscientes del tamaño aproximado de las cosas y bajo los principios de la perspectiva podríamos pensar si algo está más lejos porque se ve chiquito o más cerca porque se ve más grande de lo normal. Así mismo, sabemos que algo está delante o detrás de otro objeto porque entendemos la relación de los cuerpos en la imagen.
El equipo arrancó a partir de un modelo que utilizaba imágenes de alta resolución, pero que tenía resultados inconsistentes. Se dieron cuenta que el modelo podía reproducir detalles en imágenes de alta resolución, pero perdía profundidad general. Mientras tanto, en imágenes de baja resolución no había detalle pero había más entendimiento de la profundidad.
Esto se debe a que en una imagen de alta resolución los algoritmos de análisis de imagen pueden diferenciar detalles en un sujeto como cara, ropa, ojos, nariz, etc… pero hay grandes bloques de información que el sistema no puede diferenciar porque no tiene puntos de comparación ni claves para identificar el elemento. Mientras que en baja resolución, los bloques grandes se pueden separar como pared, cielo, persona, piso, etc…esto se debe a que la separación de los elementos es más visible para los algoritmos que analizan la imagen.
Al alimentar el modelo con la misma imagen separada en diferentes resoluciones, los sistemas de análisis pueden crear un mapa en distintos bloques de información. Primero un bloque visto desde el general, luego una separación en los detalles. Esto genera dos mapas de profundidad.
Esos dos mapas de profundidad luego son analizados por otro algoritmo que hace una media entre la información para crear el mapa de alta resolución que da como resultado una imagen de profundidad más potente que cualquier otro modelo por el estilo.
Este avance en análisis de profundidad de imagen podría ser vital para desarrollar mejores herramientas en fotografía computacional. Algunas herramientas como el bokeh falso de Abode pueden beneficiarse en ese proceso, e incluso se pueden usar para crear ajustes especiales en la imagen. Los smartphones podrían usar una mezcla entre los sensores ToF y el algoritmo para producir mejores resultados en los ajustes de iluminación de los elementos, y así no sería necesario implementar herramientas adicionales como el sensor LiDAR que Apple tiene en sus iPhone 12 Pro.