Intel Labs presenta el modelo de difusión de IA, que genera imágenes de 360 grados a partir de textos
Intel Labs, en colaboración con Blockade Labs, ha presentado Latent Diffusion Model for 3D (LDM3D), un modelo de difusión novedoso que utiliza inteligencia artificial generativa para crear contenido visual y realista en 3D. LDM3D es el primer modelo de la industria que genera un mapa de profundidad utilizando el proceso de difusión para crear imágenes en 3D con vistas de 360 grados que son vívidas e inmersivas. LDM3D tiene el potencial de revolucionar la creación de contenido, las aplicaciones del metaverso y las experiencias digitales, transformando una amplia gama de industrias, desde el entretenimiento y los videojuegos hasta la arquitectura y el diseño.
«La tecnología de inteligencia artificial generativa tiene como objetivo mejorar y potenciar aún más la creatividad humana, a la vez que ahorra tiempo. Sin embargo, la mayoría de los modelos de inteligencia artificial generativa actuales se limitan a generar imágenes en 2D y solo unos pocos pueden generar imágenes en 3D a partir de indicaciones de texto. A diferencia de los modelos de difusión latente estables existentes, LDM3D permite a los usuarios generar una imagen y un mapa de profundidad a partir de una indicación de texto dada utilizando casi la misma cantidad de parámetros. Proporciona una profundidad relativa más precisa para cada píxel en una imagen en comparación con los métodos estándar de posprocesamiento para la estimación de la profundidad, y ahorra a los desarrolladores un tiempo significativo para desarrollar escenas”, menciona Vasudev Lal, científica de investigación de IA/ML en Intel Labs.
¿Por qué es importante? Los ecosistemas cerrados limitan la escala. Y el compromiso de Intel con la democratización de la inteligencia artificial permitirá un acceso más amplio a los beneficios de la IA a través de un ecosistema abierto. Un área que ha experimentado avances significativos en los últimos años es el campo de la visión por computadora, especialmente en la inteligencia artificial generativa. Sin embargo, muchos de los modelos de IA generativos de la actualidad se limitan a generar solo imágenes 2D. A diferencia de los modelos difusión existentes, que generalmente solo generan imágenes RGB 2D a partir de indicaciones de texto, LDM3D permite que los usuarios generen tanto una imagen como un mapa de profundidad. Utilizando casi la misma cantidad de parámetros que lalatent stable diffusion, LDM3D proporciona una profundidad relativa más precisa para cada píxel en una imagen en comparación con los métodos estándar de posprocesamiento para la estimación de la profundidad.
Esta investigación podría revolucionar la forma en que interactuamos con el contenido digital al permitir a los usuarios experimentar sus textos de una manera antes inconcebible. Las imágenes y mapas de profundidad generados por LDM3D permiten a los usuarios convertir la descripción de texto de una playa tropical, un rascacielos moderno o un universo de ciencia ficción en un panorama detallado de 360 grados. Esta capacidad de capturar información de profundidad puede mejorar instantáneamente el realismo y la inmersión en general, lo que permite aplicaciones innovadoras para industrias que van desde el entretenimiento y el gaming hasta el diseño de interiores y bienes raíces, así como museos virtuales y experiencias de realidad virtual (VR) inmersivas.
El 20 de junio, LDM3D ganó el premio al mejor cartel en el taller de 3DMV en CVPR.
Cómo funciona: LDM3D fue entrenado con un conjunto de datos construido a partir de un subconjunto de 10.000 muestras de la base de datos LAION-400M, que contiene más de 400 millones de imágenes y descripciones. El equipo utilizó el modelo de estimación de profundidad Dense Prediction Transformer (DPT) de gran profundidad (previamente desarrollado en Intel Labs) para el corpus de entrenamiento. El modelo DPT-large proporciona una profundidad relativa altamente precisa para cada píxel en una imagen. El conjunto de datos LAION-400M se ha creado con fines de investigación para permitir la prueba del entrenamiento del modelo a mayor escala para la comunidad de investigadores y otros interesados.
El modelo LDM3D se entrena en un superordenador de IA de Intel alimentado por procesadores Intel® Xeon® y aceleradores de IA Intel® Habana Gaudi®. El modelo y el proceso resultantes combinan una imagen RGB generada y un mapa de profundidad para generar vistas de 360 grados para experiencias inmersivas.
Para demostrar el potencial de LDM3D, los investigadores de Intel y Blockade desarrollaron DepthFusion, una aplicación que aprovecha fotos RGB estándar en 2D y mapas de profundidad para crear experiencias inmersivas e interactivas de visualización en 360 grados. DepthFusion utiliza TouchDesigner, un lenguaje de programación visual basado en nodos para contenido multimedia interactivo en tiempo real, para convertir las indicaciones de texto en experiencias digitales interactivas e inmersivas. LDM3D es un modelo único que crea tanto una imagen RGB como su mapa de profundidad, lo que resulta en ahorros en la memoria utilizada y mejoras en la latencia.
Qué sigue: La presentación de LDM3D y DepthFusion allana el camino para futuros avances en la generación de IA multi-vista y la visión por computadora. Intel seguirá explorando el uso de la IA generativa para mejorar las capacidades humanas y construir un sólido ecosistema de investigación y desarrollo de IA de código abierto que democratice el acceso a esta tecnología. Continuando con el fuerte apoyo de Intel al ecosistema abierto en IA, LDM3D se está publicando como código abierto a través de HuggingFace. Esto permitirá a los investigadores y profesionales de la IA mejorar aún más este sistema y ajustarlo para aplicaciones personalizadas.
Más contexto: La investigación de Intel se presentará en Computer Vision and Pattern Recognition Conference (CVPR) de IEEE/CVF del 18 al 22 de junio. Para obtener más información, consulte «LDM3D: Latent Diffusion Model for 3D» o vea la LDM3D Demo.