NVIDIA ha dado un paso importante hacia la IA física al anunciar en SIGGRAPH 2025 una serie de lanzamientos que combinan inteligencia artificial y robótica. Entre las novedades destacan Cosmos Reason, un modelo de visión y lenguaje con 7 mil millones de parámetros diseñado para que los robots “razonen” sobre el mundo físico, además de nuevas bibliotecas Omniverse para simulación avanzada y una infraestructura de hardware optimizada para aplicaciones físicas y robótica. En este artículo exploraremos a fondo estas innovaciones, por qué son relevantes y cómo sitúan a NVIDIA a la vanguardia de la robótica inteligente, demostrando experienciatanto técnica como práctica en el tema.
Cosmos: modelos de IA fundacionales para el mundo físico
Una de las piezas centrales del anuncio es NVIDIA Cosmos, una suite de modelos fundacionales de mundo (“World Foundation Models”) orientados a aplicaciones físicas. Estos modelos generativos proporcionan a los desarrolladores una base de IA entrenada para entender y recrear entornos del mundo real en diversos contextos, desde robots autónomos hasta sistemas de visión industrial. Cosmos Reason es el integrante más destacado de esta familia presentado en SIGGRAPH 2025, acompañado por otras herramientas como Cosmos Transfer-2 para generación sintética de datos.
Cosmos Reason: modelo de visión-lenguaje de 7 mil millones de parámetros
Cosmos Reason es un nuevo modelo de inteligencia artificial multimodal (combina visión y lenguaje) con 7.000 millones de parámetros, abierto y personalizable. Está diseñado específicamente para IA física y robótica, permitiendo que los robots y agentes de visión artificial “razonen” de forma similar a los humanos sobre lo que ven. En lugar de limitarse a identificar objetos o seguir instrucciones al pie de la letra, Cosmos Reason aporta una capa de comprensión contextual, memoria y sentido común a la percepción visual. Esto significa que, dados ciertos estímulos visuales (por ejemplo, el video de la cámara de un robot) y una instrucción en texto, el modelo puede planificar paso a paso cuál debe ser la acción o respuesta adecuada.
NVIDIA describe Cosmos Reason como un modelo de razonamiento que utiliza conocimientos previos, física y sentido común para entender y actuar en el mundo real. Por ejemplo, un robot dotado con Cosmos Reason podría ver una habitación desordenada y entender una orden compleja como “organiza el espacio”, descomponiendo la tarea en pasos lógicos: identificar objetos fuera de lugar, agruparlos por categoría y decidir dónde guardarlos, todo ello usando su entendimiento previo del entorno y principios físicos (sabe que no puede apilar objetos inestablemente, por ejemplo). Este enfoque de “cadena de pensamiento” (chain-of-thought) le permite razonar de manera estructurada, planificando las acciones con anticipación en lugar de reaccionar de forma rígida.
Técnicamente, Cosmos Reason se apoya en una arquitectura de modelo de lenguaje de última generación combinada con visión por computador. Toma como entrada video (imágenes) y texto; un módulo de visión llamado proyector convierte los fotogramas de video en tokens (representaciones numéricas), que luego se combinan con la consulta en lenguaje natural y se procesan con un núcleo de red neuronal tipo transformer. El modelo piensa de forma iterativa, generando un razonamiento intermedio antes de producir la respuesta final o plan de acción. Gracias a esta técnica, Cosmos Reason puede dar respuestas estructuradas y lógicas, ideales para aplicaciones donde se requieren explicaciones o planificación secuencial (por ejemplo, explicar por qué toma cierta decisión o qué pasos seguirá un robot).
Entrenamiento y rendimiento: Para dotar al modelo de estas capacidades, NVIDIA aplicó un entrenamiento intensivo con fine-tuning supervisado y aprendizaje por refuerzo enfocado en tareas de robótica. Tras el entrenamiento base, se realizó un post-training en dominios de IA física que logró mejorar el desempeño del modelo más del 10% mediante fine-tuning adicional, y un ~5% extra al incorporar reinforcement learningi. El resultado es que Cosmos Reason alcanza un 65,7 de puntuación media en indicadores clave de benchmarks de robótica y vehículos autónomos, según datos proporcionados por NVIDIA. Estas métricas sugieren un salto importante en comprensión visual y toma de decisiones frente a modelos previos de tamaño similar (aunque, como es natural, habrá que contrastar estas afirmaciones con evaluaciones independientes para validar plenamente su rendimiento en escenarios reales).
Optimización e implementación: Un aspecto práctico destacado es que Cosmos Reason ha sido optimizado para ejecutarse eficientemente en el ecosistema NVIDIA: puede desplegarse desde el borde hasta la nube, funcionando en GPUs RTX de la serie 40, en las potentes NVIDIA H100 para centros de datos, e incluso en los nuevos servidores Blackwell de la compañía, así como en la plataforma en la nube NVIDIA DGX Cloud. Esto significa que desarrolladores e ingenieros podrán integrarlo en robots físicos (por ejemplo, corriendo inferencias en una Jetson AGX Orin o una estación RTX en planta industrial) y también escalarlo en cloud para análisis masivos de video o simulaciones. La portabilidad y tamaño relativamente contenido (7B de parámetros es pequeño comparado con los gigantescos modelos de lenguaje general) indican que Cosmos Reason busca un equilibrio entre potencia y practicidad, apto para ejecutarse en entornos de computación en el borde (edge) como cámaras inteligentes o robots móviles que no cuentan con supercomputadoras a bordo.
Usos y casos prácticos: ¿Para qué se puede utilizar Cosmos Reason? NVIDIA menciona varias aplicaciones clave:
- Curación y etiquetado de datos: El modelo puede automatizar la selección, filtrado y anotación de grandes conjuntos de datos de entrenamiento. En vez de requerir intervención humana para revisar miles de imágenes o secuencias de video capturadas en entornos físicos, Cosmos Reason puede analizar ese material visual y etiquetarlo con descripciones, notas o clasificaciones relevantes. Esto acelera enormemente la preparación de datos de calidad para entrenar futuros algoritmos. De hecho, Uber ya está empleando Cosmos Reason para anotar y generar descripciones (captions) en datos de entrenamiento de vehículos autónomos, una tarea titánica donde contar con IA asistente ahorra tiempo y mejora la consistencia.
- Planificación robótica y descomposición de tareas: Integrado con modelos de Visión-Lenguaje-Acción (VLA), Cosmos Reason sirve como “cerebro” planificador. Permite que un robot interprete su entorno y, ante comandos complejos, los divida en tareas realizables que ejecutará aplicando sentido común. Por ejemplo, un brazo robótico en un almacén podría recibir la orden “prepara estos 5 productos y empaquétalos por separado”, y el sistema, apoyado en Cosmos Reason, entendería que debe localizar cada producto (visión), luego planificar una secuencia: ir a cada ubicación, recoger el objeto con cuidado (evitando choques), llevarlo a la estación de empaquetado y finalmente embalarlo con la etiqueta correcta. Todo ello coordinando sensores, movimientos y un conocimiento previo de qué es “empacar correctamente”. Incluso en entornos o situaciones nuevas no vistas en el entrenamiento, el modelo puede extrapolar con sentido comúncómo proceder, lo cual es crucial porque los robots a menudo enfrentan variaciones impredecibles en el mundo real.
- Agentes de análisis de video inteligentes: NVIDIA señala que Cosmos Reason puede potenciar agentes de IA para videovigilancia y analítica de video dentro de su plataforma Metropolis (destinada a smart cities e industria). Con su entendimiento espacial y temporal, un agente basado en Cosmos Reason podría resumir eventos en horas de video de seguridad, detectar anomalías en una línea de producción o entender patrones de tráfico en tiempo real. Por ejemplo, en una ciudad inteligente, múltiples cámaras podrían alimentar video a un sistema de analítica que, gracias a Cosmos Reason, no solo reconoce vehículos y peatones, sino que “entiende” comportamientos: detecta si un peatón está en peligro, si un coche entra en sentido contrario, o si se forma una congestión inusual en cierta intersección, generando alertas proactivas con explicación (e.g. “accidente en cruce, vehículo obstruyendo carril”). Esta capacidad de razonar sobre secuencias de video en contexto es valiosa para seguridad ciudadana, gestión de tránsito, vigilancia industrial, etc.
En resumen, Cosmos Reason actúa como un modelo fundacional de razonamiento visual que otros desarrolladores pueden usar y personalizar para un amplio abanico de aplicaciones físicas. Vale la pena mencionar que Google presentó en 2023 un modelo similar, RT-2, enfocado en visión-lenguaje-acción para robots. Aquel modelo de Google DeepMind aprendía de datos web y de robótica para transferir conceptos a acciones físicas, demostrando la misma tendencia de dotar a robots con conocimiento abstracto y capacidad de generalización. La diferencia es que NVIDIA está integrando Cosmos Reason dentro de un ecosistema más amplio: con herramientas de simulación, generación de datos sintéticos y hardware especializado, como veremos a continuación. Esto sugiere que NVIDIA pretende ofrecer una solución integral llave en mano para la robótica inteligente, diferenciándose de enfoques más aislados.
Cosmos Transfer-2: datos sintéticos fotorealistas de la simulación
Junto con Cosmos Reason, NVIDIA anunció Cosmos Transfer-2, un nuevo modelo de la familia Cosmos orientado a generación de datos sintéticos. Su objetivo es facilitar y acelerar la creación de conjuntos de datos visuales para entrenar robots y agentes de IA, aprovechando escenas simuladas. En la práctica, Cosmos Transfer-2 toma como entrada escenarios de simulación 3D “ground truth” (es decir, escenas virtuales con toda su información de profundidad, segmentación, mapas, etc.) y a partir de ellos genera imágenes fotorrealistasvariadas. En otras palabras, puede convertir un simple bosquejo 3D en una imagen muy realista, o bien transformar mapas de segmentación (que indican qué píxeles corresponden a qué objeto) en escenas visuales creíbles.
Esto es extremadamente útil porque entrenar modelos de visión o robótica suele requerir millones de imágenes de diferentes entornos, ángulos, condiciones de iluminación y escenarios. Obtener esas imágenes del mundo real es costoso y a veces impracticable (imaginemos recopilar fotos de robots en todas las fábricas del mundo…). Con Cosmos Transfer-2, un desarrollador puede usar su simulador para generar escenas base y luego multiplicarlas en diversidad con este modelo, obteniendo un dataset sintético amplio y variado prácticamente con un clic. Por ejemplo, se puede simular en Omniverse o Isaac Sim un almacén con 10 tipos de objetos y luego pedir a Cosmos Transfer que genere miles de imágenes con variaciones: distintos distribuciones de esos objetos, diferentes posiciones de cámara, condiciones de luz cambiantes, etc., todo con calidad fotorrealista. Estos datos luego entrenan modelos de visión robustos que funcionarán mejor en el mundo real.
NVIDIA destacó que Cosmos Transfer-2 simplifica enormemente el proceso de prompting (configuración de peticiones) para crear datos sintéticos y acelera la generación fotorrealista a partir de escenas 3D o entradas de control espacial. Además, presentaron una versión destilada del modelo Cosmos Transfer, que reduce un proceso de 70 pasos a tan solo 1 paso, optimizando la velocidad al punto de poder ejecutarlo en los nuevos servidores NVIDIA RTX Pro en tiempo récord. Esto demuestra la intención de NVIDIA de hacer estas herramientas lo suficientemente ligeras y rápidas para integrarlas directamente en flujos de trabajo industriales.
Varias empresas ya están experimentando con Cosmos Transfer para entrenar IA física: Lightwheel, Moon Surgical y Skild AI figuran entre los primeros usuarios, empleándolo para simular condiciones diversas a gran escala y así robustecer los algoritmos de sus robots. Esta adopción temprana sugiere que la generación de datos sintéticos es un componente cada vez más valorado en el desarrollo de IA para robótica, y NVIDIA busca liderar ese espacio con su tecnología.
Cabe añadir que la plataforma Cosmos en su conjunto (que incluye Cosmos Reason, Transfer y otros modelos) ha tenido buena recepción: NVIDIA reportó más de 2 millones de descargas de los modelos Cosmos desde su lanzamiento reflejando el interés de la comunidad de desarrolladores en estos enfoques de foundation models aplicados al mundo físico.
Nuevas librerías Omniverse y entornos de simulación
Paralelamente a los modelos de IA, NVIDIA introdujo nuevas librerías y actualizaciones en Omniverse – su plataforma de simulación 3D y creación de mundos virtuales – orientadas a facilitar el desarrollo robótico. La idea es clara: antes de desplegar robots o vehículos autónomos en el mundo real, es mucho más seguro, rápido y económico entrenarlos en mundos virtuales. NVIDIA Omniverse actúa como ese “metaverso industrial” donde robots, sensores y entornos se pueden recrear con alta fidelidad. En esta ocasión, la compañía presentó mejoras para hacer Omniverse más abierto e interoperable, así como nuevas técnicas gráficas para que la simulación sea indistinguible de la realidad.
Entre las novedades de Omniverse anunciadas se incluyen:
- Interoperabilidad MuJoCo – OpenUSD: Se lanzaron nuevos SDKs que permiten la conversión e integración de entornos de MuJoCo (un popular simulador de física para robótica con formato MJCF) al estándar Universal Scene Description (OpenUSD). Esto significa que los más de 250.000 desarrolladores que utilizan MuJoCo para aprendizaje por refuerzo en robótica ahora pueden llevar fácilmente sus modelos y entornos a Omniverse, aprovechando la potencia gráfica y de simulación de NVIDIA sin tener que reconstruir todo desde cero. Esta interoperabilidad elimina barreras entre distintas herramientas: un robot entrenado en MuJoCo puede probarse luego en un escenario más complejo en Omniverse, combinando lo mejor de ambos mundos.
- Omniverse NuRec y 3D Gaussian Splatting: NVIDIA introdujo una librería llamada NuRec (Neural Reconstruction) que implementa técnicas avanzadas de reconstrucción 3D a partir de datos reales. En particular, integraron un método novedoso llamado 3D Gaussian Splatting con aceleración RTX (trazado de rayos por GPU). Esta técnica permite capturar y reconstruir el mundo real en 3D usando datos de sensores (por ejemplo, cámaras RGB-D, LIDAR, etc.). En términos simples, imagina colocar un robot con cámaras en una habitación real, recolectar datos, y luego recrear automáticamente un “gemelo digital” de esa habitación dentro de Omniverse, con realismo fotorrealista. NuRec hace esto posible, democratizando la creación de entornos virtuales basados en lugares reales. Tanto es así que uno de los simuladores de vehículos autónomos más utilizados, CARLA, anunció que integrará la tecnología Omniverse NuRec en su plataforma. CARLA es usado por más de 150.000 desarrolladores para pruebas virtuales de coches autónomos, y con esta integración podrán importar escenarios reales escaneados y entrenar coches en entornos hiperrealistas con mayor facilidad. También empresas como Foretellix (dedicada a herramientas de test para vehículos autónomos) incorporarán NuRec junto a sensores RTX y Cosmos Transfer para generar datos sintéticos de escenarios complejos de forma físicamente precisa.
- Actualizaciones en Isaac Sim e Isaac Lab: NVIDIA anunció la versión Isaac Sim 5.0 y Isaac Lab 2.2, sus frameworks para simulación y aprendizaje de robots, ahora disponibles como open source en GitHub. Estas nuevas versiones traen compatibilidad nativa con las mejoras mencionadas (NuRec, USD, etc.) y añaden nuevos esquemas OpenUSD para robots y sensores, lo que permite describir de forma estandarizada las características de cualquier robot (articulaciones, dinamismo, sensores) y sus percepciones, facilitando el intercambio de modelos entre distintas simulaciones. Con Isaac Sim 5.0, los desarrolladores pueden crear escenarios virtuales aún más realistas e incluso aprovechar renderizado neuronal(neural rendering) para reducir la brecha entre simulación y realidad (sim2real). En la práctica, esto se traduce en robots virtuales que se comportan más como lo harían en el mundo físico, haciendo que lo que aprenden en simulación se transfiera mejor a la realidad. Empresas líderes en robótica como Boston Dynamics, Figure AI y el Instituto RAI están adoptando Omniverse, Isaac Sim y Isaac Lab para acelerar el desarrollo de sus robots de próxima generación.
Todas estas herramientas de simulación y librerías Omniverse complementan a Cosmos: juntas forman una suerte de pipeline completo donde se puede simular un mundo, generar datos sintéticos de ese mundo, entrenar modelos (como Cosmos Reason) con esos datos, y finalmente desplegar el modelo en robots reales que también se prueban en simulación continuamente. Esta integración vertical es un fuerte diferenciador de NVIDIA frente a otros actores. De hecho, compañías reconocidas en robótica industrial y automatización como Amazon (Devices & Services), Boston Dynamics, Figure AI, Hexagon, Lightwheel, entre otras, apoyaron el anuncio indicando que están usando (o planean usar) estas soluciones de NVIDIA para impulsar sus proyectos. Por ejemplo, Amazon está aplicando Omniverse e Isaac Sim para desarrollar una nueva solución de manufactura inteligente en sus fábricas.
Infraestructura de cómputo para IA física: RTX Pro Blackwell y DGX Cloud
Completa el anuncio una capa de infraestructura hardware y cloud diseñada para soportar las enormes cargas de trabajo que implican estas simulaciones y modelos de IA avanzados. NVIDIA presentó los servidores NVIDIA RTX PRO “Blackwell” y novedades en su plataforma DGX Cloud, con el mensaje de que ahora los desarrolladores pueden ejecutar las simulaciones y entrenamientos más exigentes en cualquier lugar – sea en sus propios centros de datos o en la nube.
El NVIDIA RTX Pro Blackwell Server es un nuevo servidor (formato rack 2U) equipado con GPUs de arquitectura Blackwell, la próxima generación sucesora de las actuales Hopper/Ada. Jensen Huang, CEO de NVIDIA, destacó que esta solución lleva la potencia de la computación acelerada por GPU a flujos de trabajo que antes dependían sólo de CPU, logrando hasta 45 veces más rendimiento en cargas intensivas de IA, simulación y análisis de datos, con 18 veces más eficiencia energética respecto a servidores tradicionales. En esencia, estos servidores están pensados para desarrollo robótico de punta a punta: desde entrenar grandes modelos (como Cosmos Reason) con velocidades mucho mayores, hasta ejecutar simulaciones físicas complejas en tiempo real. NVIDIA anunció alianzas con fabricantes líderes (Cisco, Dell, HPE, Lenovo, Supermicro) para ofrecer estos servidores Blackwell en múltiples configuraciones estándar, intentando que se conviertan en el nuevo estándar de la industria para IA empresarial e industrial.
Por su parte, NVIDIA DGX Cloud es un servicio en la nube que proporciona acceso remoto a la infraestructura NVIDIA de alto rendimiento. Con las novedades reveladas, DGX Cloud ofrecerá instancias con la última tecnología (presumiblemente incluyendo GPUs Blackwell) optimizadas para robótica, permitiendo a los equipos de desarrollo escalar sus experimentos sin tener que poseer físicamente el hardware. Imaginemos una startup de robótica que necesita entrenar un modelo sofisticado o correr una simulación de millones de iteraciones: con DGX Cloud pueden hacerlo en la nube, bajo demanda, pagando por horas de cómputo, en lugar de esperar semanas con sus recursos locales limitados. NVIDIA posiciona esta opción como una forma de democratizar el acceso a supercomputación de IA para cualquier empresa, grande o pequeña.
En resumen, la infraestructura anunciada garantiza que todo el software mencionado (Omniverse, Cosmos) tenga un terreno fértil donde ejecutarse con máximas prestaciones. Si Cosmos Reason es el “cerebro” y Omniverse+Isaac son el “campo de entrenamiento”, los servidores RTX Pro y DGX Cloud son el “músculo” que da fuerza bruta para entrenar y correr esos cerebros virtuales. La trifecta modelo-simulación-hardware proviene de un mismo proveedor (NVIDIA), lo que puede brindar optimización de punta a punta – una estrategia muy alineada con la visión de NVIDIA de ser el proveedor integral para la era de la IA.
Impacto y perspectiva: NVIDIA a la cabeza de la IA robótica
Con estos lanzamientos, NVIDIA refuerza su posición de liderazgo en la intersección de la inteligencia artificial y la robótica. La convergencia de gráficos (simulación 3D) con IA que la compañía ha promovido en años recientes se manifiesta plenamente en Cosmos + Omniverse. Competidores en el ámbito tecnológico también están explorando esta convergencia – por ejemplo, Google con iniciativas como RT-2 o incluso su modelo masivo PaLM-E de 2023 (un enorme modelo multimodal de 562.000M de parámetros pensado para robots) – sin embargo, la propuesta de valor de NVIDIA destaca por la integración vertical y por apoyarse en su ya dominante ecosistema de hardware GPU. Otras coberturas informativas (como artículos en medios internacionales TechCrunch o SiliconANGLE) han resaltado principalmente los hechos del anuncio, pero en Rincón de la Tecnología podemos apreciar el cuadro completo: NVIDIA no solo lanza un modelo puntual, sino una infraestructura unificada que abarca desde la generación de datos hasta la ejecución en producción. Esto aporta autoridad y confiabilidad a su solución, ya que cada componente se nutre de la experiencia de NVIDIA en gráficos, data centers y deep learning.
Desde la perspectiva de la industria, estas novedades podrían acelerar la adopción de robots inteligentes en sectores como la manufactura, logística, transporte y ciudades inteligentes. Un desarrollador o empresa interesada en, digamos, construir un robot para almacenes, ahora tiene acceso a blueprints completos: puede simular su almacén en Omniverse, generar datos con Cosmos Transfer, entrenar un modelo de alto nivel como Cosmos Reason que permita al robot entender órdenes complejas, y finalmente desplegarlo con confianza sabiendo que muchas pruebas ya se realizaron virtualmente. Todo con herramientas respaldadas por un mismo proveedor, reduciendo la complejidad de integrar piezas de distintas fuentes.
Por supuesto, quedan desafíos. La robótica del mundo real implica sensores ruidosos, condiciones impredecibles y consideraciones de seguridad. Modelos como Cosmos Reason deberán demostrar que sus razonamientos realmente mejoran el desempeño de robots físicos de manera consistente y segura. La comunidad seguramente pondrá a prueba estos modelos en escenarios variados (NVIDIA ha abierto Cosmos Reason, por lo que investigadores pueden evaluarlo independientemente). Además, la competencia no se quedará quieta: así como NVIDIA sorprende con Cosmos, otros actores podrían presentar modelos alternativos o colaboraciones abiertas que generen un ecosistema AI + robótica más diverso.
No obstante, con este anuncio NVIDIA envía un mensaje claro: apuesta fuerte por la IA embebida en el mundo físicocomo la próxima ola tecnológica. Ya no se trata solo de chatbots o generadores de imágenes en la nube, sino de agentes inteligentes que perciben, razonan y actúan en entornos reales – desde robots en fábricas hasta coches autónomos o cámaras de seguridad inteligentes. Y NVIDIA quiere ser el socio clave que provea los “cerebros” (modelos IA), los “simuladores” (mundos virtuales) y los “músculos computacionales” para hacer posible esa visión.
En conclusión, la introducción de Cosmos Reason, las librerías Omniverse mejoradas y la infraestructura Blackwell/DGX forman un trifecta poderosa que eleva el listón de lo que es posible en robótica e IA. Para la comunidad tecnológica hispanohablante, estas innovaciones abren oportunidades emocionantes: desde startups que puedan prototipar robots más inteligentes en menos tiempo, hasta investigadores que exploren nuevos algoritmos de razonamiento visual. Estaremos atentos a cómo evoluciona este ecosistema – pero por ahora, NVIDIA ha movido ficha mostrando experiencia, pericia y autoridad en un terreno sumamente competitivo, y nos deja un panorama donde los robots del futuro inmediato serán mucho más listos y capaces gracias a la IA.
Fuentes y Referencias
- NVIDIA Newsroom – “NVIDIA Opens Portals to World of Robotics With New Omniverse Libraries, Cosmos Physical AI Models and AI Computing Infrastructure” (Comunicado de prensa, 11 de agosto 2025) nvidianews.nvidia.comnvidianews.nvidia.com.
- NVIDIA Developer Blog – Tsung-Yi Lin et al., “Maximize Robotics Performance by Post-Training NVIDIA Cosmos Reason” (11 de agosto 2025) developer.nvidia.comdeveloper.nvidia.com.
- SiliconANGLE – Kyt Dotson, “Nvidia debuts next-gen agentic AI and reasoning robotic models at SIGGRAPH 2025” (11 de agosto 2025) siliconangle.comsiliconangle.com.
- Forbes España – Janakiram MSV, “El modelo de inteligencia artificial RT-2 de Google: un paso más hacia los robots capaces de aprender como humanos” (2 de agosto 2023) forbes.esforbes.es.