El chatbot de Grok de Xai obtiene inteligencia visual, abriendo la nueva era de la IA multimodal


Que saber

  • El chatbot de Grok de XAI ahora tiene habilidades avanzadas de procesamiento visual, lo que le permite analizar imágenes y datos visuales.
  • Los usuarios pueden cargar fotos, diagramas y capturas de pantalla para su interpretación, ampliando sus aplicaciones prácticas.
  • Grok combina análisis visual con datos de tiempo real, mejorando tareas como el análisis de noticias e interpretación de las redes sociales.
  • Esta actualización marca un paso significativo para la IA multimodal, lo que hace que el cereal sea más universal y consciente del contexto.

XII ha publicado una actualización importante de su chat de Grok, presentando oportunidades de procesamiento visual que permiten a la IA «ver» e interpretar el mundo que lo rodea. Esta mejora significa que ahora puede cargar imágenes, como documentos, diagramas, capturas de pantalla o fotos cotidianas, y Grok analizará y explicará el contenido visual.

ChatBot puede identificar objetos, interpretar datos de diagramas e incluso convertir información visual en un código ejecutable, lo que lo convierte en una herramienta práctica para una amplia gama de tareas.

Presentación de Grok Vision, audio multilingüe y búsqueda de tiempo real en modo de voz. Disponible ahora.

Horror hubla espanyol
Gorok Parle Frances
Grock Turkche Konushev
グロクは日本語を話す
ग्रोक हिंदी बोलता है pic.twitter.com/lcasyty2n5

– Abby Amir (@ebbyamir) 22 de abril de 2025

Anteriormente, XII declaró Grok-1.5 Vision, pero las funciones visuales no estaban disponibles para el público. Con esta actualización, la funcionalidad visual del Gorka ahora está oficialmente en línea.

Las nuevas oportunidades no se limitan al análisis estático; Grok puede combinar la entrada visual con datos de tiempo real de Internet, incluidas las redes sociales, como X. Por ejemplo, si descarga la imagen de noticias, Grok puede proporcionar un análisis de fondo e interpretar eventos, refiriéndose a la información actual.

Una colina puede ver lo que ves – en vivo

El régimen de voz del ataúd viene con acceso a la cámara, lo que permite a los usuarios indicar su teléfono a cualquier cosa y preguntar: «¿Qué estoy mirando?»

La función de visión en iOS permite que el chatbot analice objetos reales, texto y entorno a través de su … https://t.co/cmtinp8yp6 pic.twitter.com/n1b6psyzoi

– Mario Navfal (@MarionAwfal) 20 de abril de 2025

La inteligencia visual de Gorka está equipada con modelos avanzados que exceden la comprensión espacial y el razonamiento visual. En pruebas como RealWorldqa, Grok demuestra una ventaja principal, lo que refleja su capacidad para realizar tareas visuales complejas.

Junto con el procesamiento visual, la renovación representa oportunidades de audio multilingües y búsqueda de tiempo real en modo de voz, lo que amplía aún más la utilidad de utilidad. Estas funciones están actualmente disponibles en la aplicación iOS Grok, así como soporte adicional para los usuarios de Android, que se están suscribiendo al nivel de supergrok.

Con estos logros, Grok se convierte en un asistente más universal y contextual que puede ayudarlo a interpretar el mundo visualmente y el texto. Esta actualización marca un hito significativo para la comunidad XII y AI más amplia, ya que empuja los límites de lo que los agentes de conversación pueden lograr.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)
Compártelo!

Deja un comentario