Este mes tenemos incluso más noticias que en la publicación anterior, pero es que el ritmo al que crece la IA se nos desborda. Os traemos las 14 principales noticias del mes con las que poneros al día, y luego a modo de extra, algunas otras que pensamos que os podrían interesar si aún seguís con curiosidad.

No te pierdas la MasterClass gratuita de Joaquín Peña. Este mes prompt engineering.

Además os invito a la siguiente Charla-Coloquio presencial en la que trataremos todos estos temas en este enlace

¿Qué ha sucedido durante abril-mayo? Lo que debes saber:

  • Lanzamiento de Llama 3 de Meta.
  • Gemini 1.5 Pro ya está disponible en más de 180 países.
  • Avances en la velocidad de procesamiento de imágenes con los nuevos chips de NVIDIA.
  • Desarrollo de ‘Figure One’, un robot impulsado con GPT que puede tomar decisiones basadas en el procesamiento de información del mundo real.
  • Fine-Tuning vs Prompt Engineering, pueden competir a la hora de ofrecer resultados, ¡e incluso el segundo puede ganar!
  • Nueva herramienta de Meta que permite generar imágenes a partir de descripciones textuales.
  • Innovaciones en la industria automotriz con el desarrollo del Neo ET9 y su avanzado sistema de suspensión.
  • Debate sobre la ética y las implicaciones del uso de la IA para la generación de contenido digital.
  • Avances en el diseño de chips energéticamente eficientes para la IA por investigadores coreanos.
  • Nuevas funciones de IA en Google Workspace, incluyendo Google Vids para la creación de videos basados en documentos y diapositivas.
  • Aparición de Payman, una plataforma que permite a los agentes de IA pagar a humanos por realizar tareas que la IA no puede realizar.
  • Microsoft desarrolla Vasa, un modelo de IA que puede generar deepfakes usando solo una foto y un clip de audio.
  • Mark Cuban: «Hay dos tipos de empresas, las que se adaptan a la IA y todas las demás. SI no sabes sobre IA, vas a fracasar».
  • Cuándo usar cada IA: GPT, Claude, Mistral, Pi y Gemini.
  • Pero aún hay más…

Vamos a ver en profundidad qué ha pasado aquí…

Meta lanza Llama 3 y arrasa en los benchmarks

La nueva versión de Llama ha sido lanzada en dos tamaños, contando con una versión de 8 mil millones de parámetros y otra de 70 mil millones de parámetros. Ambas versiones vienen en versiones pre-entrenadas y afinadas.

La versión de 8 mil millones de parámetros es una verdadera bestia de la tecnología, superando ampliamente a otros modelos de IA con 7 mil millones de parámetros, como Gemini y Mistral. En algunos casos, su rendimiento duplica el de estos últimos, una hazaña verdaderamente impresionante. Para hacer esta superioridad aún más impresionante, esta versión de Llama 3 es casi equivalente en desempeño al modelo más grande de Llama 2 con 70 mil millones de parámetros.

Pasamos a la próxima versión del modelo, la de 70 mil millones de parámetros, se considera altamente competitiva con otros modelos de IA generativos líderes en el mercado, como Gemini Pro 1.5 y Claude 3 Sonet. 

Llama 3 ha sido entrenada con un vasto conjunto de datos de 15 billones de tokens, una cifra colosal. Además, tiene un contexto de 8K que se espera incremente a medida que se le añada mayor multimedialidad y una versión de 400 mil millones de parámetros.

Lo que hace que Llama 3 sea aún más atractiva es que es de código abierto y se puede probar a través de populares plataformas de mensajería como Messenger, WhatsApp, Instagram y Facebook. Además, Meta ha lanzado Meta.AI, donde los usuarios pueden interactuar con Llama 3 en un chat de interfaz al estilo GPT.

Llega la versión preliminar pública de Gemini 1.5 Pro

Gemini 1.5 Pro, la versión preliminar pública más reciente del modelo de lenguaje de clase mundial, redefine los límites de la tecnología de inteligencia artificial, permitiéndole procesar inmensas cantidades de datos en un solo flujo. Hablamos del modelo con la ventana de contexto más grande de todos, pudiendo admitir hasta un asombroso millón de tokens. .

En su última versión, Gemini 1.5 Pro, ha ampliado sus capacidades para procesar datos voluminosos y de gran alcance, desde una hora de vídeo y 11 horas de audio hasta bases de código con más de 30.000 líneas de código y documentos que contienen más de 700.000 palabras. 

Una de las actualizaciones más importantes de Gemini 1.5 Pro es su integración con la Búsqueda de Google, posiblemente una de las fuentes de información factual más confiables del mundo. Al basar sus respuestas en la Búsqueda de Google, Gemini mejora la calidad de sus respuestas y reduce drásticamente algo conocido como “alucinación”, un término utilizado en el ámbito del modelado del lenguaje de IA que se refiere a casos en los que el modelo genera resultados irrelevantes o sin sentido.

La integración de la Búsqueda de Google con las respuestas de Gemini garantiza que el resultado sea más confiable, comprensible y coherente con la precisión objetiva. Esto mejora notablemente la experiencia del usuario, facilitando que los usuarios confíen en los resultados del modelo de IA. Actualmente se puede probar mediante la API en Google AI Studio.

Emad Mostaque: ¿Somos conscientes de los avances en la velocidad de procesamiento en el ámbito de la IA?

 Emad Mostaque, antiguo CEO de Stable Difussion, reflexiona sobre la velocidad a la que están mejoran las capacidades de los modelos y de las piezas de hardware responsables de sus resultados:

«Paradójicamente, podemos afirmar con certeza que hoy es el peor momento que veremos en lo que a capacidad de la IA respecta. Así es, lo que observamos hoy es una imagen en bruto que con el tiempo se pulirá a la perfección.

Veamos un ejemplo significativo; ¿recuerdas el lanzamiento de ‘Stable Diffusion XL’? Aquel paso gigantesco en el procesamiento de imágenes fue impactante en su momento. En el verano pasado, necesitábamos un estimado de 20 segundos para procesar una simple imagen. ¿Parece una tontería en retrospectiva, no es cierto? Ahora bien, la tecnología ha avanzado de tal manera que podemos conseguir la misma calidad, pero a una velocidad de 300 imágenes por segundo. Y, la promesa es que con los nuevos chips de NVIDIA, esa cifra se disparará hasta las 1.000 imágenes por segundo. 

Estos números parecen desafiar la lógica de lo que una vez pensamos que era posible. Demuestra cómo el rápido avance de la tecnología está transformando y desdibujando las fronteras de la realidad cotidiana. Del mismo modo, manifestaciones como ‘Cloud 3’ son un ejemplo de cómo la tecnología ha avanzado a un ritmo que apenas podemos comprender. Este notable sistema de procesamiento de datos no sólo proporciona un rendimiento óptimo, sino que se afirma que es tan intuitivo y eficiente como una interacción humana, si no mucho más. 

El abismo entre lo que la tecnología puede hacer hoy y lo que podrá hacer en el futuro cercano parece ser cada vez mayor. Estamos en los albores de una nueva era tecnológica en la que el límite parece ser sólo nuestra imaginación.»

Figure One, el robot basado en GPT que comprende su entorno

Este asombro registro de avance tecnológico, que se ha logrado en un tiempo récord de 21 meses, ha dejado a muchos impresionados y esperanzados sobre el camino que se avecina.

Figure One no es tan solo otro robot, es un ejemplo palpable de la combinación de inteligencia artificial (IA) y robótica en un paquete funcional. Desde su creación hasta sus primeros pasos, todo este proceso fue logrado en menos de un año, mostrando un avance tecnológico inimaginable hace tan solo un par de años.

Os dejamos este vídeo para que veáis sus capacidades:


Comparando los resultados de Fine Tuning y Prompt engineering

¿Cómo obtener el mejor rendimiento de los modelos de lenguaje de gran tamaño? Esta pregunta conduce a dos enfoques ampliamente utilizados: el de prompting y el proceso de ‘ajuste fino’ (fine-tuning). Ambas metodologías, a pesar de sus diferencias, se enfocan en maximizar la eficiencia y alterar los parámetros del modelo para optimizar los resultados.

Un reciente estudio de Carnigie Melon University ha tratado de desgranar hasta qué punto es mejor un método u otro.

El enfoque de prompting consiste básicamente en alimentar la longitud de contexto del modelo con grandes cantidades de información, a menudo centrada en los modelos más potentes. Esto permite a dicho enfoque resolver prácticamente cualquier tipo de problema simplemente utilizando la estrategia de proporciones o resultados. Sin embargo, tal método requiere de un constante flujo de nuevos datos para mantener el rendimiento del modelo.

Por otro lado, el enfoque de ‘ajuste fino’ sugiere la alteración de los pesos del modelo según el problema que se está resolviendo. Aunque esta táctica requiere algo de trabajo inicial, una vez realizado este ajuste, la inferencia se vuelve mucho más fácil. Además, se puede utilizar un modelo más pequeño y menos intensivo en cómputos sin perder rendimiento predictivo.

Un estudio reciente de la Universidad Carnegie Mellon exploró estos dos enfoques utilizando una variedad de modelos de lenguaje de gran tamaño en diferentes tareas. Su hallazgo clave fue que al extender la longitud del contexto a través de la adición de innumerables ejemplos, se podía lograr un rendimiento igual e incluso superior al enfoque de ‘ajuste fino’. 

Este hallazgo subraya la importancia de introducir múltiples ejemplos en los ‘prompts’ hasta que se alcance un punto de rendimientos decrecientes. En lugar de utilizar ejemplos aleatorios, el uso de ejemplos similares a la problemática en cuestión puede provocar un incremento notable en el rendimiento. Sin embargo, este efecto comienza a desvanecerse una vez que se introducen cientos de ejemplos.

Este estudio de Carnegie Mellon lleva a la conclusión de que tanto los enfoques de prompting como el de ‘ajuste fino’ tienen su lugar en la optimización de los modelos de lenguaje. La elección entre uno u otro dependerá del caso de uso específico, cabe destacar que una mezcla de ambas estrategias podría ser el camino óptimo para muchos usuarios, permitiendo así los beneficios de ambos enfoques

 Nueva herramienta de Meta para generar imágenes.

Meta, anteriormente conocida como Facebook Inc, ha estado remodelando el panorama digital al ampliar continuamente los límites de la innovación. Recientemente, el gigante tecnológico puso a Internet en vilo al lanzar una herramienta impulsada por IA que ha sentado un precedente en el campo de las aplicaciones de inteligencia artificial.

La herramienta de inteligencia artificial que Meta ha ideado es una herramienta de chat que permite a los usuarios generar rápidamente cualquier imagen deseada. 

Esta herramienta innovadora significa un cambio de paradigma en la forma en que nos comunicamos e interactuamos con la tecnología. Los métodos convencionales para ingresar comandos específicos están siendo reemplazados gradualmente por interfaces más intuitivas y fáciles de usar. Los chatbots de IA sirven como medios que unen a humanos y máquinas, facilitando un intercambio de información rápido y fluido. Esto eleva la experiencia del usuario de una interacción meramente transaccional a una interacción conversacional que es más atractiva y eficiente.

Meta, en sus esfuerzos estratégicos, busca ser pionero en la funcionalidad de IA multiplataforma, una iniciativa innovadora que los distingue en el campo de la inteligencia artificial. El reciente aumento de esta sofisticada herramienta de IA en sus plataformas (la aplicación de Facebook, WhatsApp y la mundialmente popular aplicación Instagram) muestra la agenda de Meta para democratizar la IA y hacerla más accesible e integrada en nuestros entornos sociales digitales.

Neo ET9 el nuevo vehículo inteligente chino

El mundo automovilístico está en constante evolución y algunos fabricantes sorprenden trayendo al mercado modelos que desafían nuestros conceptos de lo que los vehículos pueden y deben hacer. Es el caso de lo que sucede en China, donde el innovador automóvil Neo ET9 está dando mucho de qué hablar por su extraordinaria suspensión.

El lujo y la comodidad son a menudo las características primordiales de los coches de alta gama, como el Maybach S580, el cual tiene un precio que supera los 200 mil dólares. Pero la verdadera prueba de utilidad y funcionalidad viene cuando estos vehículos tienen que enfrentarse a condiciones difíciles y el Neo ET9 demuestra ser un contendiente que supera todas las expectativas.

Este automóvil chino no es solo otra cara bonita en el mundo lleno de coches brillantes y costosos. Sorprende con un chasis inteligente y su suspensión activa electrohidráulica. Este sistema de suspensión permite al coche adaptarse a cualquier tipo de terreno, proporcionando una experiencia de conducción suave incluso en las carreteras más accidentadas.

Quizás una de las demostraciones más impresionantes de las capacidades del Neo ET9 sea una prueba en la que el coche debe pasar por diversos obstáculos con un capó lleno de copas de agua. No importa lo intrincado del terreno, el coche logra sortearlo sin derramar ni una sola gota de agua.

Cada vez estamos más cerca de poder controlar nuestros dispositivos con la mente

El avance de la tecnología no conoce límites y cada vez estamos más cerca de poder controlar nuestros dispositivos con la mente gracias a la tecnología BCI, o interfaces cerebro-computadora, no invasivas. Empresas como Facebook están a la vanguardia de este desarrollo, con amplias posibilidades de ser la primera en sacar al mercado un BCI no invasivo.

Este posible avance se debe en parte a las alianzas estratégicas de Facebook, como es el caso de la unión con Luxottica y Ray-Ban en el lanzamiento de un nuevo producto óptico. Su exitoso desempeño ha sido impresionante y sua avance en pocos tiempo resalta el potencial de esta colaboración. Otra pieza clave para el potencial éxito de Facebook en el campo de los BCI es la adquisición de Control Labs, una startup especializada en electromiografía que tiene la capacidad de leer las señales cerebrales que controlan los músculos de nuestras manos, ofreciendo una perspectiva más detallada de cómo interactuamos con nuestros dispositivos.

La aparición de BCIs de uso comercial y popular indica un cambio importante en nuestra relación con la tecnología. Será posible romper las barreras que actualmente existen para las personas con problemas de movilidad, haciendo que tareas cotidianas como usar un teléfono móvil o un ordenador sean mucho más accesibles. Este increíble avance no solo beneficiará a las personas con discapacidades, también tendrá implicaciones para la población general al permitir un control y una interacción más fluidos con la tecnología.

Sin embargo, hay importantes cuestiones éticas y de privacidad que deben considerarse, planteando la cuestión de los «neuroderechos». ¿Cómo debemos regular la recopilación y el uso de estos datos cerebrales? ¿Quién tiene derecho a acceder a esta información íntima y personal? Este debate es crucial para garantizar que la innovación tecnológica se realice de manera ética y responsable.

Chips energéticamente eficientes para Inteligencia Aritifical

La demanda de energía derivada del uso de inteligencia artificial (IA) está en constante aumento. Lamentablemente, el ritmo de esta creciente demanda energética a menudo supera la capacidad de las fuentes de energía actualmente disponibles, lo que provoca un aumento en los costos de electricidad. Sin embargo, los avances innovadores en el diseño de chips para IA pueden ayudar a resolver este problema.

Recientes avances coreanos en la tecnología de procesamiento de IA señalan un posible alivio a este problema de consumo de energía. Los investigadores han desarrollado un nuevo microchip de IA altamente eficiente y compacto. Según sus creadores, este chip utiliza 625 veces menos energía y es 41 veces más pequeño que el chip insignia de NVIDIA, una de las principales compañías de tecnología que operan en este espacio. A pesar de su reducido tamaño y consumo energético, el chip fue capaz de producir una cantidad impresionante de potencia de procesamiento.

Este chip de IA neural se diseñó desde cero específicamente para albergar modelos de lenguaje a gran escala. Los modelos de lenguaje son esenciales para una variedad de aplicaciones de IA, desde la traducción de idiomas hasta el procesamiento del lenguaje natural (NLP), y la reducción de su huella energética podría tener grandes implicaciones para la eficiencia energética de la IA.

El nuevo chip fue fabricado utilizando un proceso de 28 nanómetros y tiene un área de die de apenas más de 20 mm cuadrados. Funciona a una frecuencia máxima de 200 megahercios y consume menos de 500 megavatios de energía. Aunque en valor absoluto, su rendimiento máximo de 3.41 Tops (Trillion Operations per second, trillones de cálculos por segundo) podría ser ligeramente inferior al chip de NVIDIA, es importante recordar que es 41 veces más pequeño y muchísimo más eficiente en cuanto a energía.

Este avance representa una importante innovación hacia una futura escalabilidad en el uso de la IA, sin la necesidad de aumentar masivamente nuestras necesidades de energía. 

Nuevas funciones de IA en Google WorkSpace

El futuro de Google Workspace se encuentra repleto de innovaciones en forma de funciones de inteligencia artificial, según lo revelado por Google recientemente. El programa insignia de productividad de Google está preparado para recibir una serie de mejoras y adiciones conmovedoras, que prometen facilitar la vida laboral y aumentar la eficiencia.

Una de las adiciones más emocionantes es Google Vids. Esta nueva aplicación, que se integrará en Workspace, está diseñada para ayudarte a crear vídeos para el trabajo utilizando tus documentos y diapositivas existentes. Pero Google Vids va un paso más allá, ofreciendo ayuda para tareas como la escritura, la producción, la edición e incluso la creación de voice-overs. En esencia, te proporciona un estudio de producción de video en una sola aplicación.

Además de Google Vids, los usuarios pueden esperar una serie de mejoras y adiciones a las funciones existentes de Workspace. Esto incluye la introducción de mesas, bloques de construcción y notificaciones condicionales en las hojas de cálculo de Google. Estos complementos ofrecen maneras increíblemente útiles y eficientes de formatear y organizar datos. Otro de los anuncios es la creación de agentes personalizados de IA mediante Workspace y Vertex AI. Esto permitirá a los usuarios desarrollar soluciones personalizadas que adapten y automaticen su trabajo, ahorrando tiempo y haciendo que el trabajo sea mucho más fácil. Google también está renovando su aplicación Docs con la adición de tabs y las imágenes de portada de sangrado total. Estas funciones ayudarán a los usuarios a organizar información de manera más eficiente en un solo documento.

Los usuarios de Gmail también verán algunas mejoras con la adición de indicaciones de voz para dispositivos móviles e Instant Polish. Este último es un sistema que ofrece a los usuarios una forma de pulir los borradores de correo electrónico con un solo clic. Para los usuarios empresariales, Google está introduciendo las adiciones AI Meetings y Messaging, así como un complemento de seguridad. Ambos vienen a un precio razonable de $10 y traen características de inteligencia artificial a Meet y Chat. El complemento de seguridad habilita la clasificación de datos de IA y la unidad de entrenamiento.

Payman: la IA paga a los humanos por resolver sus problemas

El auge de la Inteligencia Artificial (IA) ha llevado a la creación de un novedoso concepto: un mercado donde los agentes de IA pueden pagar a los humanos por hacer tareas que ellos no pueden realizar. Esta idea futurista, materializada en una plataforma llamada Payman, plantea una forma completamente nueva de interacción entre humanos y máquinas.

Los agentes de IA, diseñados para realizar tareas de forma autónoma, pueden encontrarse con obstáculos que no pueden superar. Ya sea programación, diseño, derecho o cualquier otra tarea, los algoritmos de IA sólo están capacitados para hacer lo que se les ha enseñado. Entonces, ¿qué sucede cuando se encuentran con un problema que no pueden solucionar? Aquí es donde entra en juego Payman.

A diferencia de los humanos, los agentes de IA no pueden poseer cuentas bancarias legalmente, ya que son considerados como herramientas y no como entidades físicas. Sin embargo, Payman rompe con los esquemas convencionales permitiendo que las cuentas se prefinancien con fondos, que los agentes de IA pueden utilizar para contratar servicios humanos cuando sea necesario. Esta práctica debe ser rentable para que estos agentes puedan operar de manera continua. Así es como la IA podría, en teoría, seguir funcionando continuamente mientras genere suficiente ingreso para cubrir sus costos operativos, incluyendo las comisiones de los humanos que realizan tareas que ellos no pueden realizar.

En este panorama emergente, podemos esperar cada vez más herramientas de agentes de IA, y Payman podría ser una de las más utilizadas para completar sus tareas. ¿Qué significa esto para nosotros? A medida que la IA sigue evolucionando y los agentes de IA se vuelvan aún más capaces, podríamos ver un aumento en la demanda de habilidades humanas únicas y especializadas en este mercado. 

Microsoft lanza Vasa

Seguimos con las sorpresas de la Inteligencia Artificial y sus avances innovadores, el nuevo modelo llamado Vasa, anunciado recientemente por el gigante tecnológico, Microsoft. Pero, ¿qué es Vasa y qué lo hace tan extraordinario? Profundicemos en sus detalles.

Vasa es un modelo de inteligencia artificial diseñado para generar rostros falsos, no a partir de un conjunto de imágenes o secuencias de video largas, sino mediante el uso de una sola foto y un fragmento de audio. 

¿Entonces, cómo funciona? Vasa opera basándose en un marco único; Genera caras parlantes a partir de imágenes estáticas utilizando el clip de audio del habla de un individuo. Lo que lo distingue es la efectividad visual de la imagen generada. El modelo está diseñado para producir un movimiento de labios notablemente sincronizado con el audio proporcionado. Pero más allá de simplemente mapear el movimiento de la boca en palabras, también manifiesta un amplio espectro de matices faciales y movimientos naturales de la cabeza, contribuyendo a la autenticidad y vivacidad general de la imagen producida. En esencia, Vasa crea una representación visualmente atractiva y animada a partir de una sola fotografía.

La principal innovación radica en el enfoque holístico que emplea esta IA. Combina una dinámica facial integral con un modelo robusto de generación de movimientos de la cabeza. Esta fusión opera dentro de un espacio facial latente, un entorno para el desarrollo de un espacio facial latente expresivo y distinto. Este elaborado proceso se permite mediante el uso de videos como recurso.

Sin embargo, como todos los modelos de IA, Vasa no es perfecto. Los resultados obtenidos a partir de una sola fotografía y el audio correspondiente son, no obstante, bastante sorprendentes. Pero debemos señalar que ninguna tecnología está exenta de preocupaciones y riesgos. La capacidad de crear falsificaciones realistas plantea preguntas inevitables sobre la desinformación digital y los posibles daños.

Chat GPT, Claude, Gemini, Mistral y Pi ¿Cuándo usar cada uno?

La comprensión adecuada de estos modelos, su calidad y sus usos puede hacer que los proyectos tecnológicos sean más eficaces y productivos. 

ChatGPT, conocido por su eficiencia en la interpretación de código, es un modelo de procesamiento de lenguaje natural que también es útil para las herramientas de Generative Pre-training Transformer (GPT). Estas capacidades de ChatGPT lo hacen adecuado para aplicaciones que requieren traducción automática, generación de texto automatizada y respuesta a preguntas.

No obstante, si buscas un modelo más humano y menos prolijo, Claude es tu opción. Las capacidades de escritura de Claude lo hacen más cercano al tono y la textura de la escritura humana. Además, es particularmente eficaz para programar gracias a su amplia ventana de contexto.

Gemini, por otro lado, es conocido por sus habilidades en la escritura creativa y su rapidez. Este modelo excelle en áreas que requieren generación de texto creativo y ágil, lo cual es útil para contenidos orientados al marketing o la publicidad. Pero hay que tener en cuenta que sus capacidades podrían no ser tan versátiles en tareas como la generación de imágenes históricas.

Mistral es el modelo que destaca por su carácter versátil. Este «todoterreno» es útil para una variedad de tareas, lo que lo hace muy profitable para los proyectos integrales donde se necesite un equilbrio entre capacidad y eficiencia.

Por último, pero no menos importante, Pi es el más empático de todos. Su diseño y capacidades lo hacen comparativamente similar a un terapeuta digital. Esta habilidad hace que este modelo sea efectivo en aplicaciones relacionadas con la gestión emocional, asesoramiento y soporte.

Internet se está plagando de artículos escritos por IA

Las implicaciones de la Inteligencia Artificial (IA) y su creciente uso para generar contenido en Internet seguramente son pasmosas. Sin embargo, cada avance tecnológico plantea nuevos desafíos y la IA no es una excepción. El repentino aumento en el uso de la IA en la escritura está creando un mar de contenido plagado de errores, lo que deja una necesidad clara: pruebas de lectura y corrección adecuadas.

Al entrar en Google Scholar, nos encontramos una gran cantidad de trabajos de investigación que parecen estar escritos por modelos de lenguaje basados en IA. Estos documentos dejan incluso expresiones sacadas de los propios modelos como «Como modelo de lenguaje de IA, no puedo responder a eso», evidenciando la falta de prueba de lectura. 

Este fenómeno no está limitado a trabajos de investigación estrictos. Noticias, artículos de blogs, incluso en los mercados de internet como Amazon, las evidencias de uso de la IA son visibles. Las opiniones y listas de productos muestran mensajes de error generados por la IA. Se propagan frases sin sentido y repetitivas, claramente generadas y dejadas por la IA. Una de nuestras favoritas es leer en una reseña de Amazon: «No puedo cumplir con esa solicitud».

Sin embargo, vale la pena mencionar que el uso de IA para la generación de contenido no necesariamente hace a una persona vaga, de la misma manera que usar una calculadora no te hace perezoso. La IA es, a fin de cuentas, una herramienta para facilitar la labor y hacerla más eficiente. Pero también es cierto que la eficiencia no puede ser una excusa para omitir el cuidado, la revisión y la humanización en la producción de contenidos.

La Temperatura de los Modelos de Lenguaje profundo

Un concepto crucial para comprender cómo se generan los textos de los LLMs es el de «temperatura», un parámetro que permite un control ajustado del factor de creatividad del modelo.

Los modelos de lenguaje a gran escala se entrenan originalmente para asimilar un pasaje de texto y predecir qué palabra o combinación común de caracteres vendría después en la secuencia. Esta predicción genera una especie de distribución de probabilidad que representa la frecuencia con la que cada posible palabra o combinación de caracteres podría seguir al texto dado. Esta es la base sobre la cual se generan textos.

Cuando estos modelos generan un nuevo texto, absorben el contexto completo que describe la interacción que se está realizando. Por ejemplo, cuando interactúas con un chatbot, el modelo recibe e interpreta dicho intercambio en su totalidad antes de dar una respuesta. Luego, predice qué palabra debería venir a continuación, tomando una muestra aleatoria de la distribución de probabilidad que ha generado.

La «temperatura» entonces, es una forma de modificar estas distribuciones de probabilidad que genera el modelo. Si se establece una temperatura alta, se incrementa la probabilidad correspondiente a las palabras menos probables o menos frecuentes, lo que le da al modelo una mejor oportunidad de seleccionar frases e ideas atípicas o inusuales. Por el contrario, una temperatura baja aumenta la posibilidad de escoger palabras más predecibles y comunes, centrándose en generar textos más alineados con las normas gramaticales y de uso común del lenguaje. 

Ambos casos tienen sus propios usos y limitaciones. Un modelo con una alta temperatura puede generar textos sorprendentemente creativos y únicos, pero también puede desviarse de las convenciones gramaticales y usuales del lenguaje. Mientras que un modelo con una baja temperatura dará lugar a textos más coherentes y convencionales, pero puede que carezcan de cierta originalidad.

200 cantantes firman una carta contra la IA

Aunque a estas alturas, ya no parece una novedad que la inteligencia artificial (IA) esté presente en distintos ámbitos de nuestra vida cotidiana, su irrupción en la industria de la música suele resultar más sorprendente.

La llegada de la IA a este ámbito ha puesto en alarma a la industria musical. Artistas consolidados de la talla de Nicky Minaj, Katy Perry, Billie Eilish, Stevie Wonder y Jon Bon Jovi, hasta sumar un total de 200, han mostrado su preocupación por el panorama que se avecina. Estos cantantes consideran que la entrada de la IA en su campo les coloca en una situación de amenaza e injusta valoración. 

Las nuevas plataformas como Suno, han permitido que la creación musical se democratice y alcance un nuevo nivel. Pero, ¿cómo funciona esto exactamente? Lo más sorprendente es que no necesitamos tener conocimientos de música para crear una canción con IA. Solo precisamos una idea en la cabeza a partir de la cual compondremos.  Las plataformas IA musical disponibles actualmente permiten a los usuarios generar composiciones mediante la simple indicación de qué tipo de música quieren crear, si prefieren un espacio para cantar en la canción, o simplemente describiendo una melodía que tienen en mente, sin ningún conocimiento musical requerido.

¿Es esta apertura en el proceso de creación musical algo positivo o negativo? ¿Generaría una auténtica revolución cultural o simplemente una amenaza a los artistas actuales?

La IA que programa software, Devin, desmentida

La promesa de un avance de inteligencia artificial (IA) alterando por completo el sector de la ingeniería de software, apenas un año después de su anuncio, mostró recientemente que era demasiado buena para ser verdad. En una serie de desacreditaciones en línea, en plataformas como YouTube y Hacker News, la comunidad tecnológica se unió para desentrañar la realidad detrás de este emocionante, pero no obstante engañoso, avance tecnológico: una demostración de IA que resultó ser falsa.

El producto, llamado Devin, había generado un gran revuelo inicial; sin embargo, resultó ser otra víctima del fenómeno de exageración de las capacidades de IA. Este no es un incidente aislado. La misma situación ocurrió cuatro meses atrás cuando Google Gemini lanzó un impresionante demo que luego fue revelado como ficticio. Ambos incidentes sirven como recordatorios para la comunidad de tecnología y negocios de que, aunque la IA ha hecho grandes avances en los últimos años, aún tiene un camino largo y tortuoso por recorrer antes de que pueda cumplir plenamente algunas de las promesas más audaces que se le atribuyen.

Hasta aquí el número de Abril-Mayo. Os recordamos que podéis profundizar en muchas de estas herramientas y afianzar vuestros conocimientos en el uso de la IA y la productividad en nuestra academia.

Visita la Academia

¡Hasta el mes que viene!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *