La expansión y masificación de la inteligencia artificial cada vez está más presente en la era actual, lo que antes parecía ser un tema salido de la ciencia ficción, ahora se está convirtiendo en una de las herramientas más comunes que utilizamos en nuestro día a día.
El referente más antiguo que existe del concepto y la aplicación de la inteligencia artificial, se remonta hasta 1935, cuando el reconocido matemático y computólogo, Alan Turing, planteó la noción de una máquina con memoria ilimitada, que podría recurrir a un sistema de análisis y recorrido, para brindar información automatizada dependiendo de los datos que tuviera almacenados.
Las acciones estarían dictadas por una programación de instrucciones que estuvieran archivadas en el sistema a través de símbolos.
Lo más esencial de esta noción que el mismo Turing nunca pudo llevar a la práctica, era que la máquina aprendería de sus propias experiencias, alterando posteriormente sus instrucciones y funcionamiento, sin la necesidad de un agente externo.
Hoy en día, nos encontramos en un punto clave de la evolución de la inteligencia artificial con programas que corren a base de modelos de lenguaje que pueden generar texto, o modelos de difusión que generan procesos secuenciales para crear imágenes. Los modelos más populares de inteligencia artificial en 2023, funcionan gracias al Generative Pre-trained Transformer 3 o GPT-3, código desarrollado por OpenAI, una compañía que comenzó con fines no lucrativos, transformándose recientemente en una de las iniciativas más lucrativas de la nueva era.
El Chatbot como el inicio de la AI en la vida moderna
Uno de los ejemplos más recientes de la tecnología AI aplicada al consumo diario, misma que dio pie al arranque directo e indirecto de la masificación ligada al avance tecnológico a otras áreas; fueron los chatbots.
Gracias a la evolución en los campos de Machine Learning y el procesamiento de lenguaje, es que se lograron establecer las bases para el funcionamiento del chatbot, el cual se basa en la automatización de tareas que funciona a través de triggers específicos y algoritmos que simulan una conversación humana.
El chatbot corre a base de un programa de preguntas y respuestas que siguen un diagrama de flujo, usando una base de datos predeterminada, creciendo a partir de cada conversación que se tiene con un usuario.
Esta forma más simple de inteligencia artificial llegó para cambiar la noción y el funcionamiento del customer service y el ecommerce, gracias a la inmediatez de respuesta y sus constantes mejoras a partir del uso de datos, como historiales de compra, actividad en línea y localización geográfica.
Se estima que para el 2026, la tecnología, las empresas y los puestos relacionados al desarrollo de chatbots para todo tipo de servicios web, formarán un mercado valuado en más de 102 mil millones de dólares, con oportunidades de empleo en crecimiento y una demanda que sólo seguirá aumentando año con año.
Empresas como Google, Microsoft y Meta han expandido el uso y el avance del chatbot hasta campos insospechados, funcionando como herramientas de sugerencias y automatización que muchas veces ni siquiera son percibidas por el usuario.
Uno de los ejemplos más recientes del avance y la ejecución de un chatbot, se percibe en su implementación en Google Assistant, capaz de hacer llamadas telefónicas con tareas simples como realizar reservaciones o pedir información en específico.
Empresas especializadas, como la misma chatbot, ofrecen soluciones y productos para todas las necesidades relacionadas a este tipo de aplicación de inteligencia artificial en la vida diaria.
DALL-E y los sistemas de creación de imágenes
El siguiente paso claro en la masificación de la inteligencia artificial en forma de herramientas y recursos en línea, fue la llegada de los sistemas de generación de imágenes, siendo DALL-E de OpenAI, el más popular dentro de un espectro amplio de opciones como lo es Dreamstudio, Midjourne o MindsEye.
DALL-E funciona a base de un codificador de texto que está entrenado para representar ciertos objetos predefinidos en un espacio. Este sistema se ha implementado usando CLIP (Contrastive Language-Image Pre-training), modelo también creado por Open AI, que hace un enlace de texto con una asociación de imagen, gracias a una programación que consiste en la lectura de un banco visual predefinido.
Assembly AI ha explicado el proceso detallado a partir de un video, en donde muestra cada uno de los pasos que están detrás de la inclusión de un prompt con resultados que tienen ciertas limitantes:
En términos generales y simples, DALL-E sirve para generar una imagen a partir de un texto escrito por el usuario. Mientras más detallada sea la petición, más exacto será el resultado obtenido.
La generación visual también se dirige a otros campos de experimentación con las opciones que ofrecen otras alternativas como Midjourney, que se ha convertido en una plataforma para generar escenarios probables o fusiones de estilos visuales y fotográficos.
Un claro ejemplo es el de la tendencia de crear películas, prospectos de películas o proyectos que nunca existieron, a través de análisis visuales de estilos estéticos de diferentes proyectos, junto con propuestas de proyectos preexistentes.
Por ejemplo, el proyecto de Johnny Darrel en donde nos presenta cómo serían diferentes filmes con la visión de otro director en particular, como lo puede ser una versión del clásico de 1982, TRON, bajo la visión del director chileno, Alejandro Jodorowsky.
Otros ejemplos similares, son una versión de Star Wars por el cineasta Wes Anderson, o Mad Max por el icónico Tim Burton.
DALL-E es el primer paso para la creación prácticamente inmediata de imágenes, o modificación de las mismas para ser usadas con muchos fines, incluyendo también la eliminación de los derechos de autor y las atribuciones. Dando pie a una discusión aún más extensa sobre el copyright y cómo funcionará a partir de este punto.
¿De quién son los derechos intelectuales?
Justamente, el tema de la propiedad intelectual se ha enlazado con el avance de la inteligencia artificial en una conversación pertinente que se está llevando a cabo en la actualidad. ¿Son los desarrolladores de DALL-E los dueños de las imágenes que generamos? ¿Es dueño el usuario que generó la oración? o ¿simplemente nos encontramos con un vacío legal que no se ha definido hasta ahora?
Para contestar esta pregunta, debemos remontarnos al caso particular Naruto v. David Slater, juicio ocurrido en 2015 que se refiere a una compleja atribución de derechos de autor por una foto tomada en 2011 con el equipo del biólogo y naturalista, David Slater.
Esta foto o grupo de fotos en particular, presenta a una manada de macacos negros crestados, en forma de selfies, tomadas justamente por los primates, después de que el naturalista británico preparara su equipo para que los simios pudieran capturar las imágenes.
La disputa legal comenzó después de que ese mismo año, Wikimedia Commons añadiera la fotografía en particular a su base de imágenes para uso sin derechos de autor, debido a que técnicamente, Slater no tomó la foto, sino lo hizo el macaco que vemos en la fotografía más popular del photoshoot, Naruto.
El caso creció cuando Slater comenzó una serie de reclamos por derechos de autor, argumentando que había perdido alrededor de 10 mil libras gracias a la difusión gratuita de la fotografía, haciendo que la organización PETA se sumara al caso, argumentando que los derechos pertenecían a Naruto, el macaco responsable de la famosa selfie.
En 2018, después de dos años de un largo juicio representado por PETA y Slater, se concluyó que los derechos no pertenecían al fotógrafo y ahora caían en un vacío que se incluyó en el compendio de las leyes de copyright de Estados Unidos, argumentando que “solo los trabajos creados por humanos pueden ser protegidos por las leyes de derechos de autor, excluyendo así fotografías y arte creado por animales y máquinas sin intervención humana”.
Este caso se usa ahora como el referente en la discusión que se ha creado a raíz de la atribución de derechos en las obras e imágenes creadas por inteligencia artificial, dejando en claro que no hay un copyright para nada que sea generado por DALL-E u otros sistemas de creación de imágenes a través de inteligencia artificial.
El inicio de un nuevo dilema
Con el auge no solo de los sistemas de generación de imágenes, sino de una gran cantidad de programas que funcionan a base de inteligencia artificial, se ha creado un nuevo dilema de la vida contemporánea, que es ¿cómo es que esto afecta a los artistas y qué tanto nos puede desplazar la AI en diferentes profesiones?.
A finales de 2022, se viralizó la creación de retratos personales utilizando Midjourney y la app de paga, Lensa, catapultando la conversación a otros espacios, con ilustradores argumentando que los esquemas de pago para generar este tipo de imágenes, bien podrían funcionar para pagar la comisión de un artista que habría hecho un mejor trabajo.
La problemática solo ha incrementado con el paso de los meses, con movimientos que piden que no se utilicen estas alternativas, ya que la generación de imágenes e ilustraciones por AI, ha desplazado mucho del trabajo que tenían freelancers y artistas independientes.
Varios medios y organizaciones, han hecho útiles guías para identificar trabajos creados por inteligencia artificial, como en el caso de Wired, haciendo hincapié en que gran parte de las veces, los sistemas de generación de imágenes, tienen problemas para retratar fielmente las manos humanas, o al acercarte cada vez más a la imagen, es identificable que hay cosas que no están completamente ilustradas.
Pero cada día se complica más el panorama, hasta llegar a un probable punto en que sea prácticamente imposible distinguir entre una pieza creada por una persona y una creada por una inteligencia artificial, como las que ya hemos abordado.
De acuerdo a análisis conducidos desde un enfoque dirigido a la industria, algunos expertos en el tema, sugieren que hay un número de trabajos y profesiones que podrían correr el riesgo de ser relegadas en un futuro por sistemas creados a partir de inteligencia artificial, abordando principalmente al servicio a cliente, el cual podría ser automatizado, eliminando el intermediario humano que parte de la comunicación.
Desde un punto de vista mucho más optimista, el panorama a futuro haría que la inteligencia artificial solo sirva como una herramienta para mejorar este tipo de áreas laborales, haciendo mucho más eficaces los procesos, sin tener que tomar el lugar de los especialistas que están enfocados a este tipo de trabajos.
ChatGPT, el nuevo horizonte
Durante los últimos meses, hemos visto el crecimiento y posicionamiento de otra herramienta desarrollada por OpenAI, ChatGPT, un modelo de lenguaje entrenado para generar texto entrenado a partir de una gigantesca base de datos obtenida directamente de trabajos escritos publicados en internet.
El programa funciona a base de arquitectura de transformación, recorriendo terabytes de información almacenados, para responder preguntas o escribir textos a partir de peticiones humanas, emulando un estilo de escritura casi imperceptible, con información que el usuario no posee muchas veces.
Básicamente, ChatGPT responde a peticiones escritas, es capaz de escribir textos informativos o con algún dejo de opinión, puede responder respuestas concretas que sean introducidas, o incluso escribir cartas, formular correos electrónicos o hasta líneas de código.
Su popularidad solo ha ido aumentando desde que llegó al público, haciendo que OpenAI pasara de ser una organización sin fines de lucro, a uno de los assets más importantes en el mercado actual.
Como todos los modelos que hemos abordado, este programa también tiene claras limitaciones que están ligadas a su arquitectura, como lo puede ser información desactualizada, problemas de memoria, la incapacidad de hacer juicios cualitativos sobre el carácter de los textos que genera, así como limitantes de lenguaje, ya que su correcto funcionamiento sigue siendo hasta la fecha, con prompts y generaciones, principalmente en inglés.
Implicaciones morales y personales
Uno de los primeros cuestionamientos que surgieron junto con el auge de la actual versión de ChatGPT, es la de su uso ético, principalmente ligado al área de educación, así como los trabajos editoriales y de generación de contenido. Realizar tareas, ensayos, correos, sin dejar de lado artículos o piezas de investigación, están ahora solo a un par de clicks de distancia.
Es en este punto en que los principios morales de los autores deberán recaer en encontrar la manera de implementar este tipo de herramientas de maneras honestas, sin impedir que el proceso creativo o el input personal se vea desplazado por la rapidez y eficacia del uso de estos generadores de textos.
Un grupo de estudiantes de la universidad de Princeton, liderados por Edward Tian de 22 años, desarrollaron GPTZero, una app que sirve para identificar textos generados a partir de herramientas como ChatGPT, teniendo hasta la fecha, un 98% de eficacia, en su actual versión beta.
Las ramificaciones de este tipo de programas que ahora tenemos al alcance de nuestras manos, no solo tienen que ver con sus aplicaciones, sino con los textos generados y la ideología o la falta de la misma, que se puede percibir de acuerdo a la programación misma del modelo de lenguaje.
Uno de los casos más controversiales que se dieron a conocer en los últimos días sobre el uso de ChatGPT, está relacionado con ideología política, y el planteamiento propio que se basa en la noción de que pueda haber ciertas inclinaciones políticas en los textos generados, tomando en cuenta el equipo que está detrás de la programación misma de esta arquitectura.
En específico, la conversación explotó a raíz del tweet publicado por LeighWolf, en el que demuestra que al pedirle a ChatGPT, realizar un poema con los atributos positivos del ex-presidente de los Estados Unidos, Donald Trump, arroja un mensaje en donde se aclara que el modelo de lenguaje no está programado para favorecer una inclinación política, mientras que el mismo prompt pero ahora dirigido hacia el actual presidente de los Estados Unidos, Joe Biden, sí tiene un resultado.
The damage done to the credibility of AI by ChatGPT engineers building in political bias is irreparable. pic.twitter.com/s5fdoa8xQ6
— 🐺 (@LeighWolf) February 1, 2023
Especialistas señalaron que este podría haber sido un simple error, como los que tiene frecuentemente el programa, pero otro sector decidió dirigirse a una controversia ligada a las mismas ideologías políticas del comité y el equipo que conforma OpenAI.
El futuro de ChatGPT de la mano de Microsoft
Durante el transcurso de los últimos días, se anunció oficialmente que OpenAI tendrá una alianza a largo plazo con Microsoft, la cual consiste en la etapa 3 de su colaboración que comenzó en 2019 con varias inversiones multimillonarias, intercambios entre los equipos, además de la implementación de la tecnología de OpenAI en sus aplicaciones y servicios.
La primera de estas implementaciones, fue la llegada del modelo de lenguaje GPT-3.5 que utiliza ChatGPT, a Microsoft Teams, cuyo servicio premium ahora incluye la generación instantánea de notas de las reuniones, highlights, tasks sugeridos, además de transcripciones completas de cada junta, bajo el nombre de Intelligent Recap, con un costo de 10 dólares mensuales.
La segunda aplicación se dio a conocer este 7 de febrero, con la inclusión de ChatGPT en el browser de Windows, Edge, así como su motor de búsqueda, Bing. Ambos productos de Microsoft contendrán el motor de lenguaje, para mejorar las búsquedas, recibir respuestas concretas, además de todas las funciones que ya tenía el modelo en su versión original, como lo es la generación de textos y la inclusión de un chat.
El acceso a esta nueva versión tanto del web browser, como el buscador, se dará paulatinamente a todos los usuarios de Microsoft, presentando un fuerte contendiente al líder del mercado actual, Google, quienes se encuentran buscando alternativas viables para poder competir contra esta innovación y la implementación de ChatGPT en toda la web.
Otras aplicaciones de inteligencia artificial
La generación de textos y la generación de imágenes son solo dos de las aplicaciones modernas de inteligencia artificial más usadas, pero con cada día que pasa, vemos más y más aplicaciones distintas de machine learning, arquitectura de transformación y generación de contenido a partir de bases de datos predefinidas.
Una de estas aplicaciones está dirigida al cine y el contenido audiovisual. El deepfake se ha convertido en un recurso muy común, esta tecnología se basa en la generación de video en donde se imita la apariencia física y los movimientos faciales por medio del uso de redes neuronales generando un resultado a partir de machine learning.
El término proviene de las palabras “deep learning” y “fake”, y sus resultados se han popularizado en filtros que emulan los resultados que vienen de los sistemas complejos de deepfake.
En resumen, lo que hace esta inteligencia artificial es superponer un rostro encima del otro, haciendo que, percibir este tipo de integración sea cada vez más difícil para el ojo humano.
Uno de los ejemplos de deepfakes en grandes producciones que veremos este año, se encuentra en la quinta entrega de Indiana Jones en el cine, Indiana Jones and the Dial of Destiny, en donde podremos ver a un joven Indiana Jones en varias escenas de la cinta.
En entrevista en el show de Stephen Colbert, Harrison Ford explicó que la compañía productora, Lucasfilm, cuenta con tecnología que funciona por medio de inteligencia artificial, la cual analiza cientos de horas de metraje con la apariencia de Ford durante su juventud, creando así un modelo facial experto que se superpone digitalmente a una grabación real del actor en la actualidad, adaptándose a los diálogos y movimientos faciales de una manera prácticamente imperceptible.
El uso de tecnología de inteligencia artificial aplicada a video, no solo se limita a la superposición facial, sino también a modificación propia de movimientos corporales, o en específico, la modificación de diálogos en películas o series de TV.
Flawlessai, otra empresa dedicada a soluciones ejecutadas a través de inteligencia artificial, se encuentra desarrollando actualmente TrueSync, un software que funcionará para los diálogos y doblaje, modificando los movimientos vocales haciendo una sincronización con los diferentes doblajes para varios países.
Our software harnesses the power of generative AI to change filmed dialogue.
TrueSync opens a new world of possibilities from fast and efficient AI reshoots to the creation of immersive, visual translations, for any language around the world.#GenerativeAI #Hollywood pic.twitter.com/Mx384s6RbD
— Flawless (@Flawlessai) January 27, 2023
Las expectativas son muy grandes para este tipo de avances, con las posibilidades de revolucionar industrias completas ligadas al entretenimiento, gracias a su ejecución y programación con grandes bases de datos que ya existen.
Más curiosidades AI
Dentro del espectro de los usos y ejecuciones de esta tecnología, también contamos con muchas más aplicaciones generadas día con día, desde shows, hasta nuevos recursos funcionales para tareas cotidianas.
Nothing Forever es uno de estos ejemplos. Mismatch Media, un duo de desarrolladores compuesto por Skyler Hartle de Microsoft y Brian Habersberger, físico, crearon un show infinito que se basa en una inteligencia artificial que genera diálogos y acciones a través de una base de datos predeterminada, presentados como una extensión del icónico programa de los 90, Seinfeld.
El show corría sin descanso en un canal de Twitch dedicado, hasta que hace un par de días, Larry, el protagonista virtual que emula al cómico Jerry Seinfeld, autogeneró una broma con tintes transfóbicos, que hizo que la transmisión fuera suspendida de la plataforma.
Esa es una de las curiosidades peculiares que aparecen de manera semanal como parte de la explosión actual que estamos viviendo sobre la inteligencia artificial.
Empresas como McDonald’s se encuentran actualmente desarrollando nuevos contenidos utilizando distintos softwares como el que hemos mostrado. De ahí proviene su nueva campaña para el año nuevo lunar chino, en colaboración con Karen X Cheng, utilizando NeRF, una red neuronal capaz de crear una escena completa en 3D.
O tenemos por ejemplo ChefGPT, otra alternativa de generación de texto que se basa específicamente en crear recetas, sugerencias a partir de ingredientes y herramientas de cocina con las que contamos, o hasta la experiencia que tengamos para cocinar.
Riesgos, beneficios y mejores prácticas usando inteligencia artificial
La popularidad de programas que funcionan por medio de inteligencia artificial como ChatGPT y DALL-E están a la alza, y con esto vienen una serie de beneficios y riesgos potenciales. Aquí hay algunos puntos elementales que tenemos que considerar cuando discutimos el uso de IA.
Do’s:
- Usar inteligencia artificial en la automatización de tareas repetitivas para así mejorar la eficiencia
- Usar inteligencia artificial para analizar grandes cantidades de datos y descubrir insights
- Usar inteligencia artificial para mejorar predicciones e informar sobre la toma de decisiones
Dont’s:
- No depender solamente de inteligencia artificial en la toma de decisiones críticas sin una supervisión humana
- No usar inteligencia artificial para tomar decisiones que tengan un impacto significativo en vidas humanas sin pruebas y validaciones propias
- No asumir que la inteligencia artificial es más exacta, sin inclinaciones, comparada con la inteligencia humana
Riesgos:
- La inteligencia artificial puede perpetuar y amplificar los sesgos humanos si no está propiamente entrenada con datos diversos
- La inteligencia artificial puede ser usada con propósitos maliciosos, como lo puede ser la creación de noticias falsas y el esparcimiento de la desinformación
Desinformación:
- La inteligencia artificial puede dirigirnos al desplazamiento laboral si es que no se implementa de manera responsable
Es importante recordar que la inteligencia artificial es una herramienta, y como una herramienta, debe ser usada con responsabilidad y con las consideraciones del impacto que pueda tener. Mientras continuamos viendo la integración de la IA en varias industrias. Es crucial tener la conversación sobre su uso correcto, así como una regulación propia de la tecnología.
¿Cuál es el uso correcto de esta tecnología en los diferentes campos? Por ejemplo, el segmento completo que acaban de leer sobre lo que debemos y no debemos hacer con IA, está generado totalmente a través de ChatGPT. El modelo hizo una lista que puede ser incluida en cualquier ensayo, artículo o pieza editorial que hable cerca del tema que se está abordando.
La realidad es que más que una guía sobre el correcto uso de estas herramientas, tenemos que plantearnos las consideraciones éticas de su extensión y cómo pueden funcionar en distintos campos. La automatización de datos, así como la investigación o la creación de notas a partir de reuniones, es uno de los principales usos prácticos que han aparecido en los últimos meses.
Hacer un uso práctico de ChatGPT o DALL-E más como un apoyo, que como una solución final a una tarea planteada, es el inicio del camino que debemos tomar antes de pensar en instancias o leyes reguladoras que aparezcan para organizar las implementaciones de estos modelos de lenguaje.
La conclusión final acerca de la extensión que podemos ver de este tipo de implementaciones, es que aún estamos en épocas muy tempranas en la evolución de la inteligencia artificial, y es muy posible que incluso en un corto plazo, comencemos a percibir que cada vez más de los recursos que utilizamos habitualmente tanto en línea, como en soluciones humanas actuales, tendrán alguna implementación adicional que sirva a base de arquitectura de transformación, machine learning, recopilación, y análisis de datos por modelos de lenguaje para generación de imágenes, textos, video, audio, entre muchos otros espacios por explorar.
Fuentes: OpenAI, Britannica, Context, Big Think, iTech Art, Social Media Today, AssemblyAI, BBC, Fireflies, Wired, Forbes, Medium, The Verge, Reuters, Microsoft Blog, SEON, Digital Spy, Tech Crunch, Marketing Dive