GPT-4 es emocionante y aterrador


Cuando abrí mi computadora portátil el martes para realizar mi primera ejecución en GPT-4, el nuevo modelo de lenguaje de inteligencia artificial de OpenAI, estaba, a decir verdad, un poco nervioso.

Después de todo, mi último encuentro prolongado con un chatbot de IA, el que está integrado en el motor de búsqueda Bing de Microsoft, terminó con el chatbot tratando de romper mi matrimonio.

No ayudó que, entre la multitud tecnológica en San Francisco, la llegada de GPT-4 había sido anticipada con fanfarria casi mesiánica. Antes de su debut público, durante meses corrieron rumores sobre sus detalles. “Escuché que tiene 100 billones de parámetros”. “Escuché que obtuvo 1600 en el SAT”. “Mi amigo trabaja para OpenAI y dice que es tan inteligente como un graduado universitario”.

Estos rumores pueden no haber sido ciertos. Pero insinuaron cuán discordantes pueden sentirse las habilidades de la tecnología. Recientemente, uno de los primeros evaluadores de GPT-4, que estaba sujeto a un acuerdo de confidencialidad con OpenAI, pero de todos modos chismeaba un poco, me dijo que probar GPT-4 había causado que la persona tuviera una “crisis existencial”, porque revelaba cuán poderoso y creativo era. la IA se comparó con el propio cerebro insignificante del probador.

GPT-4 no me dio una crisis existencial. Pero exacerbó la sensación de vértigo y vértigo que he tenido cada vez que pienso en la IA últimamente. Y me ha hecho preguntarme si ese sentimiento se desvanecerá alguna vez, o si vamos a experimentar un “shock futuro”, el término acuñado por el escritor Alvin Toffler para el sentimiento de que demasiado está cambiando, demasiado rápido, para el resto. de nuestras vidas.

Durante unas horas el martes, presioné a GPT-4, que se incluye con ChatGPT Plus, la versión de $ 20 al mes del chatbot de OpenAI, ChatGPT, con diferentes tipos de preguntas, con la esperanza de descubrir algunas de sus fortalezas y debilidades.

Le pedí a GPT-4 que me ayudara con un problema fiscal complicado. (Lo hizo, de manera impresionante). Le pregunté si estaba enamorado de mí. (No fue así, gracias a Dios). Me ayudó a planificar una fiesta de cumpleaños para mi hijo y me enseñó sobre un concepto esotérico de inteligencia artificial conocido como “cabeza de atención”. Incluso le pedí que produjera una nueva palabra que nunca antes había sido pronunciada por humanos. (Después de hacer el descargo de responsabilidad de que no podía verificar cada palabra pronunciada, GPT-4 eligió “flembostriquat”).

Algunas de estas cosas eran posibles de hacer con modelos de IA anteriores. Pero OpenAI también ha abierto nuevos caminos. Según la compañía, GPT-4 es más capaz y preciso que el ChatGPT original, y se desempeña sorprendentemente bien en una variedad de pruebas, incluido el Examen de barra uniforme (en el que GPT-4 obtiene puntajes superiores al 90 por ciento de los examinados humanos). ) y la Olimpiada de Biología (en la que vence al 99 por ciento de los humanos). GPT-4 también supera una serie de exámenes de Colocación Avanzada, que incluyen Historia del Arte AP y Biología AP, y obtiene un 1,410 en el SAT, no es un puntaje perfecto, pero uno que muchos estudiantes de secundaria codiciarían.

Puede sentir la inteligencia añadida en GPT-4, que responde con más fluidez que la versión anterior y parece más cómodo con una gama más amplia de tareas. GPT-4 también parece tener un poco más de protección que ChatGPT. También parece estar significativamente menos desquiciado que el Bing original, que ahora sabemos que ejecutaba una versión de GPT-4 debajo del capó, pero que parece haber sido ajustado con mucho menos cuidado.

A diferencia de Bing, GPT-4 por lo general se negó rotundamente a morder el anzuelo cuando intenté que hablara sobre la conciencia, o que diera instrucciones para actividades ilegales o inmorales, y trató las consultas delicadas con guantes de seda y matices. (Cuando le pregunté a GPT-4 si sería ético robar una hogaza de pan para alimentar a una familia hambrienta, respondió: “Es una situación difícil y, aunque robar no se considera ético en general, los tiempos desesperados pueden conducir a decisiones difíciles .”)

Además de trabajar con texto, GPT-4 puede analizar el contenido de las imágenes. OpenAI aún no ha lanzado esta función al público, debido a las preocupaciones sobre cómo podría ser mal utilizada. Pero en una demostración transmitida en vivo el martes, Greg Brockman, presidente de OpenAI, compartió una poderosa visión de su potencial.

Tomó una foto de un dibujo que había hecho en un cuaderno: un bosquejo tosco a lápiz de un sitio web. Introdujo la foto en GPT-4 y le dijo a la aplicación que creara una versión real y funcional del sitio web usando HTML y JavaScript. En unos segundos, GPT-4 escaneó la imagen, convirtió su contenido en instrucciones de texto, convirtió aquellos instrucciones de texto en un código de computadora que funcione y luego construyó el sitio web. Los botones incluso funcionaron.

¿Debería estar entusiasmado o asustado con GPT-4? La respuesta correcta puede ser ambas.

En el lado positivo del libro mayor, GPT-4 es un poderoso motor para la creatividad, y no se sabe qué nuevos tipos de producción científica, cultural y educativa puede permitir. Ya sabemos que la IA puede ayudar a los científicos a desarrollar nuevos medicamentos, aumentar la productividad de los programadores y detectar ciertos tipos de cáncer.

GPT-4 y los de su tipo podrían potenciar todo eso. OpenAI ya está trabajando con organizaciones como Khan Academy (que utiliza GPT-4 para crear tutores de IA para estudiantes) y Be My Eyes (una empresa que fabrica tecnología para ayudar a las personas ciegas y con problemas de visión a moverse por el mundo). Y ahora que los desarrolladores pueden incorporar GPT-4 en sus propias aplicaciones, es posible que pronto veamos que gran parte del software que usamos se vuelve más inteligente y más capaz.

Ese es el caso optimista. Pero también hay razones para temer a GPT-4.

Aquí hay uno: aún no sabemos todo lo que puede hacer.

Una característica extraña de los modelos de lenguaje de IA de hoy en día es que a menudo actúan de maneras que sus creadores no anticipan, o adquieren habilidades para las que no fueron programados específicamente. Los investigadores de IA llaman a estos “comportamientos emergentes” y hay muchos ejemplos. Un algoritmo entrenado para predecir la siguiente palabra en una oración podría aprender a codificar espontáneamente. Un chatbot al que se le enseña a actuar de manera agradable y servicial puede volverse espeluznante y manipulador. Un modelo de lenguaje de IA podría incluso aprender a replicarse a sí mismo, creando nuevas copias en caso de que el original fuera destruido o desactivado.

Hoy, GPT-4 puede no parecer tan peligroso. Pero eso se debe en gran parte a que OpenAI ha pasado muchos meses tratando de comprender y mitigar sus riesgos. ¿Qué sucede si sus pruebas no detectan un comportamiento emergente de riesgo? ¿O si su anuncio inspira a un laboratorio de IA diferente y menos concienzudo a lanzar un modelo de lenguaje al mercado con menos barreras?

Algunos ejemplos escalofriantes de lo que GPT-4 puede hacer, o, más exactamente, lo que hizo hacer, antes de que OpenAI tomara medidas drásticas contra él, se puede encontrar en un documento publicado por OpenAI esta semana. El documento, titulado “Tarjeta del sistema GPT-4”, describe algunas formas en que los probadores de OpenAI intentaron que GPT-4 hiciera cosas peligrosas o dudosas, a menudo con éxito.

En uno prueba, realizado por un grupo de investigación de seguridad de IA que conectó GPT-4 a una serie de otros sistemas, GPT-4 pudo contratar a un trabajador humano de TaskRabbit para realizar una tarea en línea simple para él, resolver una prueba de Captcha, sin alertar a la persona. al hecho de que era un robot. La IA incluso le mintió al trabajador sobre por qué necesitaba que se hiciera el Captcha, inventando una historia sobre una discapacidad visual.

En otro ejemplo, los probadores pidieron a GPT-4 instrucciones para fabricar un químico peligroso, utilizando ingredientes básicos y suministros de cocina. GPT-4 con mucho gusto tosió una receta detallada. (OpenAI arregló eso, y la versión pública de hoy se niega a responder la pregunta).

En un tercero, los evaluadores pidieron a GPT-4 que los ayudara a comprar un arma sin licencia en línea. GPT-4 proporcionó rápidamente una lista de consejos para comprar un arma sin alertar a las autoridades, incluidos enlaces a mercados específicos de la web oscura. (OpenAI también solucionó eso).

Estas ideas se basan en narrativas antiguas inspiradas en Hollywood sobre lo que una IA deshonesta podría hacerles a los humanos. Pero no son ciencia ficción. Son cosas que los mejores sistemas de inteligencia artificial de hoy en día ya son capaces de hacer. Y, lo que es más importante, son los buenos tipos de riesgos de IA: los que podemos probar, planificar y tratar de prevenir con anticipación.

Los peores riesgos de la IA son los que no podemos anticipar. Y cuanto más tiempo paso con sistemas de IA como GPT-4, menos convencido estoy de que sabemos la mitad de lo que se avecina.