El sistema pareció responder apropiadamente. Pero la respuesta no tuvo en cuenta la altura de la entrada, que también podría impedir el paso de un tanque o un automóvil.
El director ejecutivo de OpenAI, Sam Altman, dijo que el nuevo bot podría razonar “un poco”. Pero sus habilidades de razonamiento se desmoronan en muchas situaciones. La versión anterior de ChatGPT manejó la pregunta un poco mejor porque reconoció que la altura y el ancho importaban.
Puede superar las pruebas estandarizadas.
OpenAI dijo que el nuevo sistema podría calificar entre el 10 por ciento superior de los estudiantes en el Examen Uniforme de Abogados, que califica a abogados en 41 estados y territorios. También puede obtener un puntaje de 1300 (de 1600) en el SAT y un cinco (de cinco) en los exámenes de nivel avanzado de la escuela secundaria en biología, cálculo, macroeconomía, psicología, estadística e historia, según las pruebas de la empresa.
Las versiones anteriores de la tecnología reprobaron el Examen de la barra uniforme y no obtuvieron una puntuación tan alta en la mayoría de las pruebas de Colocación avanzada.
En una tarde reciente, para demostrar sus habilidades de prueba, el Sr. Brockman le dio al nuevo bot una pregunta de examen de barra de párrafos de largo sobre un hombre que dirige un negocio de reparación de camiones diesel.
La respuesta fue correcta pero llena de jerga legal. Entonces, el Sr. Brockman le pidió al bot que explicara la respuesta en un lenguaje sencillo para un laico. También hizo eso.
No es bueno discutir el futuro.
Aunque el nuevo bot parecía razonar sobre cosas que ya sucedieron, fue menos hábil cuando se le pidió que formulara hipótesis sobre el futuro. Parecía basarse en lo que otros han dicho en lugar de crear nuevas conjeturas.
Cuando el Dr. Etzioni le preguntó al nuevo bot: “¿Cuáles son los problemas importantes a resolver en la investigación de la PNL durante la próxima década?” — refiriéndose al tipo de investigación de “procesamiento del lenguaje natural” que impulsa el desarrollo de sistemas como ChatGPT — no pudo formular ideas completamente nuevas.
Y sigue siendo alucinante.
El nuevo bot todavía inventa cosas. Llamado “alucinación”, el problema persigue a todos los principales chatbots. Debido a que los sistemas no tienen una comprensión de lo que es verdad y lo que no lo es, pueden generar un texto que es completamente falso.
Cuando se le preguntaba por las direcciones de los sitios web que describían las últimas investigaciones sobre el cáncer, a veces generaba direcciones de Internet que no existían.