¿Una nueva era para ChatGPT? Es posible que GPT-4 haya superado la famosa prueba de Turing

Los investigadores evaluaron la capacidad del modelo de lenguaje GPT-4 y concluyeron que superaba la prueba de Turing.

Un grupo de investigadores afirma que GPT-4 superó la Prueba de Turing y consiguió engañar a personas humanas.

El uso de modelos de lenguaje, como el famoso ChatGPT, es cada vez más común dentro de la sociedad. Desde el lanzamiento de ChatGPT, OpenAI ya ha probado nuevas versiones actualizadas que son mejores que las versiones anteriores. Recientemente, la compañía puso a disposición GPT-4, que tiene un rendimiento aún mejor en comparación con otras versiones.

Los modelos son tan buenos conversando y respondiendo preguntas que muchas veces pueden dar la impresión de que estamos hablando con otro ser humano. La prueba de si una inteligencia artificial puede hacerse pasar por un ser humano y engañar a otros humanos se llama prueba de Turing. La prueba fue propuesta por Alan Turing en su famoso artículo de 1950 sobre las máquinas pensantes.

Un nuevo estudio realizado por investigadores de la Universidad de San Diego concluyó que el modelo de lenguaje GPT-4 pasa la prueba de Turing. Podría hacerse pasar por un ser humano para engañar a otros humanos. El grupo probó tres modelos de lenguaje, incluido GPT-3, haciendo que un grupo de personas interactuara durante 5 minutos con cada modelo o con una persona sin saberlo.

Artículo de 1950

En 1950, Alan Turing publicó su famoso artículo Computing Machinery and Intelligence, que se convirtió en uno de los artículos más importantes de la informática. Al inicio del artículo, comienza cuestionando si las máquinas pueden pensar, iniciando una discusión sobre una posible inteligencia artificial. Este artículo se considera uno de los puntos de partida en la búsqueda de la inteligencia artificial.

En el artículo de 1950, Turing se refiere a estas máquinas que harían las mismas cosas que los humanos como máquinas pensantes.

Uno de los puntos clave del artículo es la discusión que profundiza Turing sobre la posibilidad de una máquina de pensar. El artículo tiene un enfoque filosófico muy profundo. Llama la atención principalmente por la discusión sobre cómo las máquinas podrían aprender a través de patrones. El aprendizaje a través de patrones es la base del aprendizaje automático actual.

Test de Turing

Dentro del artículo también hay una propuesta para una prueba que se conoció como test de Turing. La idea detrás de la prueba sería evaluar si una máquina sería capaz de hacerse pasar por un ser humano y engañar a otro. Hacer creer a un interrogador que está hablando con otro ser humano a través de mensajes de texto. Si la máquina supera esta prueba, podría considerarse inteligente.

El artículo de Alan Turing fue revolucionario para el campo de la Informática y contiene conceptos que siguen siendo importantes hoy en día. Crédito: Hitoric Tech

La prueba empezó a cobrar impulso en las décadas siguientes y se crearon varios concursos donde investigadores y empresas llevaban sus máquinas para probarlas. Una de las aplicaciones de la prueba de Turing son los CAPTCHA (prueba de Turing pública completamente automatizada para distinguir entre computadoras y humanos) que se utilizan en sitios web para encontrar posibles bots.

Modelos de lenguaje

Un modelo de lenguaje es un modelo que ha sido entrenado para comprender, crear o interactuar con texto. El ejemplo más famoso son los modelos que aprenden a traducir de un idioma a otro. La idea es que el modelo de lenguaje reciba una entrada, que puede ser texto o no, y devuelva una respuesta en textos u oraciones. El área de especialidad se denomina procesamiento del lenguaje natural (PNL).

Actualmente, los modelos de lenguaje son avanzados y pueden mantener una conversación como responder preguntas y realizar tareas como resumir un texto. La mayoría de estos modelos actuales se basan en redes neuronales y una técnica llamada Transformers. Se les entrena con una gran cantidad de textos donde pueden encontrar patrones, interpretar textos y realizar tareas.

¿Qué modelos pasan la prueba?

Considerando los modelos de lenguaje actuales, un grupo de investigadores de la Universidad de San Diego propuso someter GPT-3.5 y GPT-4 al Test de Turing. La idea del grupo era lograr que la gente charlara durante 5 minutos mediante mensajes de texto con una persona. Estos individuos podrían ser una persona real o algún modelo de lenguaje que se estuviera probando.

New Preprint: People cannot distinguish GPT-4 from a human in a Turing test.

In a pre-registered Turing test we found GPT-4 is judged to be human 54% of the time.

On some interpretations this constitutes the most robust evidence to date that any system passes the Turing test pic.twitter.com/yF6wQjQWsv
— Cameron Jones @NAACL (@camrobjones) May 15, 2024

En el artículo, concluyeron que GPT-4 lograba engañar a la gente la mitad del tiempo. Para confirmar la prueba, el grupo también utilizó el chatbot Eliza, que tiene un rendimiento de alrededor del 22 %. Así, el estudio concluye que GPT-4 habría pasado el Test de Turing pero los humanos aún somos capaces de identificar mejor a otros humanos la mayor parte del tiempo.

GPT-4

GPT-4 es una versión actualizada de los modelos de lenguaje que impulsan ChatGPT. Estos modelos fueron creados por la empresa OpenAI y se encuentran en su cuarta generación. Recientemente, OpenAI anunció que ChatGPT se basaría en una versión aún más optimizada de GPT-4 llamada GPT-4o. Una de las mayores diferencias es la capacidad de GPT-4 para crear textos más largos y coherentes.

Además, ChatGPT también tiene una interfaz que puede buscar en Internet y responder preguntas actuales. Este es un avance en comparación con GPT-3, que fue uno de los primeros en usarse en ChatGPT cuando se introdujo, pero solo tuvo información hasta 2022.

Referencia de la noticia:

Jones & Bergen 2024 People cannot distinguish GPT-4 from a human in a Turing test arXiv