Podríamos quedarnos sin datos para entrenar programas de lenguaje de IA


El problema es que los tipos de datos que generalmente se usan para entrenar modelos de lenguaje pueden agotarse en un futuro cercano, ya en 2026, según un artículo de investigadores de Epoch, una organización de investigación y pronóstico de IA, que aún no se ha publicado. revisados. El problema surge del hecho de que, a medida que los investigadores construyen modelos más poderosos con mayores capacidades, tienen que encontrar cada vez más textos para entrenarlos. Los investigadores de grandes modelos de lenguaje están cada vez más preocupados de quedarse sin este tipo de datos, dice Teven Le Scao, investigador de la empresa de inteligencia artificial Hugging Face, que no participó en el trabajo de Epoch.

El problema se debe en parte al hecho de que los investigadores de inteligencia artificial del lenguaje filtran los datos que usan para entrenar modelos en dos categorías: alta calidad y baja calidad. La línea entre las dos categorías puede ser confusa, dice Pablo Villalobos, investigador del personal de Epoch y autor principal del artículo, pero el texto de la primera se considera mejor escrito y, a menudo, es producido por escritores profesionales.

Los datos de las categorías de baja calidad consisten en textos como publicaciones en redes sociales o comentarios en sitios web como 4chan, y superan en gran medida a los datos considerados de alta calidad. Los investigadores normalmente solo entrenan modelos utilizando datos que entran en la categoría de alta calidad porque ese es el tipo de lenguaje que quieren que reproduzcan los modelos. Este enfoque ha dado como resultado algunos resultados impresionantes para modelos de lenguaje grandes como GPT-3.

Una forma de superar estas limitaciones de datos sería reevaluar lo que se define como calidad “baja” y “alta”, según Swabha Swayamdipta, profesora de aprendizaje automático de la Universidad del Sur de California que se especializa en calidad de conjuntos de datos. Si la escasez de datos empuja a los investigadores de IA a incorporar conjuntos de datos más diversos en el proceso de capacitación, sería un “positivo neto” para los modelos de lenguaje, dice Swayamdipta.

Los investigadores también pueden encontrar formas de extender la vida útil de los datos utilizados para entrenar modelos de lenguaje. Actualmente, los modelos de lenguaje grande se entrenan con los mismos datos solo una vez, debido a las limitaciones de rendimiento y costo. Pero puede ser posible entrenar un modelo varias veces usando los mismos datos, dice Swayamdipta.

De todos modos, algunos investigadores creen que grande puede no ser igual a mejor cuando se trata de modelos de lenguaje. Percy Liang, profesor de ciencias de la computación en la Universidad de Stanford, dice que hay evidencia de que hacer que los modelos sean más eficientes puede mejorar su capacidad, en lugar de simplemente aumentar su tamaño.
“Hemos visto cómo los modelos más pequeños entrenados con datos de mayor calidad pueden superar a los modelos más grandes entrenados con datos de menor calidad”, explica.