La demanda apunta a la forma en que se construye la IA


A fines de junio, Microsoft lanzó un nuevo tipo de tecnología de inteligencia artificial que podría generar su propio código de computadora.

Llamada Copilot, la herramienta fue diseñada para acelerar el trabajo de los programadores profesionales. A medida que escribían en sus computadoras portátiles, sugería bloques de código de computadora listos para usar que podrían agregar instantáneamente a los suyos.

A muchos programadores les encantó la nueva herramienta o al menos les intrigaba. Pero Matthew Butterick, programador, diseñador, escritor y abogado de Los Ángeles, no era uno de ellos. Este mes, él y un equipo de otros abogados presentaron una demanda que busca el estatus de demanda colectiva contra Microsoft y las otras compañías de alto perfil que diseñaron e implementaron Copilot.

Al igual que muchas tecnologías de inteligencia artificial de vanguardia, Copilot desarrolló sus habilidades mediante el análisis de grandes cantidades de datos. En este caso, se basó en miles de millones de líneas de código de computadora publicadas en Internet. El Sr. Butterick, de 52 años, equipara este proceso a la piratería, porque el sistema no reconoce su deuda con el trabajo existente. Su demanda afirma que Microsoft y sus colaboradores violaron los derechos legales de millones de programadores que pasaron años escribiendo el código original.

Se cree que la demanda es el primer ataque legal a una técnica de diseño llamada “entrenamiento de IA”, que es una forma de construir inteligencia artificial que está lista para rehacer la industria tecnológica. En los últimos años, muchos artistas, escritores, expertos y activistas de la privacidad se han quejado de que las empresas están entrenando sus sistemas de IA con datos que no les pertenecen.

La demanda tiene ecos en las últimas décadas de la industria tecnológica. En la década de 1990 y en la década de 2000, Microsoft luchó contra el auge del software de código abierto, viéndolo como una amenaza existencial para el futuro del negocio de la empresa. A medida que crecía la importancia del código abierto, Microsoft lo adoptó e incluso adquirió GitHub, un hogar para los programadores de código abierto y un lugar donde construyeron y almacenaron su código.

Casi todas las nuevas generaciones de tecnología, incluso los motores de búsqueda en línea, se han enfrentado a desafíos legales similares. A menudo, “no existe un estatuto o jurisprudencia que lo cubra”, dijo Bradley J. Hulbert, un abogado de propiedad intelectual que se especializa en esta área cada vez más importante de la ley.

La demanda es parte de una oleada de preocupación por la inteligencia artificial. Los artistas, escritores, compositores y otros tipos creativos se preocupan cada vez más de que las empresas y los investigadores utilicen su trabajo para crear nuevas tecnologías sin su consentimiento y sin ofrecer una compensación. Las empresas entrenan una amplia variedad de sistemas de esta manera, incluidos generadores de arte, sistemas de reconocimiento de voz como Siri y Alexa, e incluso automóviles sin conductor.

Copilot se basa en tecnología creada por OpenAI, un laboratorio de inteligencia artificial en San Francisco respaldado por mil millones de dólares en fondos de Microsoft. OpenAI está a la vanguardia del esfuerzo cada vez más generalizado para entrenar tecnologías de inteligencia artificial utilizando datos digitales.

Después de que Microsoft y GitHub lanzaron Copilot, el director ejecutivo de GitHub, Nat Friedman, tuiteó que usar el código existente para entrenar el sistema era un “uso justo” del material según la ley de derechos de autor, un argumento que las empresas y los investigadores que construyeron estos sistemas suelen utilizar. Pero ningún caso judicial ha probado aún este argumento.

“Las ambiciones de Microsoft y OpenAI van mucho más allá de GitHub y Copilot”, dijo Butterick en una entrevista. “Quieren capacitarse con cualquier dato en cualquier lugar, de forma gratuita, sin consentimiento, para siempre”.

En 2020, OpenAI presentó un sistema llamado GPT-3. Los investigadores entrenaron el sistema utilizando enormes cantidades de texto digital, incluidos miles de libros, artículos de Wikipedia, registros de chat y otros datos publicados en Internet.

Al identificar patrones en todo ese texto, este sistema aprendió a predecir la siguiente palabra en una secuencia. Cuando alguien escribió algunas palabras en este “modelo de lenguaje grande”, podría completar el pensamiento con párrafos enteros de texto. De esta forma, el sistema podría escribir sus propios mensajes de Twitter, discursos, poemas y artículos de noticias.

Para sorpresa de los investigadores que construyeron el sistema, incluso podría escribir programas de computadora, aparentemente habiendo aprendido de una cantidad incalculable de programas publicados en Internet.

Entonces, OpenAI fue un paso más allá, entrenando un nuevo sistema, Codex, en una nueva colección de datos almacenados específicamente con código. Al menos parte de este código, dijo el laboratorio más tarde en un trabajo de investigación que detalla la tecnología, proviene de GitHub, un popular servicio de programación propiedad de Microsoft y operado por él.

Este nuevo sistema se convirtió en la tecnología subyacente de Copilot, que Microsoft distribuyó a los programadores a través de GitHub. Después de probarse con un número relativamente pequeño de programadores durante aproximadamente un año, Copilot se lanzó a todos los codificadores en GitHub en julio.

Por ahora, el código que produce Copilot es simple y podría ser útil para un proyecto más grande, pero debe ser manipulado, aumentado y examinado, dijeron muchos programadores que han usado la tecnología. Algunos programadores lo encuentran útil solo si están aprendiendo a codificar o tratando de dominar un nuevo lenguaje.

Aún así, a Butterick le preocupaba que Copilot terminara destruyendo la comunidad global de programadores que han construido el código en el corazón de la mayoría de las tecnologías modernas. Días después del lanzamiento del sistema, publicó una publicación de blog titulada: “Este copiloto es estúpido y quiere matarme”.

El Sr. Butterick se identifica como un programador de código abierto, parte de la comunidad de programadores que comparten abiertamente su código con el mundo. Durante los últimos 30 años, el software de código abierto ha ayudado a impulsar el auge de la mayoría de las tecnologías que los consumidores usan todos los días, incluidos los navegadores web, los teléfonos inteligentes y las aplicaciones móviles.

Aunque el software de código abierto está diseñado para compartirse libremente entre codificadores y empresas, este intercambio se rige por licencias diseñadas para garantizar que se use de manera que beneficie a la comunidad más amplia de programadores. El Sr. Butterick cree que Copilot ha violado estas licencias y, a medida que continúa mejorando, hará que los codificadores de código abierto se vuelvan obsoletos.

Después de quejarse públicamente sobre el tema durante varios meses, presentó su demanda con un puñado de otros abogados. La demanda aún se encuentra en las primeras etapas y el tribunal aún no le ha otorgado el estatus de demanda colectiva.

Para sorpresa de muchos expertos legales, la demanda del Sr. Butterick no acusa a Microsoft, GitHub y OpenAI de infracción de derechos de autor. Su demanda toma un rumbo diferente, argumentando que las empresas han violado los términos de servicio y las políticas de privacidad de GitHub y, al mismo tiempo, infringieron una ley federal que exige que las empresas muestren información de derechos de autor cuando hacen uso del material.

Butterick y otro abogado detrás de la demanda, Joe Saveri, dijeron que la demanda eventualmente podría abordar el problema de los derechos de autor.

Cuando se le preguntó si la empresa podía hablar sobre la demanda, un portavoz de GitHub se negó, antes de decir en un comunicado enviado por correo electrónico que la empresa se ha “comprometido a innovar de manera responsable con Copilot desde el principio y continuará evolucionando el producto para servir mejor a los desarrolladores de todo el mundo”. .” Microsoft y OpenAI se negaron a comentar sobre la demanda.

Según las leyes existentes, la mayoría de los expertos cree que entrenar un sistema de IA con material protegido por derechos de autor no es necesariamente ilegal. Pero hacerlo podría ser si el sistema termina creando material que es sustancialmente similar a los datos con los que fue entrenado.

Algunos usuarios de Copilot tienen dijo genera un código que parece idéntico, o casi idéntico, a los programas existentes, una observación que podría convertirse en la parte central del caso del Sr. Butterick y otros.

Pam Samuelson, profesora de la Universidad de California, Berkeley, que se especializa en propiedad intelectual y su papel en la tecnología moderna, dijo que los pensadores legales y los reguladores exploraron brevemente estos temas legales en la década de 1980, antes de que existiera la tecnología. Ahora, dijo, se necesita una evaluación legal.

“Ya no es un problema con los juguetes”, dijo el Dr. Samuelson.