AlphaCode 2, A Code-generating AI Revamped With Gemini Kit

Reeditado por Platón

seguidores: 0

El último modelo de generación de código de Google – AlphaCode 2, impulsado por su sistema Gemini Pro y que hizo su debut público el miércoles – supuestamente obtuvo una puntuación superior al percentil 99.5 de los participantes que compiten en concursos de programación en línea.

Investigadores de Google DeepMind afinaron Gemini Pro en un conjunto de datos para reforzar sus habilidades de resolución de problemas para crear AlphaCode 2. El conjunto de datos contenía alrededor de 15,000 problemas tomados de CodeForces (un sitio de programación competitivo) y 30 millones de muestras de código escrito por humanos.

El modelo se ajustó aún más con un conjunto de datos adicional de "mayor calidad", pero no está realmente claro qué tipo de datos se utilizaron o cuánto exactamente, según los escasos detalles del informe. informe técnico [PDF]. Cuando AlphaCode 2 se probó en 77 problemas en 12 concursos de CodeForces (donde compitió contra más de 8,000 programadores en total), logró resolver el 43 por ciento de ellos. AlphaCode 2 envió sus respuestas en C++.

A modo de comparación, el anterior código alfa El sistema resolvió el 25 por ciento de un conjunto diferente de problemas también establecidos por CodeForces.

"Asignando esto a las clasificaciones de la competencia, estimamos que AlphaCode 2 se ubica en el percentil 85 en promedio, es decir, se desempeña mejor que el 85 [por ciento de los participantes], ubicándose justo entre las categorías 'Experto' y 'Candidato Maestro' en Codeforces", afirmaron los investigadores.

Tus trabajos están a salvo... por ahora

En dos de los doce concursos en los que compitió, AlphaCode 2 superó al 99.5 por ciento de los participantes. Aunque impresionantes, las condiciones de competición eran diferentes para la máquina y para los humanos.

AlphaCode 2 puede presentar hasta diez soluciones diferentes para cada problema y sumar puntos si una de ellas es correcta, a diferencia de los candidatos humanos, que tienen una sola oportunidad para resolver el desafío.

AlphaCode 2 también funciona de manera muy diferente a los programadores biológicos. Ante un problema, genera alrededor de un millón de muestras de código diferentes, que luego se filtran. Se eliminan los scripts aleatorios que son irrelevantes y no coinciden con la descripción del problema, o aquellos que generan respuestas de prueba de muestra incorrectas o que no se compilan en absoluto.

“Cada problema de programación competitivo contiene al menos una prueba pública de entrada/salida que indica cómo deben comportarse las muestras de código. Ejecutamos cada muestra de código en la entrada de prueba correspondiente y filtramos todos los que no producen el resultado esperado y, por lo tanto, no podrían haber sido correctos”, explicaron los investigadores.

El filtrado elimina el 95 por ciento de las muestras de código generadas por AlphaCode 2. A continuación, un algoritmo de agrupamiento recopila, clasifica los 50,000 programas restantes por similitud y los clasifica en diferentes grupos. Luego, los diez grupos más grandes se califican mediante un modelo Gemini Pro separado entrenado para predecir su precisión. Luego, las muestras de los diez grupos diferentes se clasifican del mejor al último y se envía la mejor de cada grupo.

Los codificadores humanos generalmente piensan en diferentes estrategias para resolver un problema, luego se concentran en la idea más prometedora y la escriben, en lugar de probar millones de soluciones diferentes. El éxito depende de comprender los problemas y de idear trucos matemáticos inteligentes para resolverlos.

El enfoque de fuerza bruta de AlphaCode 2 (filtrar todo su código y ejecutar los diferentes modelos para calificar y clasificar los mejores) es computacionalmente intensivo, por lo que probablemente sea demasiado costoso lanzarlo hasta que sea más eficiente.

“A pesar de los impresionantes resultados de AlphaCode 2, aún queda mucho por hacer antes de que veamos sistemas que puedan alcanzar de manera confiable el rendimiento de los mejores codificadores humanos. Nuestro sistema requiere muchas pruebas y errores y sigue siendo demasiado costoso operar a escala. Además, depende en gran medida de la capacidad de filtrar muestras de código obviamente incorrectas”, admitieron los investigadores.

Aún así, AlphaCode 2 es una gran mejora con respecto al antiguo AlphaCode y es más de 10,000 veces más eficiente en el muestreo, afirma Google. Solo requiere 100 muestras generadas para alcanzar el mismo rendimiento que AlphaCode, que requirió un millón.

Google DeepMind cree que podría construir un modelo de escritura de código aún mejor utilizando Gemini Ultra, un modelo de lenguaje más grande y potente que Gemini Pro, y dijo que estaba trabajando para intentar poner sus capacidades a disposición de los desarrolladores.

"Esperamos que este tipo de codificación interactiva sea el futuro de la programación, donde los programadores utilicen modelos de IA de alta capacidad como herramientas colaborativas que puedan ayudarles a razonar sobre los problemas, proponer diseños de código y ayudar con la implementación", concluyó el equipo. .

"Estamos trabajando para llevar las capacidades únicas de AlphaCode 2 a nuestros modelos básicos Gemini como un primer paso para que este nuevo paradigma de programación esté disponible para todos". ®