A través de la innovación en software y hardware, los investigadores se mueven para reducir los costos financieros y ambientales de la inteligencia artificial moderna.
En junio, OpenAI presentó el modelo de lenguaje más grande del mundo, una herramienta de generación de texto llamada GPT-3 que puede escribir ficción creativa , traducir jerga legal al inglés simple y responder preguntas de trivia oscuras . Es la última hazaña de inteligencia lograda por el aprendizaje profundo, un método de aprendizaje automático modelado según la forma en que las neuronas en el cerebro procesan y almacenan información.
Pero tuvo un alto precio: al menos $ 4.6 millones y 355 años en tiempo de computación , asumiendo que el modelo fue entrenado en un chip de red neuronal estándar o GPU. El tamaño colosal del modelo, 1000 veces más grande que un modelo de lenguaje típico , es el factor principal de su alto costo.
“Tienes que lanzar mucha más computación a algo para obtener una pequeña mejora en el rendimiento”, dice Neil Thompson , un investigador del MIT que ha rastreado la insaciable sed de computación del aprendizaje profundo. “Es insostenible. Tenemos que encontrar formas más eficientes de escalar el aprendizaje profundo o desarrollar otras tecnologías”.
Parte del entusiasmo por el progreso reciente de AI se ha convertido en alarma. En un estudio del año pasado , investigadores de la Universidad de Massachusetts en Amherst estimaron que entrenar un gran modelo de aprendizaje profundo produce 626,000 libras de dióxido de carbono que calienta el planeta, equivalente a las emisiones de por vida de cinco automóviles. A medida que los modelos crecen, su demanda de computación supera las mejoras en la eficiencia del hardware. Los chips especializados para el procesamiento de redes neuronales, como las GPU (unidades de procesamiento de gráficos) y las TPU (unidades de procesamiento de tensor), han compensado la demanda de más computación, pero no lo suficiente.
“Necesitamos repensar toda la pila, desde el software hasta el hardware”, dice Aude Oliva , directora del MIT-IBM Watson AI Lab del MIT y codirectora del MIT Quest for Intelligence. “El aprendizaje profundo ha hecho posible la reciente revolución de la IA, pero su costo creciente en energía y emisiones de carbono es insostenible”.
Los límites computacionales han perseguido a las redes neuronales desde su primera encarnación, el perceptrón , en la década de 1950. A medida que la potencia informática explotó e Internet desató un tsunami de datos, evolucionaron hasta convertirse en potentes motores para el reconocimiento y la predicción de patrones. Pero cada nuevo hito trajo una explosión en el costo, ya que los modelos hambrientos de datos exigieron una mayor computación. GPT-3, por ejemplo, se entrenó con medio billón de palabras y aumentó a 175 mil millones de parámetros (las operaciones matemáticas, o pesos, que unen el modelo), lo que lo hace 100 veces más grande que su predecesor, que solo tiene un año.
En el trabajo publicado en el servidor de preimpresión arXiv, Thompson y sus colegas muestran que la capacidad de los modelos de aprendizaje profundo para superar los puntos de referencia clave sigue su aumento casi exponencial en el uso de la potencia informática. (Al igual que otros que buscan rastrear la huella de carbono de AI, el equipo tuvo que adivinar el consumo de energía de muchos modelos debido a la falta de requisitos de informes). A este ritmo, argumentan los investigadores, las redes profundas sobrevivirán solo si ellas y el hardware en el que se ejecutan se vuelven radicalmente más eficientes.
propusieron que dentro de cada modelo se encuentra una pequeña subred que podría haberse entrenado de forma aislada con tan solo una décima parte de los pesos, lo que ellos llaman un “boleto ganador”. .”
Demostraron que un algoritmo podría encontrar retroactivamente estas subredes ganadoras en pequeños modelos de clasificación de imágenes. Ahora, en un documento en la Conferencia Internacional sobre Aprendizaje Automático (ICML), muestran que el algoritmo también encuentra boletos ganadores en modelos grandes; los modelos solo necesitan rebobinarse hasta un punto crítico temprano en el entrenamiento cuando el orden de los datos de entrenamiento ya no influye en el resultado del entrenamiento.
Otros innovadores de hardware se centran en reproducir la eficiencia energética del cerebro. El ex campeón mundial de Go, Lee Sedol, pudo haber perdido su título ante una computadora, pero su desempeño fue impulsado por solo 20 vatios de potencia. AlphaGo, por el contrario, quemó un megavatio de energía estimado, o 500.000 veces más.
Inspirados por la frugalidad del cerebro, los investigadores están experimentando con la sustitución del interruptor binario de encendido y apagado de los transistores clásicos con dispositivos analógicos que imitan la forma en que las sinapsis en el cerebro se vuelven más fuertes y débiles durante el aprendizaje y el olvido.
Un dispositivo electroquímico, desarrollado en el MIT y publicado recientemente en Nature Communications , se basa en la forma en que la resistencia entre dos neuronas crece o disminuye a medida que los iones de calcio, magnesio o potasio fluyen a través de la membrana sináptica que las divide. El dispositivo utiliza el flujo de protones, el ion más pequeño y más rápido en estado sólido, dentro y fuera de una red cristalina de trióxido de tungsteno para ajustar su resistencia a lo largo de un continuo, de forma analógica.
“Aunque el dispositivo aún no está optimizado, alcanza un orden de consumo de energía por unidad de área por unidad de cambio en la conductancia que se acerca al del cerebro”, dice el autor principal del estudio, Bilge Yildiz , profesor del MIT.
Los algoritmos y el hardware de eficiencia energética pueden reducir el impacto ambiental de la IA. Pero hay otras razones para innovar, dice Sze, y las enumera: la eficiencia permitirá que la informática pase de los centros de datos a los dispositivos periféricos como los teléfonos inteligentes, lo que hará que la IA sea accesible para más personas en todo el mundo; cambiar la computación de la nube a los dispositivos personales reduce el flujo y la posible fuga de datos confidenciales; y el procesamiento de datos en el borde elimina los costos de transmisión, lo que lleva a una inferencia más rápida con un tiempo de reacción más corto, lo cual es clave para la conducción interactiva y las aplicaciones de realidad virtual/aumentada.
“Por todas estas razones, debemos adoptar una IA eficiente”, dice.