en un anuncio entrada del blog de hoyLos ingenieros de Apple han compartido nuevos detalles de su colaboración con NVIDIA para proporcionar un rendimiento de generación de texto más rápido con modelos de lenguaje de gran tamaño.
manzana publicado y fuente abierta su técnica Recurrent Drafter (ReDrafter) a principios de este año. Representa una nueva forma de crear texto con LLM, que es significativamente más rápida y “alcanza el estado del arte”. Combina dos técnicas: búsqueda de haz (para explorar múltiples posibilidades) y enfoque de árbol dinámico (para gestionar opciones de manera eficiente).
Aunque su investigación ha mostrado buenos resultados, Apple se ha asociado con NVIDIA para utilizar ReDrafter en producción. Como parte de esta colaboración, ReDrafter se ha integrado en NVIDIA TensorRT-LLM, lo que ayuda a ejecutar LLM más rápido en las GPU NVIDIA.
Aquí están los resultados:
Para proporcionar la integración de ReDrafter, NVIDIA agregó nuevos operadores o agregó algunos existentes, lo que mejoró enormemente la capacidad de TensorRT-LLM para adaptarse a modelos complejos y métodos de decodificación. Los desarrolladores de aprendizaje automático que utilizan GPU NVIDIA ahora pueden aprovechar fácilmente la generación acelerada de tokens de ReDrafter para aplicaciones LLM de producción con TensorRT-LLM.
Al comparar decenas de miles de millones de modelos de generación de parámetros en GPU NVIDIA que utilizan el sistema de aceleración inferencial NVIDIA TensorRT-LLM con ReDrafter, vimos una aceleración de 2,7 veces en los tokens generados por segundo para la decodificación codiciosa. Estos resultados comparativos muestran que esta tecnología puede reducir significativamente la latencia del usuario mientras utiliza menos GPU y consume menos energía.
“Los LLM se utilizan cada vez más para impulsar aplicaciones de producción, y mejorar el rendimiento de la inferencia puede afectar los costos computacionales y reducir la latencia para los usuarios”, concluyeron los investigadores de aprendizaje automático de Apple. “Con el nuevo enfoque de ReDrafter para la decodificación especulativa integrado en el marco NVIDIA TensorRT-LLM, los desarrolladores ahora pueden aprovechar una generación de tokens más rápida en las GPU NVIDIA para aplicaciones de producción LLM”.
Puede encontrar más información sobre este trabajo en el sitio web de Apple y en una publicación de blog en el sitio web de NVIDIA:
Sigue la oportunidad: Trapos, cielo azul, Instagramy Mastodonte.