Optimización Deepseek Blackwell

Arquitectura de IA de próxima generación que potencia el modelo DeepSeek-R1-FP4 con un rendimiento y eficiencia sin precedentes para modelos de lenguaje grandes.

NVIDIA Blackwell Architecture Visualization

Ejemplo de uso de API

Implementa DeepSeek-R1-FP4 con TensorRT-LLM usando este simple código Python:

from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM

def main():

    prompts = [
        "Hello, my name is",
        "The president of the United States is",
        "The capital of France is",
        "The future of AI is",
    ]
    sampling_params = SamplingParams(max_tokens=32)

    llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)

    outputs = llm.generate(prompts, sampling_params)

    # Print the outputs.
    for output in outputs:
        prompt = output.prompt
        generated_text = output.outputs[0].text
        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")


# The entry point of the program need to be protected for spawning processes.
if __name__ == '__main__':
    main()

Nota: Este ejemplo requiere 8 GPUs B200 con TensorRT-LLM compilado desde la última rama principal.

Características principales

Modelo DeepSeek-R1-FP4

Versión cuantizada del modelo R1 de DeepSeek AI optimizada para la arquitectura NVIDIA Blackwell, reduciendo los bits de parámetros de 8 a 4 mientras mantiene el rendimiento.

TensorRT-LLM Optimización

Aprovecha TensorRT-LLM de NVIDIA para inferencia de alto rendimiento, permitiendo una implementación eficiente en GPUs Blackwell con requisitos de memoria reducidos.

Longitud de contexto de 128K

Admite una longitud de contexto extendida de hasta 128K tokens, permitiendo un análisis exhaustivo de documentos y conversaciones largas con coherencia mantenida.

Reducción de memoria de 1.6x

La cuantización FP4 reduce el tamaño del disco y los requisitos de memoria GPU aproximadamente 1.6 veces en comparación con los modelos de 8 bits, permitiendo una implementación más eficiente.

Preguntas frecuentes

¿Qué es NVIDIA Blackwell?
NVIDIA Blackwell es una arquitectura de IA de próxima generación diseñada para ofrecer un rendimiento y eficiencia sin precedentes para modelos de lenguaje grandes y otras cargas de trabajo de IA. Es la plataforma de hardware que impulsa el modelo DeepSeek-R1-FP4.
¿Qué es DeepSeek-R1-FP4?
DeepSeek-R1-FP4 es la versión cuantizada del modelo R1 de DeepSeek AI, optimizada para la arquitectura NVIDIA Blackwell. Utiliza cuantización FP4 para reducir los requisitos de memoria mientras mantiene un alto rendimiento para tareas de inferencia.
¿Por qué usar cuantización FP4?
La cuantización FP4 reduce el número de bits por parámetro de 8 a 4, lo que resulta en una reducción de aproximadamente 1.6 veces en el tamaño del disco y los requisitos de memoria GPU. Esto permite una implementación más eficiente de modelos de lenguaje grandes sin una degradación significativa del rendimiento.
¿Cómo puedo implementar el modelo DeepSeek-R1-FP4?
El modelo se puede implementar utilizando TensorRT-LLM en GPUs NVIDIA Blackwell. El código de ejemplo para la implementación está disponible en la página del modelo en Hugging Face, y necesitarás 8 GPUs B200 con TensorRT-LLM compilado desde la última rama principal.