Оптимизация Deepseek Blackwell

Архитектура ИИ нового поколения, обеспечивающая беспрецедентную производительность и эффективность модели DeepSeek-R1-FP4 для крупных языковых моделей.

NVIDIA Blackwell Architecture Visualization

Пример использования API

Разверните DeepSeek-R1-FP4 с TensorRT-LLM, используя этот простой код Python:

from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM

def main():

    prompts = [
        "Hello, my name is",
        "The president of the United States is",
        "The capital of France is",
        "The future of AI is",
    ]
    sampling_params = SamplingParams(max_tokens=32)

    llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)

    outputs = llm.generate(prompts, sampling_params)

    # Print the outputs.
    for output in outputs:
        prompt = output.prompt
        generated_text = output.outputs[0].text
        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")


# The entry point of the program need to be protected for spawning processes.
if __name__ == '__main__':
    main()

Примечание: Для этого примера требуются 8 GPU B200 с TensorRT-LLM, собранным из последней основной ветки.

Ключевые особенности

Модель DeepSeek-R1-FP4

Квантованная версия модели DeepSeek AI R1, оптимизированная для архитектуры NVIDIA Blackwell, сокращающая биты параметров с 8 до 4 при сохранении производительности.

Оптимизация TensorRT-LLM

Использует TensorRT-LLM от NVIDIA для высокопроизводительного вывода, обеспечивая эффективное развертывание на GPU Blackwell с уменьшенными требованиями к памяти.

Длина контекста 128K

Поддерживает расширенную длину контекста до 128K токенов, обеспечивая комплексный анализ длинных документов и разговоров с сохранением связности.

Уменьшение памяти в 1.6 раза

Квантование FP4 уменьшает размер диска и требования к памяти GPU примерно в 1.6 раза по сравнению с 8-битными моделями, обеспечивая более эффективное развертывание.

Часто задаваемые вопросы

Что такое NVIDIA Blackwell?
NVIDIA Blackwell — это архитектура ИИ нового поколения, разработанная для обеспечения беспрецедентной производительности и эффективности для крупных языковых моделей и других рабочих нагрузок ИИ. Это аппаратная платформа, на которой работает модель DeepSeek-R1-FP4.
Что такое DeepSeek-R1-FP4?
DeepSeek-R1-FP4 — это квантованная версия модели DeepSeek AI R1, оптимизированная для архитектуры NVIDIA Blackwell. Она использует квантование FP4 для уменьшения требований к памяти при сохранении высокой производительности для задач вывода.
Почему используется квантование FP4?
Квантование FP4 уменьшает количество битов на параметр с 8 до 4, что приводит к уменьшению размера диска и требований к памяти GPU примерно в 1.6 раза. Это обеспечивает более эффективное развертывание крупных языковых моделей без значительного снижения производительности.
Как развернуть модель DeepSeek-R1-FP4?
Модель можно развернуть с использованием TensorRT-LLM на GPU NVIDIA Blackwell. Пример кода для развертывания доступен на странице модели Hugging Face, и вам понадобятся 8 GPU B200 с TensorRT-LLM, собранным из последней основной ветки.