Оптимизация Deepseek Blackwell
Архитектура ИИ нового поколения, обеспечивающая беспрецедентную производительность и эффективность модели DeepSeek-R1-FP4 для крупных языковых моделей.
Пример использования API
Разверните DeepSeek-R1-FP4 с TensorRT-LLM, используя этот простой код Python:
from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM
def main():
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
sampling_params = SamplingParams(max_tokens=32)
llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)
outputs = llm.generate(prompts, sampling_params)
# Print the outputs.
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
# The entry point of the program need to be protected for spawning processes.
if __name__ == '__main__':
main()
Примечание: Для этого примера требуются 8 GPU B200 с TensorRT-LLM, собранным из последней основной ветки.
Ключевые особенности
- Модель DeepSeek-R1-FP4
Квантованная версия модели DeepSeek AI R1, оптимизированная для архитектуры NVIDIA Blackwell, сокращающая биты параметров с 8 до 4 при сохранении производительности.
- Оптимизация TensorRT-LLM
Использует TensorRT-LLM от NVIDIA для высокопроизводительного вывода, обеспечивая эффективное развертывание на GPU Blackwell с уменьшенными требованиями к памяти.
- Длина контекста 128K
Поддерживает расширенную длину контекста до 128K токенов, обеспечивая комплексный анализ длинных документов и разговоров с сохранением связности.
- Уменьшение памяти в 1.6 раза
Квантование FP4 уменьшает размер диска и требования к памяти GPU примерно в 1.6 раза по сравнению с 8-битными моделями, обеспечивая более эффективное развертывание.
Часто задаваемые вопросы
- Что такое NVIDIA Blackwell?
- NVIDIA Blackwell — это архитектура ИИ нового поколения, разработанная для обеспечения беспрецедентной производительности и эффективности для крупных языковых моделей и других рабочих нагрузок ИИ. Это аппаратная платформа, на которой работает модель DeepSeek-R1-FP4.
- Что такое DeepSeek-R1-FP4?
- DeepSeek-R1-FP4 — это квантованная версия модели DeepSeek AI R1, оптимизированная для архитектуры NVIDIA Blackwell. Она использует квантование FP4 для уменьшения требований к памяти при сохранении высокой производительности для задач вывода.
- Почему используется квантование FP4?
- Квантование FP4 уменьшает количество битов на параметр с 8 до 4, что приводит к уменьшению размера диска и требований к памяти GPU примерно в 1.6 раза. Это обеспечивает более эффективное развертывание крупных языковых моделей без значительного снижения производительности.
- Как развернуть модель DeepSeek-R1-FP4?
- Модель можно развернуть с использованием TensorRT-LLM на GPU NVIDIA Blackwell. Пример кода для развертывания доступен на странице модели Hugging Face, и вам понадобятся 8 GPU B200 с TensorRT-LLM, собранным из последней основной ветки.