name: vLLM
tags:
    - AI / 大模型
title: 用于大语言模型的高吞吐量和内存高效的推理和服务引擎
description: 用于大语言模型的高吞吐量和内存高效的推理和服务引擎
additionalProperties:
    key: vllm
    name: vLLM
    tags:
        - AI
    shortDescZh: 用于大语言模型的高吞吐量和内存高效的推理和服务引擎
    shortDescEn: A high-throughput and memory-efficient inference and serving engine for LLMs
    description:
        en: A high-throughput and memory-efficient inference and serving engine for LLMs
        ja: 大規模言語モデル向けの高スループットでメモリ効率の良い推論およびサービスエンジン
        ms: Enjin inferens dan perkhidmatan yang cekap memori dan berkapasiti tinggi untuk LLM
        pt-br: Motor de inferência e serviço eficiente em memória e de alto rendimento para LLMs
        ru: Высокопроизводительный и эффективный по памяти движок вывода и обслуживания для LLM
        zh-Hant: 用於大語言模型的高吞吐量和內存高效的推理和服務引擎
        zh: 用于大语言模型的高吞吐量和内存高效的推理和服务引擎
        ko: 대형 언어 모델을 위한 고 처리량 및 메모리 효율적 추론 및 서비스 엔진
    type: tool
    crossVersionUpdate: true
    limit: 0
    recommend: 71
    website: https://github.com/vllm-project/vllm
    github: https://github.com/vllm-project/vllm
    document: https://docs.vllm.ai/en/latest/
    gpuSupport: true
    memoryRequired: 4096
    architectures:
      - amd64