Esta página foi traduzida pela API Cloud Translation.

Disponibilizar LLMs abertos no GKE com uma arquitetura pré-configurada

Autopilot Standard

Nesta página, mostramos como implantar e disponibilizar rapidamente modelos de linguagem grandes (LLMs) abertos e conhecidos no GKE para inferência usando uma arquitetura de referência de inferência do GKE pré-configurada e pronta para produção. Essa abordagem usa a infraestrutura como código (IaC), com o Terraform encapsulado em scripts da CLI, para criar um ambiente do GKE padronizado, seguro e escalonável projetado para cargas de trabalho de inferência de IA.

Neste guia, você vai implantar e disponibilizar LLMs usando nós de GPU de host único no GKE com o framework de disponibilização vLLM. Este guia fornece instruções e configurações para implantar os seguintes modelos abertos:

Este guia é destinado a engenheiros de machine learning (ML) e especialistas em dados e IA interessados em conhecer os recursos de orquestração de contêineres do Kubernetes para disponibilizar modelos abertos para inferência. Para saber mais sobre papéis comuns e exemplos de tarefas referenciados no conteúdo do Google Cloud , consulte Tarefas e funções de usuário comuns do GKE.

Para uma análise detalhada do desempenho e dos custos de disponibilização de modelos para esses modelos abertos, use a ferramenta de início rápido de inferência do GKE. Para saber mais, consulte o guia de início rápido da inferência do GKE e o notebook do Colab.

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Make sure that you have the following role or roles on the project: roles/artifactregistry.admin, roles/browser, roles/compute.networkAdmin, roles/container.clusterAdmin, roles/iam.serviceAccountAdmin, roles/resourcemanager.projectIamAdmin, and roles/serviceusage.serviceUsageAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Acessar o IAM
2. Selecione o projeto.
3. Clique em Conceder acesso.
4. No campo Novos principais, digite seu identificador de usuário. Normalmente, é o endereço de e-mail de uma Conta do Google.
5. Na lista Selecionar papel, escolha um.
6. Para conceder outros papéis, adicione-os clicando em Adicionar outro papel.
7. Clique em Salvar.

Disponibilizar LLMs abertos no GKE com uma arquitetura pré-configurada

Antes de começar

Check for the roles

Grant the roles

Receber acesso ao modelo

Provisionar o ambiente de inferência do GKE

Iniciar o Cloud Shell

Implantar a arquitetura de base

Piloto automático

Padrão

Implantar um modelo aberto

Selecione um modelo

Gemma 3 27B-it

Llama 4 Scout 17B-16E-Instruct

Qwen3 32B

gpt-oss 20B

Baixar o modelo

Implantar o modelo

Testar a implantação

Limpar

Piloto automático

Padrão

A seguir

Disponibilizar LLMs abertos no GKE com uma arquitetura pré-configurada Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Antes de começar

Check for the roles

Grant the roles

Receber acesso ao modelo

Provisionar o ambiente de inferência do GKE

Iniciar o Cloud Shell

Implantar a arquitetura de base

Piloto automático

Padrão

Implantar um modelo aberto

Selecione um modelo

Gemma 3 27B-it

Llama 4 Scout 17B-16E-Instruct

Qwen3 32B

gpt-oss 20B

Baixar o modelo

Implantar o modelo

Testar a implantação

Limpar

Piloto automático

Padrão

A seguir

Disponibilizar LLMs abertos no GKE com uma arquitetura pré-configurada