Concentração de clientes da NVIDIA - cinco compradores, metade da receita, e o que acontece se um deles fizer in-house

O 10-K da NVIDIA reporta concentração de clientes via um line item genérico: "um cliente representou aproximadamente 13% da receita total." Essa única frase é a divulgação mais consequente no documento. Os outros 87% também estão concentrados - apenas espalhados entre quatro outros hyperscalers na mesma faixa. Quando você triangula as divulgações contra o que cada hyperscaler reporta como capex de IA, a foto clareia: Microsoft, Meta, Alphabet, Amazon, e Oracle juntos representam ~45-55% da receita de data-center da $NVDA dependendo do trimestre.

Essa concentração é o bear case contra o qual o moat CUDA não pode defender. CUDA defende contra mudança de substrato por novos compradores. Faz muito pouco para defender contra um comprador existente que tem capacidade de engenharia para absorver o custo de migração em busca de economias de capex em escala. Os hyperscalers têm. Três deles estão ativamente executando.

Este artigo é como cada risco de concentração realmente se parece, por que o Google é o canário, e como ler a linguagem da divulgação conforme ela muda.

O TL;DR. Concentração de clientes é o segundo maior risco estrutural em NVDA (depois do supply de HBM). O TPU do Google é a prova de que um hyperscaler pode fazer in-house completamente - Google agora roda a maior parte dos seus workloads de IA internos em TPU, não NVDA. AWS Trainium e Meta MTIA estão 18-36 meses atrás daquele caminho. Se um segundo hyperscaler atingir "maioria do workload interno em silício custom" na janela 2027-2028, a base de receita de data-center da NVDA contrai visivelmente. Microsoft e Oracle não estão naquele caminho e ficam estruturalmente long NVDA.

O que as divulgações realmente dizem

As filings trimestrais da NVIDIA divulgam concentração de clientes de duas formas:

1. Clientes diretos (a linha nomeada "Cliente A, B, C"). Essas são as entidades que a NVIDIA fatura diretamente. O 10-K tipicamente divulga dois ou três clientes cruzando o limiar de 10%. As entidades nomeadas geralmente são OEMs (Dell, Hewlett Packard Enterprise, SuperMicro) ou distribuidores que montam sistemas para os hyperscalers, não os hyperscalers em si.

2. End-customers indiretos (a linha "um cliente indireto representou aproximadamente 19% da receita total"). Esse é o que importa. A divulgação de cliente indireto captura o hyperscaler que ultimamente é dono do silício - a entidade que pediu servidores HGX da SuperMicro, o que significa que SuperMicro aparece como o cliente direto mas Microsoft (ou quem quer que seja) é o end-purchaser real. NVIDIA divulga esses porque o auditor requer sob ASC 280; a entidade é identificada por referência ao risco de concentração não por nome.

Cross-reference as divulgações de cliente indireto da NVIDIA contra os line items de capex de IA dos hyperscalers nomeados nas próprias filings deles e a foto se afia:

Microsoft - divulga ~US$80-90B de capex anual até FY2026 dos quais aproximadamente metade é AI-data-center. Comprador NVIDIA direto em grande escala; ~13-15% da receita NVDA é a triangulação aproximada.
Meta - capex de IA divulgado de US$60-65B para 2025, subindo. Comprador NVIDIA direto em grande escala; ~10-13% da receita NVDA.
Alphabet (Google) - grande comprador de NVDA para workloads de clientes do Google Cloud, mas os workloads internos do Google rodam em TPU. O split dentro do Google é ~70/30 TPU/NVDA para compute interno; o spend NVDA do Google Cloud é para clientes externos do Cloud que especificamente querem silício NVIDIA.
Amazon (AWS) - grande comprador NVDA para instâncias AWS EC2 GPU + workloads de IA internos, mas rampando Trainium para training interno e Inferentia para inference interno. Share NVDA direto aproximadamente 10-12%.
Oracle - emergiu em 2024-2025 como um grande comprador NVDA para a capacidade IA da OCI e o projeto Stargate. Menor que os top-4 mas crescendo mais rápido.

Os top 5 juntos representam ~45-55% da receita de data-center da NVDA dependendo do trimestre. Isso é concentração apertada mesmo pelos padrões do setor de tech.

Por que concentração é o frame certo, não contagem de clientes

Os defensores da NVIDIA apontam que o "Cliente A" nomeado em 13% no 10-K é um OEM, não um hyperscaler, e que a NVIDIA atende "milhares de clientes enterprise". Ambas as afirmações são verdadeiras e irrelevantes.

A questão relevante não é quantas entidades assinam faturas NVDA. É quantos decisores independentes controlam a demanda. As arquiteturas dos hyperscalers são planejadas centralmente no nível CTO/CFO - Satya Nadella, Sundar Pichai, Mark Zuckerberg, Andy Jassy, Larry Ellison são os compradores reais. Quando Meta decide alocar US$20B para MTIA em vez de Blackwell para o ciclo 2027, essa é uma decisão comprimindo US$20B de TAM NVDA numa empresa. Os "milhares de clientes enterprise" somam uma pequena minoria da base de receita de data-center.

Risco de concentração em NVDA é behavior-correlated, não apenas count-concentrated. Cinco hyperscalers enfrentando a mesma pressão de margem bruta em inference IA (clientes de cloud esperam paridade preço/perf com suas alternativas on-prem em TCO 25-30% menor) todos têm o mesmo incentivo de desenvolver silício custom. Eles fizeram:

Google: TPU v1 (2015) até TPU v5e (2024) até Ironwood TPU v7 (2025-2026). O programa de silício custom mais maduro.
Amazon: Trainium (training, 2020), Inferentia (inference, 2019), Trainium2 (2024). O segundo-mais-maduro.
Meta: MTIA v1 (2023, inference), MTIA v2 (2024-2025). Alcançando.
Microsoft: Maia 100 (anunciado 2023, embarcando 2024-2025). A última entrante.
Oracle: nenhum programa público de silício custom. Estruturalmente long NVDA.

Por que o TPU do Google é o canário

Google anunciou TPU v1 em 2016 retrospectivamente (estava rodando internamente desde 2015). A resposta do mercado foi tépida - "Google tem necessidades especiais, isso não vai generalizar". Dez anos depois, TPU fez o seguinte:

1. Capturou a maioria do workload IA interno do Google. Ranking de search, predição de clique de ads, recomendação YouTube, classificação de spam do Gmail, detecção de objeto do Google Photos, os training runs LaMDA/Bard/Gemini - esses todos rodam em TPU, não NVIDIA. Google não divulgou o split precisamente mas teardowns de terceiros e divulgações de blog de engenheiros triangulam para ~70-80% do compute IA interno em TPU.

2. Alcançou escala comercial externa. TPU está disponível no Google Cloud em pricing competitivo vs instâncias NVDA H100/H200 nos mesmos workloads. Anthropic anunciou em 2024 que treinaria modelos Claude no TPU do Google assim como na NVIDIA - a primeira vez que um lab de modelo de fronteira publicamente se comprometeu a um substrato de training não-NVIDIA em escala.

3. Estabeleceu que o custo de migração é pagável. Essa é a parte na qual o bear case se sustenta. Google gastou ~10 anos e bilhões de dólares construindo a stack de software TPU (compilador XLA, orquestração Pathways, integração JAX) até o ponto em que equipes internas escolhem TPU sobre NVDA na própria infra do Google. Se Meta, AWS, e Microsoft cada um gastar 5-7 anos e dezenas de bilhões nos seus programas de silício custom, o custo de migração pode ser amortizado - e uma vez que foi, o spend recorrente NVDA naquele hyperscaler dá um step down.

O timeline trade-relevante:

2025-2026: AWS Trainium2 rampando; share significativo dos workloads de inference internos da AWS.
2026-2027: Meta MTIA v3 esperado. Primeiro training MTIA publicamente divulgado de um modelo de fronteira.
2027-2028: Microsoft Maia v2 ou v3 esperado alcançar share interno significativo.
2028+: Se dois ou mais hyperscalers cruzarem o limiar de "maioria de IA interna em silício custom", a base de receita concentrada da NVDA contrai visivelmente.

A defesa da NVIDIA - veja o moat CUDA - é que o custo de migração está na faixa de mid-nine-figures por hyperscaler e o prêmio de chip tem que comprimir significativamente antes da matemática flipar. Essa defesa se mantém para novos compradores. Não se mantém para compradores existentes que já absorveram anos de CapEx nos seus programas de silício interno e agora querem amortizar.

O que a NVIDIA faz para revidar

NVIDIA não está parada em concentração. Três counter-moves são visíveis:

1. A venda de plataforma. NVIDIA progressivamente se reposicionou de "vendemos GPUs" para "vendemos a plataforma integrada" - sistemas DGX, designs de referência MGX, stack de software AI Enterprise, microsserviços NIM, a abordagem full-stack. O pitch para um hyperscaler é "você pode construir seu próprio ASIC, mas não pode construir a plataforma que embarcamos - compre a nossa e realoque seus ciclos de engenharia para o seu produto real". Isso funciona para alguns workloads (iteração rápida de modelo de fronteira, instâncias customer-cloud NVDA-demanded) e não para outros (workloads de inference maduros em escala conhecida, que é exatamente o que programas de ASIC custom miram primeiro).

2. O customer-cloud play. NVIDIA está investindo em neoclouds independentes (CoreWeave, Lambda, Crusoe, Together) e até construindo sua própria oferta DGX Cloud. A estratégia é bypassar os hyperscalers inteiramente - vender capacidade direto para end-developers, levando a camada de cloud in-house. Isso é estruturalmente hostil para Microsoft/Google/AWS mas diversifica a base de demanda para fora dos top-5.

3. A alavanca de alocação de supply. Quando HBM está constrained (que está - veja o bottleneck HBM) a NVIDIA aloca o supply escasso para os clientes que vão continuar comprando long-term. Relatórios ao longo de 2024-2025 indicaram que a NVIDIA priorizou neoclouds e Oracle (alto crescimento, sem programa de silício custom) à frente do Google (grande mas fazendo in-house) nas alocações iniciais de Blackwell. Essa é política de alocação racional do ponto de vista da NVIDIA e um sinal de quais hyperscalers ela confia como clientes forward.

Como ler a linguagem das divulgações

Três coisas para observar em cada 10-K NVDA e filing trimestral:

1. Linha de concentração de cliente indireto. A divulgação "um cliente indireto representou X% da receita total". Se o X cai 2-3 pontos percentuais QoQ esse é um indicador líder de que o maior hyperscaler está reduzindo share - seja via in-housing ou via alocação para longe da NVIDIA.

2. Linguagem do 10-K do hyperscaler em substrato de compute IA. Microsoft, Meta, Google, Amazon descrevem suas arquiteturas de compute IA em fatores de risco de 10-K e discussões de CapEx. A frase "diversificando nosso substrato de compute IA" ou "investindo em nosso próprio silício custom para workloads de IA" começou a aparecer em filings de 2023-2024. Quando essa linguagem intensifica - nomeando programas específicos, divulgando alocações específicas de CapEx para silício custom, ou guidando para percentuais de mix de substrato - o caminho de in-housing está firmando. Mais informativos são Meta e AWS, ambos os quais começaram a divulgar mais especificamente ao longo dos últimos dois ciclos anuais.

3. Comentário do earnings-call da NVIDIA em mix de clientes cloud. NVIDIA categoriza receita de data-center em "compute" (training-focused) e "networking" (Mellanox/InfiniBand/Spectrum-X) e referencia composição de clientes sem nomear nomes. A frase "sovereign AI" começou a aparecer pesadamente em 2024 - esse é o pitch da NVIDIA para compradores não-hyperscaler (governos nacionais, grandes enterprises) e um tell que eles querem diversificar a base de clientes. Se o comentário sovereign-AI cresce enquanto o comentário de hyperscaler estagna, a concentração está estruturalmente tendendo no caminho errado.

A leitura acionável. Se você está long $NVDA, está long demanda concentrada. O maior tail risk não é AMD (o moat CUDA cuida disso) e não é caps de supply HBM (esses afetam ramp mas não TAM de longo prazo). É um hyperscaler atingindo massa crítica no seu programa de silício custom e dando step down no spend NVDA em 30-50% em 18 meses. Google mostrou que isso é possível. AWS é o próximo mais provável. Meta e Microsoft estão atrás. Oracle é estruturalmente seguro. Aloque de acordo - e considere o trade do lado supply (oligopólio HBM) como uma expressão mais limpa do buildout de IA sem o risco de concentração de clientes.

Três sinais que tornariam o risco de concentração concreto

1. AWS Trainium se torna o default para workloads Bedrock. Atualmente Bedrock (o serviço gerenciado de inference LLM da AWS) roda um mix de NVIDIA e Trainium. Se a AWS anunciar Trainium-default com NVIDIA como o tier opt-in, esse é um step function down no spend NVDA da AWS.

2. Meta publica um paper de training run MTIA. Meta treinou modelos Llama em NVIDIA até agora. Um modelo de classe de fronteira treinado em MTIA - mesmo um pequeno - estabeleceria que a stack de software do MTIA é madura o suficiente para deslocar a NVIDIA nos maiores workloads da Meta. Nenhum foi publicado até meados de 2026.

3. Divulgação de contribuição de receita Microsoft Maia. O spend em silício da Microsoft é divulgado em granularidade de capex trimestral mas não quebra Maia vs NVIDIA. Se a Microsoft começar a referenciar "capacidade Maia" em earnings calls como um share significativo do compute IA, o substrato está firmando. Nadella sugeriu essa trajetória; os números ainda não mostraram.

Bottom line

O negócio de data-center da NVIDIA está concentrado em cinco hyperscalers, três dos quais estão ativamente executando programas multi-ano para reduzir sua dependência da NVIDIA. O moat CUDA defende contra migração de novo-comprador; não defende contra in-housing de comprador-existente. Google demonstrou que o playbook funciona. AWS e Meta estão 18-36 meses atrás. Microsoft é o mais lento e Oracle não tem programa de silício custom.

O bull case em NVDA precisa precificar o timeline antes que dois hyperscalers cruzem o limiar "maioria interno em silício custom". O bear case em NVDA - o bear case certo, não o errado "AMD vai alcançar" - precifica mais cedo. De qualquer forma, concentração de clientes é a variável que importa, e o teto de supply HBM é o piso sob ambos os casos.

Dashboard NVDA no QuantAbundancia - painel de tese com marcas atuais.

O moat CUDA - por que o software defende contra AMD mas não contra in-housing de hyperscaler.

O bottleneck HBM da NVIDIA - o teto do lado supply que gateia o ramp de receita independente da composição de clientes.

As 12 bolhas de IA ranqueadas - por que compute, memory, e silício custom pertencem a blocos separados mesmo que a narrativa os agrupe.

Concentração de clientes da NVIDIA - cinco compradores, metade da receita, e o que acontece se um deles fizer in-house

O que as divulgações realmente dizem

Por que concentração é o frame certo, não contagem de clientes

Por que o TPU do Google é o canário

O que a NVIDIA faz para revidar

Como ler a linguagem das divulgações

Três sinais que tornariam o risco de concentração concreto

Bottom line

Related bubbles

Related research

Go deeper

Get the daily digest.