O moat de networking da NVIDIA — por que NVLink, Spectrum-X, e a aquisição da Mellanox são o segundo produto do qual o mercado não fala
A aquisição da Mellanox por US$7B em 2019 foi enquadrada como um movimento defensivo. Agora é a segunda maior linha de produto da empresa — receita de networking num run-rate de ~US$13B, crescendo 50%+ ano-a-ano. NVLink, NVSwitch, Spectrum-X, e InfiniBand juntos formam o fabric que faz milhares de GPUs parecerem uma máquina. Clusters de ASIC custom ainda compram networking da NVIDIA. Essa é a parte do moat que sobrevive mesmo se o moat de silício erodir.
Quando a NVIDIA pagou US$6,9B pela Mellanox em março de 2019, o deal foi enquadrado como defensivo — "eles precisam da stack InfiniBand para que a Intel não os tranque fora do high-performance computing". Sete anos depois o frame está de cabeça para baixo. Networking derivado-da-Mellanox é a segunda maior linha de produto da NVIDIA, fazendo aproximadamente US$13B de receita anualizada numa taxa de crescimento de 50%+, com margens estruturais melhores que o negócio GPU em alguns trimestres. NVLink, NVSwitch, Spectrum-X, InfiniBand, DPUs BlueField — não são bolt-ons. São o fabric que transforma 100.000 GPUs NVIDIA num único cluster de training, e o fabric para o qual a maioria dos programas de ASIC custom também compra networking NVIDIA.
Essa é a parte da tese NVDA que sobrevive mesmo quando o moat CUDA erode em inference ou quando hyperscalers fazem silício in-house. Quando a AWS constrói um cluster Trainium, eles compram InfiniBand NVIDIA. Quando a Meta constrói um cluster MTIA, eles compram Spectrum-X. A camada de networking é um segundo moat que é mais estreito, menos visível, e mais difícil de deslocar do que o silício.
O TL;DR. Training de IA na fronteira requer interconnect de banda alta e latência baixa entre GPUs (ou aceleradores). NVIDIA é dona das soluções dominantes em três camadas: intra-servidor (NVLink/NVSwitch — proprietário, embarca com GPUs NVDA), intra-rack (o spine fabric — Spectrum-X para Ethernet, Quantum para InfiniBand), e inter-rack (o mesmo fabric escalado). ASICs custom carecem de um par de networking crível; eles tipicamente usam networking NVIDIA mesmo rodando silício custom para compute.
As três camadas de fabric explicadas
Training de IA e inference em larga escala precisam mover dados rápido entre aceleradores. Os dados são em sua maioria gradient updates durante training e estado de KV cache durante inference. O padrão de comunicação é "all-to-all" ou "ring-all-reduce" — cada GPU precisa receber estado parcial de cada outra GPU em cada passo de training. Os requisitos de banda e latência compõem conforme o cluster fica maior.
A stack de networking da NVIDIA cobre três camadas físicas:
Camada 1 — Dentro do servidor (NVLink/NVSwitch).
NVLink é o interconnect GPU-to-GPU proprietário da NVIDIA, na sua quinta geração com o Blackwell. NVLink 5 entrega ~1,8 TB/s de banda bidirecional entre GPUs no mesmo nó. NVSwitch é o switch chip-level que agrega portas NVLink — um único NVSwitch num servidor HGX pode conectar 8 GPUs de forma non-blocking em banda NVLink completa.
O landscape competitivo nessa camada:
- AMD tem Infinity Fabric em GPUs Instinct (~1,6 TB/s, ligeiramente mais lento que NVLink 5).
- ASICs custom tipicamente usam seus próprios fabrics intra-nó proprietários (mesh TPU do Google, Neuron Link do AWS Trainium).
- Essa camada é proprietária por vendor de silício — você não pode usar NVLink com GPUs AMD e vice-versa.
É aqui que o networking da NVIDIA é bundled com a própria GPU; você não pode escapar dele se está comprando chips NVIDIA.
Camada 2 — Dentro do rack (o spine fabric).
Para conectar múltiplos servidores num rack — tipicamente 8-16 sistemas NVIDIA HGX ou DGX por rack — você precisa de uma rede de banda alta através de fronteiras de servidor. NVIDIA oferece dois sabores:
- Quantum InfiniBand. O fabric InfiniBand derivado-da-Mellanox, na sua última geração Quantum-2 (400 Gb/s por porta, latência ~25-50 µs). InfiniBand é o fabric HPC histórico e o default para os maiores clusters de training NVIDIA.
- Spectrum-X Ethernet. O fabric Ethernet AI-otimizado da NVIDIA (400 Gb/s, depois 800 Gb/s), introduzido em 2023 como resposta à preferência dos hyperscalers por Ethernet sobre InfiniBand por razões operacionais. Spectrum-X adiciona telemetria AI-específica, congestion control, e transporte lossless em cima do Ethernet padrão.
O landscape competitivo:
- Arista, Cisco, Broadcom todos vendem switches AI-Ethernet nessa camada. Spectrum-X compete contra Etherlink da Arista e silício Jericho/Tomahawk da Broadcom.
- Clusters de ASIC custom ainda compram fabric NVIDIA. Mesmo clusters AWS Trainium e pods Google TPU usam switching NVIDIA-branded em tiers mais altos. A diferenciação que a NVIDIA oferece é software integrado (DPUs BlueField fazem offload de congestion control; BCM/NetQ da NVIDIA fornece visibilidade cluster-level) que competidores carecem.
Essa é a camada onde a NVIDIA compete — não monopoliza — e onde a história de crescimento está.
Camada 3 — Inter-rack e data-center-wide.
Para clusters de training que se estendem por múltiplos racks — clusters de fronteira atuais são 100.000+ GPUs em dezenas de racks — o fabric precisa estender para wide-area bandwidth. As soluções da NVIDIA aqui são as mesmas gerações Spectrum-X e Quantum-2 escaladas com camadas de spine adicionais.
O landscape competitivo:
- Fabrics built por hyperscaler. Google tem Jupiter (o fabric de data-center interno deles). Meta tem o seu. Esses são soluções intra-hyperscaler que não competem no mercado mais amplo mas reduzem o TAM da NVIDIA naqueles clientes específicos.
- Arista, Cisco na camada de spine data-center wide-area.
- Vendors especializados (Marvell, Broadcom) na camada de componente de silício.
Essa camada é a mais contestada. A posição competitiva da NVIDIA é mais forte na Camada 1 (proprietária, bundled com GPUs), forte na Camada 2 (a diferenciação AI-específica funciona), e competitive-mas-não-dominante na Camada 3.
Por que clusters de ASIC custom compram networking NVIDIA
A observação crítica que o bear case perde: programas de silício custom na AWS, Meta, e Microsoft não (na maioria) constroem seu próprio fabric de networking. Eles licenciam ou compram da NVIDIA. As razões:
1. Networking é uma disciplina de engenharia diferente do design de acelerador. Designar um acelerador IA custom é um programa de 3-5 anos com centenas de engenheiros; designar um switch fabric data-center custom é um programa diferente de 5-7 anos com uma especialidade diferente (design ASIC de rede + stacks de protocolo + congestion control). Hyperscalers priorizam silício acelerador porque é onde a economia de compute está; networking é o bucket de segunda-prioridade.
2. O moat de IP do fabric é real. A herança Mellanox da NVIDIA inclui 25 anos de IP de interconnect high-performance — RDMA-over-Converged-Ethernet (RoCE), GPUDirect, algoritmos de congestion control, os coletivos in-network Sharp que fazem offload de operações all-reduce para o switch fabric. Replicar isso é trabalho de engenharia multi-ano que hyperscalers não priorizaram.
3. Time-to-market. Quando você constrói um cluster de training de 100.000 aceleradores, você tem uma janela de deployment. Construir o chip + o fabric + a stack de software em paralelo multiplica o risco. Comprar o fabric off-the-shelf da NVIDIA (ou Arista ou Broadcom) deixa você focar a engenharia in-house na parte que mais importa — o acelerador.
A implicação trade-relevante: mesmo se a Meta substituir todas as GPUs NVIDIA por MTIA, eles provavelmente ainda vão comprar networking NVIDIA (ou Arista/Broadcom-com-stack-software-NVIDIA) para o cluster fabric. A linha de receita de networking está parcialmente isolada da competição de silício custom na camada de compute.
A história financeira
NVIDIA divulga receita de data-center em dois buckets: compute (o negócio GPU) e networking (Mellanox + os produtos pós-aquisição). Prints recentes:
- Compute: ~US$24B por trimestre (Q4 FY2026)
- Networking: ~US$3,3B por trimestre (Q4 FY2026), ~US$13B anualizado
- Networking está crescendo 50%+ ano-a-ano vs ~80% para compute (que está desacelerando conforme lapeia compares prior-year)
Margens brutas de networking são acreditadas serem ligeiramente maiores que compute numa base percentual (NVIDIA não divulga margens product-level, mas channel checks sugerem que switches InfiniBand e Spectrum-X high-end carregam pricing premium similar ao negócio GPU). O efeito agregado: networking está contribuindo significativamente para dólares de lucro bruto e é a linha menos concentrada e menos competitivamente ameaçada no negócio de data-center.
Para a análise de concentração de hyperscaler: o negócio de networking tem uma base de clientes mais diversa que o negócio de compute. Hyperscalers compram networking NVIDIA; clientes sovereign-AI compram networking NVIDIA; buildouts AI enterprise compram networking NVIDIA; as neoclouds (CoreWeave, Lambda, Crusoe) compram networking NVIDIA. A largura de contagem de clientes na camada de networking é materialmente maior do que na camada GPU.
O que quebraria o moat de networking
Três vetores de risco:
1. Arista Networks tomando share AI-Ethernet no high end. Arista tem sido o competidor mais forte em AI-Ethernet em hyperscalers. Se um hyperscaler top-3 padronizar em Arista Etherlink para clusters IA na camada de spine, o TAM Spectrum-X da NVIDIA comprime. Isso está parcialmente precificado — a ação da Arista reflete o upside AI-fabric — mas não totalmente refletido no bear case NVDA.
2. UEC (Ultra Ethernet Consortium) atingindo maturidade. UEC é um padrão da indústria para Ethernet AI-otimizado, suportado pela AMD, Broadcom, Cisco, Intel, Meta, Microsoft. O objetivo é fornecer uma alternativa de padrão aberto para Spectrum-X e InfiniBand. Em meados de 2026 o padrão está publicado mas implementações maduras estão 12-24 meses fora. Se UEC alcançar maturidade deployable e hyperscalers majors adotarem, a porção proprietária do moat de networking da NVIDIA (a telemetria AI-específica e congestion control) vira commodity.
3. In-network compute se tornando irrelevante. NVIDIA Sharp (Scalable Hierarchical Aggregation and Reduction Protocol) é a capacidade de in-network compute onde o próprio switch fabric realiza operações all-reduce parciais, acelerando coletivos multi-GPU. É um moat-chave herança-Mellanox. Se software acelerador-side de próxima geração (coletivos implementados inteiramente on-chip) reduzir o valor de in-network compute, o moat Sharp estreita.
Nenhum desses vetores está em massa crítica ainda. Todos os três são riscos reais de médio prazo.
A versão trade-relevante. Long $NVDA em networking é um trade parcialmente uncorrelated de long $NVDA em compute. O negócio de networking tem maior diversificação de clientes, crescimento estrutural em high-double-digits, e está menos exposto ao risco de concentração de clientes que afeta o negócio GPU. Para traders querendo exposição AI-fabric além de NVDA, $ANET (Arista) é o competidor mais limpo na camada de Ethernet spine; a bolha networking-optical cobre a cadeia de supply de componentes ópticos mais ampla.
Três sinais para observar
1. Desaceleração do crescimento de receita de networking NVDA. Se o crescimento de networking cair abaixo de 30% ano-a-ano, o ramp AI-fabric está maturando mais rápido que o esperado. Atualmente ainda em 50%+.
2. Customer wins AI-Ethernet da Arista. Arista divulga wins major de cluster IA em earnings calls. Se um hyperscaler anunciar um cluster de 100.000-aceleradores na Arista, o share-shift é concreto.
3. Deployments de produção UEC v1.0. Observe anúncios de hyperscaler de fabrics UEC-padronizados em clusters de IA de produção. Em meados de 2026, nenhum embarcou em escala.
Bottom line
A aquisição da Mellanox é a decisão de alocação de capital mais subapreciada na história da NVIDIA. Networking é agora um negócio de US$13B-run-rate com maior crescimento que as médias da categoria data-center mais amplas, uma base de clientes mais diversa que o negócio GPU, e um moat estrutural na Camada 1 (fabric intra-servidor proprietário) que clusters de ASIC custom não podem escapar. O fabric da Camada 2/Camada 3 é competitivamente contestado mas a stack de software AI-específica da NVIDIA fornece diferenciação que Arista e outros ainda não replicaram em escala.
Para a tese NVDA: networking é o segundo moat que o bear case frequentemente ignora. Está parcialmente uncorrelated dos riscos competitivos do negócio de compute, contribui significativamente para lucro bruto, e cresce mesmo quando ASICs custom deslocam spend GPU porque esses mesmos clusters de ASIC custom precisam de fabric de rede. Holders de longo prazo devem observar a linha de networking tão cuidadosamente quanto a linha de compute — é onde a resiliência da franquia a disrupção do lado compute de fato mora.
Dashboard NVDA no QuantAbundancia — painel de tese com marcas atuais.
O moat CUDA — o moat de software na camada de compute.
O bottleneck HBM da NVIDIA — a restrição do lado supply que gateia tanto o ramp de compute quanto de networking.
Concentração de clientes hyperscaler — por que a base de clientes de networking é mais diversificada que compute.
Avaliação da ameaça ASIC custom — por que clusters de silício custom ainda compram fabric NVIDIA.
Related bubbles
Get the daily digest.
One email a day · alerts + bubble shifts + new research. Free during beta.
No spam. One email per day max. Telegram alerts coming with the paid tier.