O moat de networking da NVIDIA - por que NVLink, Spectrum-X, e a aquisição da Mellanox são o segundo produto do qual o mercado não fala

Quando a NVIDIA pagou US$6,9B pela Mellanox em março de 2019, o deal foi enquadrado como defensivo - "eles precisam da stack InfiniBand para que a Intel não os tranque fora do high-performance computing". Sete anos depois o frame está de cabeça para baixo. Networking derivado-da-Mellanox é a segunda maior linha de produto da NVIDIA, fazendo aproximadamente US$13B de receita anualizada numa taxa de crescimento de 50%+, com margens estruturais melhores que o negócio GPU em alguns trimestres. NVLink, NVSwitch, Spectrum-X, InfiniBand, DPUs BlueField - não são bolt-ons. São o fabric que transforma 100.000 GPUs NVIDIA num único cluster de training, e o fabric para o qual a maioria dos programas de ASIC custom também compra networking NVIDIA.

Essa é a parte da tese NVDA que sobrevive mesmo quando o moat CUDA erode em inference ou quando hyperscalers fazem silício in-house. Quando a AWS constrói um cluster Trainium, eles compram InfiniBand NVIDIA. Quando a Meta constrói um cluster MTIA, eles compram Spectrum-X. A camada de networking é um segundo moat que é mais estreito, menos visível, e mais difícil de deslocar do que o silício.

O TL;DR. Training de IA na fronteira requer interconnect de banda alta e latência baixa entre GPUs (ou aceleradores). NVIDIA é dona das soluções dominantes em três camadas: intra-servidor (NVLink/NVSwitch - proprietário, embarca com GPUs NVDA), intra-rack (o spine fabric - Spectrum-X para Ethernet, Quantum para InfiniBand), e inter-rack (o mesmo fabric escalado). ASICs custom carecem de um par de networking crível; eles tipicamente usam networking NVIDIA mesmo rodando silício custom para compute.

As três camadas de fabric explicadas

Training de IA e inference em larga escala precisam mover dados rápido entre aceleradores. Os dados são em sua maioria gradient updates durante training e estado de KV cache durante inference. O padrão de comunicação é "all-to-all" ou "ring-all-reduce" - cada GPU precisa receber estado parcial de cada outra GPU em cada passo de training. Os requisitos de banda e latência compõem conforme o cluster fica maior.

A stack de networking da NVIDIA cobre três camadas físicas:

Camada 1 - Dentro do servidor (NVLink/NVSwitch).

NVLink é o interconnect GPU-to-GPU proprietário da NVIDIA, na sua quinta geração com o Blackwell. NVLink 5 entrega ~1,8 TB/s de banda bidirecional entre GPUs no mesmo nó. NVSwitch é o switch chip-level que agrega portas NVLink - um único NVSwitch num servidor HGX pode conectar 8 GPUs de forma non-blocking em banda NVLink completa.

O landscape competitivo nessa camada:

AMD tem Infinity Fabric em GPUs Instinct (~1,6 TB/s, ligeiramente mais lento que NVLink 5).
ASICs custom tipicamente usam seus próprios fabrics intra-nó proprietários (mesh TPU do Google, Neuron Link do AWS Trainium).
Essa camada é proprietária por vendor de silício - você não pode usar NVLink com GPUs AMD e vice-versa.

É aqui que o networking da NVIDIA é bundled com a própria GPU; você não pode escapar dele se está comprando chips NVIDIA.

Camada 2 - Dentro do rack (o spine fabric).

Para conectar múltiplos servidores num rack - tipicamente 8-16 sistemas NVIDIA HGX ou DGX por rack - você precisa de uma rede de banda alta através de fronteiras de servidor. NVIDIA oferece dois sabores:

Quantum InfiniBand. O fabric InfiniBand derivado-da-Mellanox, na sua última geração Quantum-2 (400 Gb/s por porta, latência ~25-50 µs). InfiniBand é o fabric HPC histórico e o default para os maiores clusters de training NVIDIA.
Spectrum-X Ethernet. O fabric Ethernet AI-otimizado da NVIDIA (400 Gb/s, depois 800 Gb/s), introduzido em 2023 como resposta à preferência dos hyperscalers por Ethernet sobre InfiniBand por razões operacionais. Spectrum-X adiciona telemetria AI-específica, congestion control, e transporte lossless em cima do Ethernet padrão.

O landscape competitivo:

Arista, Cisco, Broadcom todos vendem switches AI-Ethernet nessa camada. Spectrum-X compete contra Etherlink da Arista e silício Jericho/Tomahawk da Broadcom.
Clusters de ASIC custom ainda compram fabric NVIDIA. Mesmo clusters AWS Trainium e pods Google TPU usam switching NVIDIA-branded em tiers mais altos. A diferenciação que a NVIDIA oferece é software integrado (DPUs BlueField fazem offload de congestion control; BCM/NetQ da NVIDIA fornece visibilidade cluster-level) que competidores carecem.

Essa é a camada onde a NVIDIA compete - não monopoliza - e onde a história de crescimento está.

Camada 3 - Inter-rack e data-center-wide.

Para clusters de training que se estendem por múltiplos racks - clusters de fronteira atuais são 100.000+ GPUs em dezenas de racks - o fabric precisa estender para wide-area bandwidth. As soluções da NVIDIA aqui são as mesmas gerações Spectrum-X e Quantum-2 escaladas com camadas de spine adicionais.

O landscape competitivo:

Fabrics built por hyperscaler. Google tem Jupiter (o fabric de data-center interno deles). Meta tem o seu. Esses são soluções intra-hyperscaler que não competem no mercado mais amplo mas reduzem o TAM da NVIDIA naqueles clientes específicos.
Arista, Cisco na camada de spine data-center wide-area.
Vendors especializados (Marvell, Broadcom) na camada de componente de silício.

Essa camada é a mais contestada. A posição competitiva da NVIDIA é mais forte na Camada 1 (proprietária, bundled com GPUs), forte na Camada 2 (a diferenciação AI-específica funciona), e competitive-mas-não-dominante na Camada 3.

Por que clusters de ASIC custom compram networking NVIDIA

A observação crítica que o bear case perde: programas de silício custom na AWS, Meta, e Microsoft não (na maioria) constroem seu próprio fabric de networking. Eles licenciam ou compram da NVIDIA. As razões:

1. Networking é uma disciplina de engenharia diferente do design de acelerador. Designar um acelerador IA custom é um programa de 3-5 anos com centenas de engenheiros; designar um switch fabric data-center custom é um programa diferente de 5-7 anos com uma especialidade diferente (design ASIC de rede + stacks de protocolo + congestion control). Hyperscalers priorizam silício acelerador porque é onde a economia de compute está; networking é o bucket de segunda-prioridade.

2. O moat de IP do fabric é real. A herança Mellanox da NVIDIA inclui 25 anos de IP de interconnect high-performance - RDMA-over-Converged-Ethernet (RoCE), GPUDirect, algoritmos de congestion control, os coletivos in-network Sharp que fazem offload de operações all-reduce para o switch fabric. Replicar isso é trabalho de engenharia multi-ano que hyperscalers não priorizaram.

3. Time-to-market. Quando você constrói um cluster de training de 100.000 aceleradores, você tem uma janela de deployment. Construir o chip + o fabric + a stack de software em paralelo multiplica o risco. Comprar o fabric off-the-shelf da NVIDIA (ou Arista ou Broadcom) deixa você focar a engenharia in-house na parte que mais importa - o acelerador.

A implicação trade-relevante: mesmo se a Meta substituir todas as GPUs NVIDIA por MTIA, eles provavelmente ainda vão comprar networking NVIDIA (ou Arista/Broadcom-com-stack-software-NVIDIA) para o cluster fabric. A linha de receita de networking está parcialmente isolada da competição de silício custom na camada de compute.

A história financeira

NVIDIA divulga receita de data-center em dois buckets: compute (o negócio GPU) e networking (Mellanox + os produtos pós-aquisição). Prints recentes:

Compute: ~US$24B por trimestre (Q4 FY2026)
Networking: ~US$3,3B por trimestre (Q4 FY2026), ~US$13B anualizado
Networking está crescendo 50%+ ano-a-ano vs ~80% para compute (que está desacelerando conforme lapeia compares prior-year)

Margens brutas de networking são acreditadas serem ligeiramente maiores que compute numa base percentual (NVIDIA não divulga margens product-level, mas channel checks sugerem que switches InfiniBand e Spectrum-X high-end carregam pricing premium similar ao negócio GPU). O efeito agregado: networking está contribuindo significativamente para dólares de lucro bruto e é a linha menos concentrada e menos competitivamente ameaçada no negócio de data-center.

Para a análise de concentração de hyperscaler: o negócio de networking tem uma base de clientes mais diversa que o negócio de compute. Hyperscalers compram networking NVIDIA; clientes sovereign-AI compram networking NVIDIA; buildouts AI enterprise compram networking NVIDIA; as neoclouds (CoreWeave, Lambda, Crusoe) compram networking NVIDIA. A largura de contagem de clientes na camada de networking é materialmente maior do que na camada GPU.

O que quebraria o moat de networking

Três vetores de risco:

1. Arista Networks tomando share AI-Ethernet no high end. Arista tem sido o competidor mais forte em AI-Ethernet em hyperscalers. Se um hyperscaler top-3 padronizar em Arista Etherlink para clusters IA na camada de spine, o TAM Spectrum-X da NVIDIA comprime. Isso está parcialmente precificado - a ação da Arista reflete o upside AI-fabric - mas não totalmente refletido no bear case NVDA.

2. UEC (Ultra Ethernet Consortium) atingindo maturidade. UEC é um padrão da indústria para Ethernet AI-otimizado, suportado pela AMD, Broadcom, Cisco, Intel, Meta, Microsoft. O objetivo é fornecer uma alternativa de padrão aberto para Spectrum-X e InfiniBand. Em meados de 2026 o padrão está publicado mas implementações maduras estão 12-24 meses fora. Se UEC alcançar maturidade deployable e hyperscalers majors adotarem, a porção proprietária do moat de networking da NVIDIA (a telemetria AI-específica e congestion control) vira commodity.

3. In-network compute se tornando irrelevante. NVIDIA Sharp (Scalable Hierarchical Aggregation and Reduction Protocol) é a capacidade de in-network compute onde o próprio switch fabric realiza operações all-reduce parciais, acelerando coletivos multi-GPU. É um moat-chave herança-Mellanox. Se software acelerador-side de próxima geração (coletivos implementados inteiramente on-chip) reduzir o valor de in-network compute, o moat Sharp estreita.

Nenhum desses vetores está em massa crítica ainda. Todos os três são riscos reais de médio prazo.

A versão trade-relevante. Long $NVDA em networking é um trade parcialmente uncorrelated de long $NVDA em compute. O negócio de networking tem maior diversificação de clientes, crescimento estrutural em high-double-digits, e está menos exposto ao risco de concentração de clientes que afeta o negócio GPU. Para traders querendo exposição AI-fabric além de NVDA, $ANET (Arista) é o competidor mais limpo na camada de Ethernet spine; a bolha networking-optical cobre a cadeia de supply de componentes ópticos mais ampla.

Três sinais para observar

1. Desaceleração do crescimento de receita de networking NVDA. Se o crescimento de networking cair abaixo de 30% ano-a-ano, o ramp AI-fabric está maturando mais rápido que o esperado. Atualmente ainda em 50%+.

2. Customer wins AI-Ethernet da Arista. Arista divulga wins major de cluster IA em earnings calls. Se um hyperscaler anunciar um cluster de 100.000-aceleradores na Arista, o share-shift é concreto.

3. Deployments de produção UEC v1.0. Observe anúncios de hyperscaler de fabrics UEC-padronizados em clusters de IA de produção. Em meados de 2026, nenhum embarcou em escala.

Bottom line

A aquisição da Mellanox é a decisão de alocação de capital mais subapreciada na história da NVIDIA. Networking é agora um negócio de US$13B-run-rate com maior crescimento que as médias da categoria data-center mais amplas, uma base de clientes mais diversa que o negócio GPU, e um moat estrutural na Camada 1 (fabric intra-servidor proprietário) que clusters de ASIC custom não podem escapar. O fabric da Camada 2/Camada 3 é competitivamente contestado mas a stack de software AI-específica da NVIDIA fornece diferenciação que Arista e outros ainda não replicaram em escala.

Para a tese NVDA: networking é o segundo moat que o bear case frequentemente ignora. Está parcialmente uncorrelated dos riscos competitivos do negócio de compute, contribui significativamente para lucro bruto, e cresce mesmo quando ASICs custom deslocam spend GPU porque esses mesmos clusters de ASIC custom precisam de fabric de rede. Holders de longo prazo devem observar a linha de networking tão cuidadosamente quanto a linha de compute - é onde a resiliência da franquia a disrupção do lado compute de fato mora.

Dashboard NVDA no QuantAbundancia - painel de tese com marcas atuais.

O moat CUDA - o moat de software na camada de compute.

O bottleneck HBM da NVIDIA - a restrição do lado supply que gateia tanto o ramp de compute quanto de networking.

Concentração de clientes hyperscaler - por que a base de clientes de networking é mais diversificada que compute.

Avaliação da ameaça ASIC custom - por que clusters de silício custom ainda compram fabric NVIDIA.

O moat de networking da NVIDIA - por que NVLink, Spectrum-X, e a aquisição da Mellanox são o segundo produto do qual o mercado não fala

As três camadas de fabric explicadas

Por que clusters de ASIC custom compram networking NVIDIA

A história financeira

O que quebraria o moat de networking

Três sinais para observar

Bottom line

Related bubbles

Related research

Go deeper

Get the daily digest.