Le moat networking de NVIDIA - pourquoi NVLink, Spectrum-X et le rachat de Mellanox sont le second produit dont le marché ne parle pas

Quand NVIDIA a payé 6,9 Mds$ pour Mellanox en mars 2019, le deal était cadré comme défensif - « ils ont besoin de la stack InfiniBand pour qu'Intel ne les verrouille pas hors du high-performance computing ». Sept ans plus tard, le cadrage est inversé. Le networking issu de Mellanox est la deuxième plus grosse ligne de produit de NVIDIA, faisant environ 13 Mds$ de revenu annualisé à un rythme de croissance de 50%+, avec des marges structurelles meilleures que le business GPU certains trimestres. NVLink, NVSwitch, Spectrum-X, InfiniBand, DPU BlueField - ce ne sont pas des add-ons. C'est le fabric qui transforme 100 000 GPU NVIDIA en un seul cluster de training, et le fabric que la plupart des programmes ASIC custom achètent aussi à NVIDIA.

C'est la partie de la thèse NVDA qui survit même quand le moat CUDA s'érode sur l'inférence ou quand les hyperscalers internalisent leur silicium. Quand AWS construit un cluster Trainium, ils achètent de l'InfiniBand NVIDIA. Quand Meta construit un cluster MTIA, ils achètent du Spectrum-X. La couche networking est un second moat - plus étroit, moins visible et plus difficile à déloger que le silicium.

Le TL;DR. Le training IA à la frontière nécessite un interconnect haute bande passante et faible latence entre GPU (ou accélérateurs). NVIDIA détient les solutions dominantes à trois niveaux : intra-serveur (NVLink/NVSwitch - propriétaire, livré avec les GPU NVDA), intra-rack (le fabric spine - Spectrum-X pour Ethernet, Quantum pour InfiniBand) et inter-rack (le même fabric scalé). Les ASIC custom n'ont pas d'alternative networking crédible ; ils utilisent typiquement du networking NVIDIA même quand ils font tourner du silicium custom pour le compute.

Les trois couches du fabric expliquées

Le training IA et l'inférence à grande échelle ont besoin de déplacer des données vite entre accélérateurs. Les données sont majoritairement des mises à jour de gradients pendant le training et de l'état du KV cache pendant l'inférence. Le pattern de communication est « all-to-all » ou « ring-all-reduce » - chaque GPU doit recevoir un état partiel de chaque autre GPU à chaque étape de training. Les exigences en bande passante et latence se composent à mesure que le cluster grandit.

La stack networking de NVIDIA couvre trois couches physiques :

Couche 1 - À l'intérieur du serveur (NVLink/NVSwitch).

NVLink est l'interconnect propriétaire GPU-à-GPU de NVIDIA, dans sa cinquième génération depuis Blackwell. NVLink 5 délivre ~1,8 To/s de bande passante bidirectionnelle entre GPU dans le même nœud. NVSwitch est le switch chip-level qui agrège les ports NVLink - un seul NVSwitch dans un serveur HGX peut connecter 8 GPU de manière non-bloquante à la bande passante NVLink complète.

Le paysage concurrentiel à cette couche :

AMD a Infinity Fabric sur les GPU Instinct (~1,6 To/s, légèrement plus lent que NVLink 5).
Les ASIC custom utilisent typiquement leurs propres fabrics intra-nœud propriétaires (mesh TPU de Google, Neuron Link d'AWS Trainium).
Cette couche est propriétaire par vendeur de silicium - vous ne pouvez pas utiliser NVLink avec des GPU AMD et vice versa.

C'est là où le networking de NVIDIA est bundlé avec le GPU lui-même ; vous ne pouvez pas y échapper si vous achetez du chip NVIDIA.

Couche 2 - À l'intérieur du rack (le fabric spine).

Pour connecter plusieurs serveurs dans un rack - typiquement 8-16 systèmes HGX ou DGX de NVIDIA par rack - il faut un réseau haute bande passante à travers les frontières de serveur. NVIDIA propose deux saveurs :

Quantum InfiniBand. Le fabric InfiniBand issu de Mellanox, dans sa dernière génération Quantum-2 (400 Gb/s par port, ~25-50 µs de latence). InfiniBand est le fabric HPC historique et le défaut pour les plus gros clusters de training NVIDIA.
Spectrum-X Ethernet. Le fabric Ethernet optimisé IA de NVIDIA (400 Gb/s, puis 800 Gb/s), introduit en 2023 en réponse à la préférence des hyperscalers pour Ethernet plutôt qu'InfiniBand pour des raisons opérationnelles. Spectrum-X ajoute de la télémétrie spécifique IA, du contrôle de congestion et un transport lossless par-dessus l'Ethernet standard.

Le paysage concurrentiel :

Arista, Cisco, Broadcom vendent tous des switches AI-Ethernet à cette couche. Spectrum-X concurrence Etherlink d'Arista et le silicium Jericho/Tomahawk de Broadcom.
Les clusters ASIC custom achètent encore du fabric NVIDIA. Même les clusters AWS Trainium et les pods Google TPU utilisent du switching NVIDIA aux tiers supérieurs. La différenciation qu'offre NVIDIA c'est le software intégré (les DPU BlueField offloadent le contrôle de congestion ; BCM/NetQ de NVIDIA fournit une visibilité cluster-level) qui manque aux concurrents.

C'est la couche où NVIDIA concurrence - sans monopoliser - et où se trouve l'histoire de croissance.

Couche 3 - Inter-rack et à l'échelle data-center.

Pour les clusters de training qui s'étendent sur plusieurs racks - les clusters frontière actuels font 100 000+ GPU sur des dizaines de racks - le fabric doit s'étendre à la bande passante longue distance. Les solutions de NVIDIA ici sont les mêmes générations Spectrum-X et Quantum-2 scalées avec des couches spine additionnelles.

Le paysage concurrentiel :

Fabrics construits par hyperscalers. Google a Jupiter (leur fabric data-center interne). Meta a le sien. Ce sont des solutions intra-hyperscaler qui ne concurrencent pas sur le marché plus large mais réduisent le TAM de NVIDIA chez ces clients spécifiques.
Arista, Cisco à la couche spine data-center longue distance.
Vendeurs spécialisés (Marvell, Broadcom) à la couche composant silicium.

Cette couche est la plus contestée. La position concurrentielle de NVIDIA est la plus forte en Couche 1 (propriétaire, bundlé avec les GPU), forte en Couche 2 (la différenciation spécifique IA fonctionne) et compétitive-mais-pas-dominante en Couche 3.

Pourquoi les clusters ASIC custom achètent du networking NVIDIA

L'observation critique que le bear case rate : les programmes silicium custom chez AWS, Meta et Microsoft ne construisent (majoritairement) pas leur propre fabric networking. Ils licencient ou achètent chez NVIDIA. Les raisons :

1. Le networking est une discipline d'ingénierie différente du design d'accélérateur. Concevoir un accélérateur IA custom est un programme de 3-5 ans avec des centaines d'ingénieurs ; concevoir un switch fabric data-center custom est un programme différent de 5-7 ans avec une spécialité différente (design d'ASIC réseau + stack de protocoles + contrôle de congestion). Les hyperscalers priorisent le silicium accélérateur parce que c'est là que se trouve l'économie compute ; le networking est le bucket de seconde priorité.

2. Le moat IP du fabric est réel. L'héritage Mellanox de NVIDIA inclut 25 ans d'IP en interconnect haute performance - RDMA-over-Converged-Ethernet (RoCE), GPUDirect, algorithmes de contrôle de congestion, les collectifs Sharp in-network qui offloadent les opérations all-reduce au switch fabric. Répliquer ça c'est plusieurs années de travail d'ingénierie que les hyperscalers n'ont pas priorisé.

3. Time-to-market. Quand vous construisez un cluster de training à 100 000 accélérateurs, vous avez une fenêtre de déploiement. Construire le chip + le fabric + la stack software en parallèle multiplie le risque. Acheter le fabric sur étagère chez NVIDIA (ou Arista, ou Broadcom) vous laisse concentrer l'ingénierie interne sur la partie qui compte le plus - l'accélérateur.

L'implication trade-relevant : même si Meta remplace tous les GPU NVIDIA par MTIA, ils continueront probablement à acheter du networking NVIDIA (ou Arista/Broadcom-avec-stack-software-NVIDIA) pour le fabric du cluster. La ligne de revenu networking est partiellement isolée de la concurrence silicium custom à la couche compute.

L'histoire financière

NVIDIA divulgue le revenu data-center en deux buckets : compute (le business GPU) et networking (Mellanox + les produits post-acquisition). Prints récents :

Compute : ~24 Mds$ par trimestre (Q4 FY2026)
Networking : ~3,3 Mds$ par trimestre (Q4 FY2026), ~13 Mds$ annualisés
Le networking croît à 50%+ en YoY vs ~80% pour le compute (qui décélère à mesure qu'il rattrape les comparables de l'an dernier)

Les marges brutes networking sont présumées être légèrement plus hautes que le compute en pourcentage (NVIDIA ne divulgue pas les marges par produit, mais les channel checks suggèrent qu'InfiniBand et les switches Spectrum-X haut de gamme portent un pricing premium similaire au business GPU). Effet agrégé : le networking contribue significativement aux dollars de marge brute et c'est la ligne moins concentrée et moins menacée concurrentiellement du business data-center.

Pour l'analyse de concentration hyperscaler : le business networking a une base client plus diversifiée que le business compute. Les hyperscalers achètent du networking NVIDIA ; les clients souverains IA achètent du networking NVIDIA ; les buildouts IA enterprise achètent du networking NVIDIA ; les neoclouds (CoreWeave, Lambda, Crusoe) achètent du networking NVIDIA. La largeur du compte clients à la couche networking est matériellement plus haute qu'à la couche GPU.

Ce qui casserait le moat networking

Trois vecteurs de risque :

1. Arista Networks prenant de la part AI-Ethernet en haut de gamme. Arista a été le concurrent le plus fort sur AI-Ethernet chez les hyperscalers. Si un top-3 hyperscaler standardise sur Arista Etherlink pour des clusters IA à la couche spine, le TAM Spectrum-X de NVIDIA se compresse. C'est partiellement pricé - l'action Arista reflète l'upside AI-fabric - mais pas pleinement reflété dans le bear case NVDA.

2. UEC (Ultra Ethernet Consortium) atteignant la maturité. UEC est un standard industriel pour Ethernet optimisé IA, soutenu par AMD, Broadcom, Cisco, Intel, Meta, Microsoft. L'objectif est de fournir une alternative open-standard à Spectrum-X et InfiniBand. À mi-2026, le standard est publié mais les implémentations matures sont à 12-24 mois. Si UEC atteint une maturité déployable et que les grands hyperscalers l'adoptent, la portion propriétaire du moat networking de NVIDIA (la télémétrie spécifique IA et le contrôle de congestion) devient une commodity.

3. Le in-network compute devenant non pertinent. NVIDIA Sharp (Scalable Hierarchical Aggregation and Reduction Protocol) est la capacité de compute in-network où le switch fabric lui-même effectue des opérations all-reduce partielles, accélérant les collectifs multi-GPU. C'est un moat clé issu de Mellanox. Si le software next-gen côté accélérateur (collectifs implémentés entièrement on-chip) réduit la valeur du compute in-network, le moat Sharp se rétrécit.

Aucun de ces vecteurs n'est à masse critique. Les trois sont des risques réels à moyen terme.

La version trade-relevant. Long $NVDA sur le networking est un trade partiellement décorrélé du long $NVDA sur le compute. Le business networking a une diversification client plus haute, une croissance structurelle dans les hauts double-digits, et est moins exposé au risque de concentration client qui affecte le business GPU. Pour les traders voulant une exposition AI-fabric au-delà de NVDA, $ANET (Arista) est le concurrent le plus propre à la couche spine Ethernet ; la bulle networking-optical couvre la chaîne d'approvisionnement composants optiques plus large.

Trois signaux à surveiller

1. Décélération de la croissance du revenu networking NVDA. Si la croissance networking tombe sous 30% YoY, le ramp AI-fabric mature plus vite qu'attendu. Actuellement encore à 50%+.

2. Wins clients AI-Ethernet d'Arista. Arista divulgue les grands wins AI-cluster dans les earnings calls. Si un hyperscaler annonce un cluster à 100 000 accélérateurs sur Arista, le shift de part est concret.

3. Déploiements production UEC v1.0. Surveillez les annonces d'hyperscalers de fabrics standardisés UEC en clusters IA production. À mi-2026, aucun n'a shippé à l'échelle.

Bottom line

Le rachat de Mellanox est la décision d'allocation de capital la plus sous-appréciée de l'histoire de NVIDIA. Le networking est aujourd'hui un business à 13 Mds$ en run-rate avec une croissance plus haute que les moyennes de la catégorie data-center plus large, une base client plus diverse que le business GPU, et un moat structurel en Couche 1 (fabric intra-serveur propriétaire) auquel les clusters ASIC custom ne peuvent échapper. Le fabric Couche 2/Couche 3 est concurrentiellement contesté mais la stack software spécifique IA de NVIDIA fournit une différenciation qu'Arista et les autres n'ont pas encore répliquée à l'échelle.

Pour la thèse NVDA : le networking est le second moat que le bear case ignore souvent. Il est partiellement décorrélé des risques concurrentiels du business compute, contribue significativement à la marge brute, et croît même quand les ASIC custom déplacent des dépenses GPU parce que ces mêmes clusters ASIC custom ont besoin de fabric réseau. Les détenteurs long-terme devraient surveiller la ligne networking aussi attentivement que la ligne compute - c'est là que vit vraiment la résilience de la franchise face à la disruption côté compute.

Dashboard NVDA sur QuantAbundancia - panneau thèse avec les marks actuels.

Le moat CUDA - le moat software à la couche compute.

Le bottleneck HBM de NVIDIA - la contrainte côté supply qui borne le ramp compute et networking.

Concentration client hyperscaler - pourquoi la base client networking est plus diversifiée que le compute.

Évaluation de la menace ASIC custom - pourquoi les clusters silicium custom achètent encore du fabric NVIDIA.

Le moat networking de NVIDIA - pourquoi NVLink, Spectrum-X et le rachat de Mellanox sont le second produit dont le marché ne parle pas

Les trois couches du fabric expliquées

Pourquoi les clusters ASIC custom achètent du networking NVIDIA

L'histoire financière

Ce qui casserait le moat networking

Trois signaux à surveiller

Bottom line

Related bubbles

Related research

Go deeper

Get the daily digest.