La concentration client de NVIDIA — cinq acheteurs, la moitié du revenu, et ce qui arrive si l'un d'eux in-house
Microsoft, Meta, Alphabet, Amazon, Oracle. Les cinq clients directs top de NVIDIA représentent environ 45-55 % du revenu data-center selon le trimestre. La concentration n'est pas une note de bas de page — c'est le plus grand bear case structurel sur l'action contre lequel le moat CUDA ne défend pas. Ce que dit vraiment le langage du 10-K, ce que fait le programme custom-silicon de chaque hyperscaler, et pourquoi le TPU de Google est le vrai comparable.
Le 10-K de NVIDIA reporte la concentration client via un line item générique : « un client a représenté approximativement 13 % du revenu total ». Cette seule phrase est la disclosure la plus conséquente du document. Les autres 87 % sont aussi concentrés — juste étalés à travers quatre autres hyperscalers dans la même fourchette. Quand vous triangulez les disclosures contre ce que chaque hyperscaler report comme capex IA, le tableau se clarifie : Microsoft, Meta, Alphabet, Amazon, et Oracle ensemble représentent ~45-55 % du revenu data-center de $NVDA selon le trimestre.
Cette concentration c'est le bear case contre lequel le moat CUDA ne peut pas défendre. CUDA défend contre le switching de substrat par des nouveaux acheteurs. Il ne fait pas grand-chose pour défendre contre un acheteur existant qui a la capacité d'engineering d'absorber le coût de migration en poursuite d'économies capex à l'échelle. Les hyperscalers l'ont. Trois d'entre eux exécutent activement.
Cet article c'est à quoi ressemble chaque risque de concentration, pourquoi Google est le canari, et comment lire le langage de disclosure quand il shift.
Le TL;DR. La concentration client est le second-plus-grand risque structurel sur NVDA (après l'offre HBM). Le TPU de Google est la preuve qu'un hyperscaler peut totalement in-house — Google fait maintenant tourner la plupart de ses workloads IA internes sur TPU, pas NVDA. AWS Trainium et Meta MTIA sont 18-36 mois derrière cette voie. Si un second hyperscaler atteint « majorité workload interne sur silicium custom » dans la fenêtre 2027-2028, la base de revenu data-center de NVDA se contracte visiblement. Microsoft et Oracle ne sont pas sur cette voie et restent structurellement longs NVDA.
Ce que disent vraiment les disclosures
Les filings trimestriels de NVIDIA divulguent la concentration client de deux façons :
1. Clients directs (la ligne nommée « Client A, B, C »). Ce sont les entités que NVIDIA facture directement. Le 10-K divulgue typiquement deux ou trois clients franchissant le seuil 10 %. Les entités nommées sont généralement des OEMs (Dell, Hewlett Packard Enterprise, SuperMicro) ou des distributeurs qui assemblent les systèmes pour les hyperscalers, pas les hyperscalers eux-mêmes.
2. Clients finaux indirects (la ligne « un client indirect a représenté approximativement 19 % du revenu total »). C'est celle qui compte. La disclosure client-indirect capture l'hyperscaler qui possède in fine le silicium — l'entité qui a commandé des serveurs HGX chez SuperMicro, ce qui veut dire que SuperMicro apparaît comme client direct mais Microsoft (ou qui que ce soit) est l'acheteur final réel. NVIDIA divulgue ceux-ci parce que l'auditeur le requiert sous ASC 280 ; l'entité est identifiée par référence au risque de concentration pas par nom.
Cross-référencer les disclosures client-indirect de NVIDIA contre les line items capex IA des hyperscalers nommés dans leurs propres filings et le tableau se précise :
- Microsoft — divulgue ~80-90 Md$ de capex annuel jusqu'en FY2026 dont environ la moitié est data-center IA. Acheteur direct NVIDIA à large échelle ; ~13-15 % du revenu NVDA est la triangulation approximative.
- Meta — capex IA divulgué de 60-65 Md$ pour 2025, en hausse. Acheteur direct NVIDIA à large échelle ; ~10-13 % du revenu NVDA.
- Alphabet (Google) — gros acheteur de NVDA pour les workloads clients Google Cloud, mais les workloads internes de Google tournent sur TPU. Le split chez Google est ~70/30 TPU/NVDA pour le compute interne ; la dépense NVDA de Google Cloud est pour les clients Cloud externes qui veulent spécifiquement du silicium NVIDIA.
- Amazon (AWS) — gros acheteur NVDA pour les instances GPU AWS EC2 + workloads IA internes, mais ramp Trainium pour le training interne et Inferentia pour l'inférence interne. Part NVDA directe à peu près 10-12 %.
- Oracle — a émergé en 2024-2025 comme acheteur majeur NVDA pour la capacité IA d'OCI et le projet Stargate. Plus petit que les top quatre mais croissant le plus vite.
Les top cinq ensemble représentent ~45-55 % du revenu data-center NVDA selon le trimestre. C'est une concentration serrée même selon les standards du secteur tech.
Pourquoi la concentration est le bon cadre, pas le nombre de clients
Les défenseurs de NVIDIA pointent que le « Client A » nommé à 13 % dans le 10-K est un OEM, pas un hyperscaler, et que NVIDIA sert « des milliers de clients enterprise ». Les deux affirmations sont vraies et non pertinentes.
La question pertinente ce n'est pas combien d'entités signent les factures NVDA. C'est combien de décideurs indépendants contrôlent la demande. Les architectures hyperscaler sont planifiées centralement au niveau CTO/CFO — Satya Nadella, Sundar Pichai, Mark Zuckerberg, Andy Jassy, Larry Ellison sont les vrais acheteurs. Quand Meta décide d'allouer 20 Md$ à MTIA plutôt qu'à Blackwell pour le cycle 2027, c'est une décision qui comprime 20 Md$ de TAM NVDA chez une seule entreprise. Les « milliers de clients enterprise » somment à une petite minorité de la base de revenu data-center.
Le risque de concentration sur NVDA est behavior-corrélé, pas juste count-concentré. Cinq hyperscalers faisant face à la même pression marge brute sur l'inférence IA (les clients cloud attendent la parité prix/perf avec leurs alternatives on-prem à 25-30 % de TCO en moins) ont tous la même incitation à développer du silicium custom. Ils l'ont fait :
- Google : TPU v1 (2015) jusqu'à TPU v5e (2024) jusqu'à Ironwood TPU v7 (2025-2026). Le programme custom-silicon le plus mature.
- Amazon : Trainium (training, 2020), Inferentia (inférence, 2019), Trainium2 (2024). Le second-plus-mature.
- Meta : MTIA v1 (2023, inférence), MTIA v2 (2024-2025). En train de rattraper.
- Microsoft : Maia 100 (annoncé 2023, livraison 2024-2025). Le plus récent entrant.
- Oracle : pas de programme custom-silicon public. Structurellement long NVDA.
Pourquoi le TPU de Google est le canari
Google a annoncé TPU v1 en 2016 rétrospectivement (il tournait en interne depuis 2015). La réponse du marché a été muette — « Google a des besoins spéciaux, ça ne généralisera pas ». Dix ans plus tard, TPU a fait ce qui suit :
1. Capturé la majorité du workload IA interne de Google. Search ranking, prédiction clic ads, recommandation YouTube, classification spam Gmail, détection d'objet Google Photos, les training runs LaMDA/Bard/Gemini — tout ça tourne sur TPU, pas NVIDIA. Google n'a pas divulgué le split précisément mais les teardowns tiers et les disclosures d'engineer-blogs triangulent à ~70-80 % du compute IA interne sur TPU.
2. Atteint l'échelle commerciale externe. TPU est disponible sur Google Cloud à un pricing compétitif vs les instances NVDA H100/H200 sur les mêmes workloads. Anthropic a annoncé en 2024 qu'ils entraîneraient les modèles Claude sur TPU de Google aussi bien que sur NVIDIA — la première fois qu'un labo de modèle frontière s'est publiquement engagé sur un substrat de training non-NVIDIA à l'échelle.
3. Établi que le coût de migration est payable. C'est la partie sur laquelle le bear case se tient. Google a dépensé ~10 ans et des milliards de dollars à construire le stack software TPU (compilateur XLA, orchestration Pathways, intégration JAX) au point que les équipes internes choisissent TPU plutôt que NVDA sur l'infra propre de Google. Si Meta, AWS, et Microsoft dépensent chacun 5-7 ans et des dizaines de milliards sur leurs programmes custom-silicon, le coût de migration peut être amorti — et une fois qu'il l'a été, la dépense NVDA récurrente chez cet hyperscaler descend d'un cran.
La timeline pertinente pour le trade :
- 2025-2026 : AWS Trainium2 ramp ; part significative des workloads d'inférence internes AWS.
- 2026-2027 : Meta MTIA v3 attendu. Premier training MTIA publiquement divulgué d'un modèle frontière.
- 2027-2028 : Microsoft Maia v2 ou v3 attendu pour atteindre une part interne significative.
- 2028+ : Si deux hyperscalers ou plus franchissent le seuil « majorité IA interne sur silicium custom », la base de revenu concentrée de NVDA se contracte visiblement.
La défense de NVIDIA — voir le moat CUDA — c'est que le coût de migration est dans les mi-neuf chiffres par hyperscaler et que le premium de puce doit se comprimer significativement avant que le calcul ne bascule. Cette défense tient pour les nouveaux acheteurs. Elle ne tient pas pour les acheteurs existants qui ont déjà absorbé des années de CapEx dans leurs programmes silicon internes et veulent maintenant l'amortir.
Ce que fait NVIDIA pour riposter
NVIDIA ne reste pas immobile sur la concentration. Trois contre-moves sont visibles :
1. Le platform sell. NVIDIA s'est progressivement repositionné de « nous vendons des GPUs » à « nous vendons la plateforme intégrée » — systèmes DGX, reference designs MGX, stack software AI Enterprise, microservices NIM, l'approche full-stack. Le pitch à un hyperscaler c'est « vous pouvez construire votre propre ASIC, mais vous ne pouvez pas construire la plateforme que nous livrons — achetez la nôtre et réallouez vos cycles d'engineering à votre vrai produit ». Ça marche pour certains workloads (itération rapide de modèles frontière, instances client-cloud NVDA-demandées) et pas pour d'autres (workloads d'inférence matures à échelle connue, ce qui est exactement ce que les programmes custom-ASIC ciblent en premier).
2. Le customer-cloud play. NVIDIA investit dans des neoclouds indépendants (CoreWeave, Lambda, Crusoe, Together) et construit même sa propre offre DGX Cloud. La stratégie c'est de bypasser les hyperscalers entièrement — vendre la capacité directement aux développeurs finaux, prenant la couche cloud en interne. C'est structurellement hostile à Microsoft/Google/AWS mais ça diversifie la base de demande hors du top-5.
3. Le levier d'allocation d'offre. Quand le HBM est contraint (ce qu'il est — voir le bottleneck HBM) NVIDIA alloue l'offre rare aux clients qui continueront d'acheter long-terme. Les reports tout au long de 2024-2025 indiquaient que NVIDIA a priorisé les neoclouds et Oracle (high-growth, pas de programme custom-silicon) devant Google (large mais en train d'in-house) sur les allocations initiales Blackwell. C'est une policy d'allocation rationnelle du point de vue de NVIDIA et un signal de quels hyperscalers elle fait confiance comme clients forward.
Comment lire le langage de disclosure
Trois choses à surveiller dans chaque 10-K et filing trimestriel NVDA :
1. Ligne de concentration client-indirect. La disclosure « un client indirect a représenté X % du revenu total ». Si le X baisse de 2-3 points de pourcentage QoQ c'est un indicateur avancé que le plus gros hyperscaler réduit sa part — soit via l'in-housing soit via une allocation loin de NVIDIA.
2. Langage du 10-K hyperscaler sur le substrat de compute IA. Microsoft, Meta, Google, Amazon décrivent leurs architectures de compute IA dans les facteurs de risque 10-K et les discussions CapEx. La phrase « diversifier notre substrat de compute IA » ou « investir dans notre propre silicium custom pour les workloads IA » a commencé à apparaître dans les filings 2023-2024. Quand ce langage s'intensifie — nommant des programmes spécifiques, divulguant des allocations CapEx spécifiques à custom-silicon, ou guidant vers des pourcentages de substrate-mix — la voie d'in-housing se durcit. Les plus informatifs sont Meta et AWS, qui ont tous deux commencé à divulguer plus spécifiquement sur les deux derniers cycles annuels.
3. Commentaire NVIDIA en earnings-call sur le mix client cloud. NVIDIA catégorise le revenu data-center en « compute » (training-focused) et « networking » (Mellanox/InfiniBand/Spectrum-X) et référence la composition client sans nommer les noms. La phrase « sovereign AI » a commencé à apparaître lourdement en 2024 — c'est le pitch de NVIDIA aux acheteurs non-hyperscaler (gouvernements nationaux, grandes enterprises) et un tell qu'ils veulent diversifier la base client. Si le commentaire sovereign-AI grossit pendant que le commentaire hyperscaler stagne, la concentration tend structurellement dans le mauvais sens.
La lecture actionnable. Si vous êtes long $NVDA, vous êtes long demande concentrée. Le plus gros tail risk ce n'est pas AMD (le moat CUDA s'en occupe) et ce n'est pas les plafonds d'offre HBM (ceux-là affectent le ramp mais pas le TAM long-terme). C'est un hyperscaler atteignant la masse critique sur son programme custom-silicon et descendant sa dépense NVDA de 30-50 % en 18 mois. Google a montré que c'est possible. AWS est le suivant le plus probable. Meta et Microsoft sont derrière. Oracle est structurellement safe. Allouez en conséquence — et considérez le trade côté offre (oligopole HBM) comme une expression plus propre du buildout IA sans le risque de concentration client.
Trois signaux qui rendraient le risque de concentration concret
1. AWS Trainium devient le défaut pour les workloads Bedrock. Actuellement Bedrock (le service d'inférence LLM managé d'AWS) tourne un mix de NVIDIA et Trainium. Si AWS annonce Trainium-default avec NVIDIA comme tier opt-in, c'est une fonction step down dans la dépense NVDA d'AWS.
2. Meta publie un paper de training MTIA. Meta a entraîné les modèles Llama sur NVIDIA jusqu'ici. Un modèle frontière-class entraîné sur MTIA — même un petit — établirait que le stack software MTIA est assez mature pour déplacer NVIDIA sur les plus gros workloads de Meta. Aucun n'a été publié à mi-2026.
3. Disclosure de contribution revenu Maia de Microsoft. La dépense silicium de Microsoft est divulguée à la granularité capex trimestrielle mais ne break out pas Maia vs NVIDIA. Si Microsoft commence à référencer la « capacité Maia » en earnings calls comme part significative du compute IA, le substrat se durcit. Nadella a hinté cette trajectoire ; les chiffres ne l'ont pas encore montré.
Bottom line
Le business data-center de NVIDIA est concentré sur cinq hyperscalers, dont trois exécutent activement des programmes multi-année pour réduire leur dépendance NVIDIA. Le moat CUDA défend contre la migration des nouveaux acheteurs ; il ne défend pas contre l'in-housing des acheteurs existants. Google a démontré que le playbook marche. AWS et Meta sont 18-36 mois derrière. Microsoft est le plus lent et Oracle n'a pas de programme custom-silicon.
Le bull case sur NVDA doit pricer la timeline avant que deux hyperscalers ne franchissent le seuil « majorité interne sur silicium custom ». Le bear case sur NVDA — le bon bear case, pas le mauvais « AMD va rattraper » — le price plus tôt. Dans tous les cas, la concentration client est la variable qui compte, et le plafond d'offre HBM est le plancher sous les deux cases.
Dashboard NVDA sur QuantAbundancia — panneau thèse avec les marks actuels.
Le moat CUDA — pourquoi le software défend contre AMD mais pas contre l'in-housing hyperscaler.
Le bottleneck HBM de NVIDIA — le plafond côté offre qui gate le ramp de revenu peu importe la composition client.
Les 12 bulles IA classées — pourquoi compute, mémoire, et custom-silicon appartiennent à des blocs séparés même si le narratif les regroupe.
Related bubbles
Get the daily digest.
One email a day · alerts + bubble shifts + new research. Free during beta.
No spam. One email per day max. Telegram alerts coming with the paid tier.