IPO Cerebras (CBRS) : le premier pari pure-play inférence frappe la tape

$CBRS a pricé son IPO à 185 $ le 13 mai, ouvert à 350 $, et clôturé le jour 1 à 311,07 $ - +68,2 % depuis l'offre. 30 M d'actions pour 5,55 G$ levés, la plus grosse IPO 2026 jusqu'ici, valorisation pleinement diluée de 48,8 G$ contre 510 M$ de revenu 2025. Le book aurait été 20× sursouscrit ; la fourchette est passée de 115-125 $ → 150-160 $ → 185 $ sur le roadshow.

C'est le headline. Le truc vraiment intéressant à propos de Cerebras, c'est que c'est le premier accélérateur d'inférence spécialiste à trader publiquement, ce qui en fait le premier nom coté où vous pouvez exprimer une vue sur la couche inférence sans passer par $NVDA. C'est un carve-out propre que le marché public n'offrait pas auparavant.

Cette pièce traverse ce que la puce fait vraiment, pourquoi la concentration client est le risque central, où CBRS se situe dans notre taxonomie bulle Compute / GPU, et cinq choses que la tape n'a pas encore pricées.

La puce : wafer-scale, layer-by-layer, optimisée pour l'inférence

Le Wafer-Scale Engine 3 (WSE-3) est un seul die de la taille d'une assiette de dîner. 4 trillions de transistors. 900 000 cores. 21 PB/s de bande passante mémoire on-wafer - environ 2 600× un B200 NVIDIA unique. Le système CS-3 qui l'enveloppe délivre 125 PFLOPS de compute IA, tire 23 kW, occupe 15U.

Pour l'inférence, cet avantage de bande passante encaisse :

Sur les workloads de raisonnement Llama 3 70B, Cerebras revendique ~21× plus rapide en inférence que le B200 à ~32 % de TCO inférieur.
Benchmarks indépendants Artificial Analysis sur Llama 4 Maverick (400 G params) : CS-3 délivre ~2 500 tokens/sec/utilisateur, vs NVIDIA DGX B200 ~1 000, SambaNova ~794, Groq ~549.
Inférence single-chip : 1 200-2 000 tok/s sur WSE-3 vs ~100-150 sur un H100 unique.

La raison architecturale est structurelle, pas marketing. Cerebras tourne un dataflow « layer-by-layer » : le wafer entier compute une couche du modèle pour toutes les données en vol, puis la suivante. Ça élimine la synchronisation mémoire cross-chip qui domine la latence d'inférence multi-GPU. La génération de tokens est séquentielle, latency-bound et bandwidth-bound - exactement le workload où le wafer-scale gagne.

Le S-1 de Cerebras lui-même est explicite sur ce que ça ne fait pas : ça ne challenge pas NVIDIA sur l'entraînement, ça ne déplace pas le compute généraliste, ça ne poursuit pas le moat large CUDA-ecosystem. Le pitch est plus étroit et plus tranchant - inférence latency-critical pour les frontier models, où chaque ms supplémentaire de TTFT est un coût UX.

Cette étroitesse est le bull case ET le bear case. Si l'inférence devient un marché workload-segmenté (entraînement sur NVIDIA, inférence latency-sensitive sur silicium spécialiste), Cerebras possède une vraie lane. Si l'inférence hyperscaler se reconsolide sur des racks GB200 NVL72 parce que le tooling est déjà là, la lane se fait écraser.

Trajectoire de revenu : réelle, mais concentrée

La courbe de croissance ressemble à une inflexion : 24,6 M$ (2022) → 78,7 M$ (2023) → 290,3 M$ (2024) → 510 M$ (2025), +76 % YoY. Net income GAAP 237,8 M$ en 2025 - mais la perte opérationnelle GAAP était de 145,9 M$, donc le print bottom-line est tiré par des items non-opérationnels (marks de valorisation, impôts différés). Le business opérationnel brûle toujours du cash ; le profit headline est un artefact.

La concentration divulguée dans le S-1 est la partie qui compte plus que la courbe :

G42 (UAE) : 24 % du revenu 2025 (était 85 % du 2024)
MBZUAI (Mohamed bin Zayed University of AI) : 62 % du revenu 2025
Ensemble : ~86 % du revenu 2025, avec les deux entités flagguées dans le filing comme parties liées entre elles

En pratique, la diversification apparente loin de G42 en 2025 était une réallocation entre entités connectées d'Abu Dhabi, pas une acquisition de nouveaux clients. La part totale UAE-linked n'a pas bougé - elle a juste eu deux colonnes au lieu d'une.

Le backlog raconte la même histoire avec la prochaine jambe par-dessus :

1,43 G$ d'engagements long-terme de G42
Deal OpenAI 10 G$ / 750 MW signé janvier 2026, courant jusqu'en 2028
Backlog total divulgué : ~24,6 G$, dont ~80 % est OpenAI

Donc la base client sur une base revenu est aux deux tiers UAE aujourd'hui, et sur une base backlog elle pivote dur vers OpenAI pour 2026-2028. Trois clients expliquent tout le business forward. Deux d'entre eux sont des entités d'Abu Dhabi parties liées ; le troisième est une compagnie privée dont le propre runway est consommé par le pricing compute de Microsoft et le rythme de build réel de Stargate.

L'overhang CFIUS, et pourquoi ça compte toujours

Cerebras a déposé son premier S-1 en septembre 2024 et a été forcé de le retirer après que le U.S. Committee on Foreign Investment in the United States (CFIUS) ait ouvert une review sur la participation minoritaire de G42. La review a conclu en octobre 2025 après que le holding de G42 ait été restructuré en actions non-votantes. Ça a dégagé la voie pour le listing de mai 2026.

L'enchevêtrement légal est résolu. L'économique ne l'est pas. ~86 % du revenu 2025 coule toujours d'un cluster client lié à un gouvernement étranger, et la posture export-control pour le compute IA Moyen-Orient est un dossier de politique US actif et bipartisan depuis 2023. Si la prochaine administration resserre les règles équivalentes H20/Blackwell pour couvrir le silicium specialty wafer-scale - une catégorie qui n'existait pas quand le régime actuel a été écrit - la concentration client devient une queue régulatoire.

Ce n'est pas un bear case de base. Mais c'est le genre de risque que le prospectus price une fois via du boilerplate et que le marché re-price répétitivement à mesure que les headlines arrivent.

Où CBRS se loge dans la taxonomie de bulles

Pour les lecteurs familiers avec notre framework 12 bulles IA éditoriales : CBRS appartient au bloc Semiconducteurs / Compute sur le papier - même signal de demande (capex IA), même end-use (inférence de modèle) - mais la corrélation résidualisée va presque certainement printer plus bas que NVDA/AMD/AVGO dans ce bloc, et la raison est le même argument de dilution qu'on a tourné sur Hyperscalers en sens inverse.

L'action NVDA répond à : revenu data-center, gaming, automobile, Mellanox, licensing software, news règles d'export Chine, sentiment large capex IA. La thèse inférence IA est un des sept drivers.

L'action CBRS va répondre à : cadence de renouvellement G42, jalons de déploiement OpenAI, ramp AWS Bedrock, un headline CFIUS, un update du timeline Stargate. La thèse inférence IA est essentiellement toute l'action.

C'est le failure mode Quantum en sens inverse : exposition pure-thèse sans rien pour la diluer. Résultat net : le rendement résidualisé de CBRS ne suivra pas NVDA serré même si les deux sont « compute IA ». Ça tradera plus comme un nom Quantum pré-revenu avec un mega-client ajouté - épisodique, headline-driven, sizé sur les annonces de backlog.

On ajoutera CBRS au dashboard live de la bulle Semiconducteurs / Compute après les 30 premières sessions de trading post-IPO et on reportera ce que la corrélation résidualisée print vraiment. Notre prior : elle rejoint le bloc mais ne le resserre pas - et la résidualisation within-bloc pour les pure-plays GPU peut s'améliorer une fois que CBRS sort l'exposition specialist-inférence.

La lecture AWS

13 mars 2026 : AWS a annoncé que Cerebras serait le premier cloud provider pour son offering d'inférence désagrégée sur Amazon Bedrock. L'architecture pair le silicium Trainium d'AWS avec WSE pour « 5× plus de capacité de tokens à haute vitesse dans la même empreinte hardware ».

Ça compte dans deux directions :

Pour Cerebras, c'est une validation que le plus gros hyperscaler est prêt à mettre du silicium specialist à côté de ses propres accélérateurs custom plutôt que de router l'inférence à travers NVIDIA. C'est l'asset stratégique que la divulgation de concentration client ne capture pas - leverage de distribution dans le seul canal qui possède la demande d'inférence.
Pour NVIDIA, la lecture est plus nuancée que « Cerebras prend des parts de marché ». La réponse de NVDA a été d'acquérir 20 G$ d'assets Groq en décembre 2025 et d'annoncer des produits basés sur l'architecture Groq des mois plus tard. Le marché frontier inference se partitionne en un tier specialist, et NVIDIA achète dedans plutôt que de le céder. La pression concurrentielle sur la marge brute NVDA de ce carve-out est réelle mais étroite - l'inférence frontier-latency est une petite fraction du revenu total silicium IA aujourd'hui, même si ça grandit le plus vite.

Le math du lockup

CBRS a un calendrier de lockup inhabituellement compressé. Plus de 60 millions d'actions débloquées d'ici la release earnings T2 2026 - c'est environ 2× le float IPO, frappant le marché moins de 90 jours après les débuts.

Implication concrète : la supply IPO sur la tape aujourd'hui (30 M d'actions de l'offre) est structurellement légère. Le flux qui compte pour le prix mid-term est ce qui se passe à l'expiry du lockup. Avec une sursouscription 20× dans le book, la supply secondaire va atterrir sur une demande qui a déjà raté l'allocation initiale. Mais avec les insiders assis sur un gain papier de 70 %+ depuis le prix d'ouverture IPO, l'incitation à la supply est aussi haute.

C'est le setup textbook pour un spike de volatilité post-lockup brutal, dans n'importe quelle direction. Les 90 premiers jours de CBRS comme action publique ne sont pas un échantillon représentatif d'où elle trade long-terme. La question de fair-value obtient une lecture propre seulement après que le lockup soit absorbé et que la base d'holders se normalise.

Cinq choses que la tape n'a pas encore pricées

Dans l'ordre approximatif de conviction :

La normalisation de la concentration client est graduelle, pas instantanée. La part UAE ne tombera pas sous 50 % avant 2027 même sur le ramp OpenAI le plus généreux. Quiconque modélise CBRS comme un nom « infra IA diversifié » mis-price la surface de risque politique des quatre prochains trimestres.
Le deal OpenAI est dollars et capacité compute lockée, pas du revenu committé. 10 G$ / 750 MW jusqu'en 2028 est un capacity-purchase agreement. La reconnaissance de revenu réelle dépend du propre rythme de buildout datacenter d'OpenAI, qui est gaté par le power et le zoning plus que par les puces. Le backlog convertit à un rythme qu'OpenAI contrôle, pas Cerebras.
Le TAM inférence est plus dur à sizer que le TAM entraînement, parce que l'économie par-query scale avec taille de modèle × volume de tokens × exigences de latence. Le bull case pour l'expansion du TAM-inférence assume que les frontier models restent gros ET que la latence reste un moat ET que l'inférence on-device ne mange pas la long tail. Chacun de ces trois est contestable, et les ranges TAM consensuels que vous verrez cités (n'importe où de 50 G$ à 200 G$ d'ici 2030) ne sont pas le même chiffre.
Le benchmark « 21× B200 » est workload-spécifique. Le raisonnement Llama 3 70B est le use case pour lequel Cerebras est optimisé. Sur workloads embedding vanilla, génération d'image, ou entraînement, la marge se compresse ou s'inverse. L'avantage TCO all-in rétrécit matériellement hors de la lane d'inférence latency-bound.
Le print de profitabilité GAAP est non-opérationnel. La ligne net income 2025 n'est pas un résultat opérationnel soutenable. La compagnie investit toujours à travers sa ligne de coûts. La modélisation EBITDA forward qui s'ancre sur le chiffre net-income de 237 M$ plutôt que sur la perte opérationnelle de 146 M$ lit le mauvais champ.

Le dashboard live de la bulle Semiconducteurs / Compute track NVDA, AMD, AVGO, TSM, INTC, MRVL, MU, QCOM. CBRS sera ajouté après 30 sessions post-IPO, avec le résultat de corrélation-résidualisée publié quel que soit le sens dans lequel la donnée print.

La lecture plus profonde : CBRS est le premier nom coté dans la stack IA où la thèse d'investissement entière est « la spécialisation inférence gagne une lane structurelle contre les GPU généralistes ». Cette thèse est empiriquement testable d'une façon que la plupart des noms infrastructure IA ne sont pas, parce que la base client est suffisamment petite pour être tracée trimestre par trimestre et que le workload (inférence frontier-model) est suffisamment concentré pour se lire sur les benchmarks publics.

C'est un trade propre - pour ou contre - dans un secteur où la plupart des trades sont sales.

Pour le contexte taxonomique : Les 12 bulles IA, classées par réalité empirique. Pour la pièce méthodologique reliée sur pourquoi les noms single-thesis concentrés clusterisent serré : Qu'est-ce que la corrélation résidualisée ?.

IPO Cerebras (CBRS) : le premier pari pure-play inférence frappe la tape

La puce : wafer-scale, layer-by-layer, optimisée pour l'inférence

Trajectoire de revenu : réelle, mais concentrée

L'overhang CFIUS, et pourquoi ça compte toujours

Où CBRS se loge dans la taxonomie de bulles

La lecture AWS

Le math du lockup

Cinq choses que la tape n'a pas encore pricées

Related bubbles

Related research

Go deeper

Get the daily digest.