IPO da Cerebras (CBRS): a primeira aposta pure-play em inferência cai no tape
Cerebras (CBRS) abriu +68% em seu IPO de US$ 5,55 bi. Silício em escala de wafer vs NVIDIA, 86% de concentração em cliente nos EAU, backlog de US$ 24,6 bi. Os cases bull e bear.
$CBRS precificou seu IPO em US$ 185 em 13 de maio, abriu em US$ 350, e fechou o primeiro dia em US$ 311,07 - +68,2% do preço de oferta. 30M de ações para captar US$ 5,55 bi, o maior IPO de 2026 até agora, valuation totalmente diluído de US$ 48,8 bi contra US$ 510M de receita em 2025. O book estava reportadamente 20× sobre-subscrito; o range subiu de US$ 115-125 → US$ 150-160 → US$ 185 ao longo do roadshow.
Esse é o headline. A coisa realmente interessante sobre a Cerebras é que é o primeiro acelerador de inferência especialista a tradear publicamente, o que a torna o primeiro nome listado onde você pode expressar uma visão na camada de inferência sem passar por $NVDA. Esse é um recorte limpo que o mercado público não oferecia antes.
Esta peça percorre o que o chip realmente faz, por que a concentração de clientes é o risco central, onde CBRS se encaixa em nossa taxonomia da bolha Compute / GPUs, e cinco coisas que o tape ainda não está precificando.
O chip: escala de wafer, camada por camada, otimizado para inferência
O Wafer-Scale Engine 3 (WSE-3) é um die do tamanho de um prato de jantar. 4 trilhões de transistores. 900.000 cores. 21 PB/s de largura de banda de memória on-wafer - aproximadamente 2.600× um único NVIDIA B200. O sistema CS-3 que o envolve entrega 125 PFLOPS de AI compute, consome 23 kW, ocupa 15U.
Para inferência, essa vantagem de largura de banda se materializa:
- Em workloads de raciocínio do Llama 3 70B, a Cerebras afirma ~21× inferência mais rápida que o B200 com ~32% menor custo total de propriedade.
- Benchmarks independentes da Artificial Analysis no Llama 4 Maverick (400B params): CS-3 entrega ~2.500 tokens/seg/usuário, vs NVIDIA DGX B200 ~1.000, SambaNova ~794, Groq ~549.
- Inferência em chip único: 1.200-2.000 tok/s no WSE-3 vs ~100-150 num único H100.
A razão arquitetural é estrutural, não marketing. A Cerebras roda um dataflow "camada por camada": o wafer inteiro computa uma camada do modelo para todos os dados em voo, depois a próxima. Isso elimina a sincronização de memória cross-chip que domina a latência da inferência multi-GPU. A geração de tokens é sequencial, limitada por latência e por largura de banda - exatamente o workload onde escala de wafer ganha.
O próprio S-1 da Cerebras é explícito sobre o que isso não faz: não desafia a NVIDIA em treinamento, não desloca compute de propósito geral, não persegue o moat amplo do ecossistema CUDA. O pitch é mais estreito e mais afiado - inferência crítica em latência para modelos de fronteira, onde cada ms adicional de TTFT é custo de UX.
Essa estreiteza é o case bull E o case bear. Se a inferência virar um mercado segmentado por workload (treinamento na NVIDIA, inferência sensível a latência em silício especialista), a Cerebras possui uma faixa real. Se a inferência dos hyperscalers consolidar de volta nos racks GB200 NVL72 porque a ferramenta já está lá, a faixa é espremida.
Trajetória de receita: real, mas concentrada
A curva de crescimento parece uma inflexão: US$ 24,6M (2022) → US$ 78,7M (2023) → US$ 290,3M (2024) → US$ 510M (2025), +76% YoY. Lucro líquido GAAP de US$ 237,8M em 2025 - mas a perda operacional GAAP foi de US$ 145,9M, então o número da bottom-line é dirigido por itens não-operacionais (marcas de valuation, imposto diferido). O negócio operacional ainda está queimando caixa; o lucro do headline é um artefato.
A concentração divulgada no S-1 é a parte que importa mais que a curva:
- G42 (EAU): 24% da receita de 2025 (era 85% em 2024)
- MBZUAI (Mohamed bin Zayed University of AI): 62% da receita de 2025
- Juntos: ~86% da receita de 2025, com ambas entidades sinalizadas no filing como partes relacionadas entre si
Na prática, a aparente diversificação saindo da G42 em 2025 foi realocação entre entidades conectadas de Abu Dhabi, não aquisição de novos clientes. A fatia total ligada aos EAU não se moveu - apenas ganhou duas colunas em vez de uma.
O backlog conta a mesma história com a próxima perna por cima:
- US$ 1,43 bi em compromissos de longo prazo da G42
- US$ 10 bi / 750 MW acordo com a OpenAI assinado em janeiro de 2026, indo até 2028
- Backlog total divulgado: ~US$ 24,6 bi, dos quais ~80% é OpenAI
Então a base de clientes em base de receita é dois terços EAU hoje, e em base de backlog pivota forte para OpenAI em 2026-2028. Três clientes explicam todo o negócio futuro. Dois deles são entidades de Abu Dhabi como partes relacionadas; o terceiro é uma empresa privada cujo próprio runway é consumido pelo pricing de compute da Microsoft e pelo ritmo real de build do Stargate.
O overhang do CFIUS, e por que ainda importa
A Cerebras protocolou seu primeiro S-1 em setembro de 2024 e foi forçada a retirar depois que o Comitê dos EUA para Investimento Estrangeiro nos Estados Unidos (CFIUS) abriu uma revisão da participação minoritária da G42. A revisão concluiu em outubro de 2025 depois que o holding da G42 foi reestruturado para ações sem direito a voto. Isso liberou o caminho para a listagem de maio de 2026.
O entrelaçamento legal está resolvido. O econômico não está. ~86% da receita de 2025 ainda flui de um cluster de clientes ligado a governo estrangeiro, e a postura de controle de exportação para compute de IA no Oriente Médio tem sido um arquivo ativo, bipartidário, de política dos EUA desde 2023. Se a próxima administração apertar as regras equivalentes a H20/Blackwell para cobrir silício especializado em escala de wafer - uma categoria que não existia quando o regime atual foi escrito - a concentração de clientes vira uma cauda regulatória.
Isso não é um bear de cenário base. Mas é o tipo de risco que o prospecto precifica uma vez via texto padrão e o mercado reprecifica repetidamente conforme as manchetes chegam.
Onde CBRS se encaixa na taxonomia de bolhas
Para leitores familiarizados com nosso framework das 12 bolhas editoriais de IA: CBRS pertence ao bloco Semicondutores / Compute no papel - mesmo sinal de demanda (capex de IA), mesmo uso final (inferência de modelos) - mas a correlação residualizada quase certamente vai imprimir menor que NVDA/AMD/AVGO dentro daquele bloco, e a razão é o mesmo argumento de diluição que rodamos em Hyperscalers ao contrário.
A ação da NVDA responde a: receita de data-center, gaming, automotivo, Mellanox, licenciamento de software, notícias de regra de exportação para China, sentimento amplo de capex de IA. A tese de inferência de IA é um de sete drivers.
A ação da CBRS vai responder a: ritmo de renovação da G42, marcos de deployment da OpenAI, ramp do AWS Bedrock, uma manchete do CFIUS, uma atualização de timeline do Stargate. A tese de inferência de IA é essencialmente toda a ação.
Esse é o modo de falha da Quantum ao contrário: exposição de tese pura sem nada para diluí-la. Resultado líquido: o retorno residualizado da CBRS não vai acompanhar a NVDA de perto mesmo que ambas sejam "AI compute". Vai tradear mais como um nome Quantum pré-receita com um mega-cliente adicionado - episódico, dirigido por manchetes, dimensionado por anúncios de backlog.
Vamos adicionar CBRS ao dashboard ao vivo da bolha Semicondutores / Compute depois das primeiras 30 sessões de trading pós-IPO e reportar o que a correlação residualizada realmente imprime. Nosso prior: ela se junta ao bloco mas não o aperta - e a residualização intra-bloco para os pure-plays de GPU pode melhorar uma vez que CBRS puxe a exposição de especialista em inferência para fora.
A leitura cruzada da AWS
13 de março de 2026: a AWS anunciou que a Cerebras seria o primeiro provedor de cloud para sua oferta de inferência desagregada no Amazon Bedrock. A arquitetura combina silício AWS Trainium com WSE para "5× mais capacidade de tokens de alta velocidade na mesma pegada de hardware".
Isso importa em duas direções:
-
Para a Cerebras, é validação de que o maior hyperscaler está disposto a colocar silício especialista ao lado de seus próprios aceleradores customizados em vez de rotear inferência via NVIDIA. Esse é o ativo estratégico que a divulgação de concentração de clientes não captura - alavancagem de distribuição no único canal que possui a demanda de inferência.
-
Para a NVIDIA, a leitura é mais nuançada que "Cerebras está pegando market share". A resposta da NVDA foi adquirir US$ 20 bi de ativos da Groq em dezembro de 2025 e anunciar produtos baseados em arquitetura Groq meses depois. O mercado de inferência de fronteira está se particionando numa camada de especialistas, e a NVIDIA está comprando entrada nela em vez de cedê-la. A pressão competitiva na margem bruta da NVDA por esse recorte é real mas estreita - inferência de latência de fronteira é uma pequena fração da receita total de silício de IA hoje, mesmo que cresça mais rápido.
A matemática do lockup
A CBRS tem um cronograma de lockup incomumente comprimido. Mais de 60 milhões de ações desbloqueiam até o release de resultados do Q2 2026 - isso é aproximadamente 2× o float do IPO, batendo no mercado menos de 90 dias depois da estreia.
Implicação concreta: a oferta do IPO no tape hoje (30M de ações da oferta) é estruturalmente leve. O flow que importa para o preço de médio prazo é o que acontece no vencimento do lockup. Com 20× de sobre-subscrição no book, a oferta secundária vai aterrissar em demanda que já perdeu a alocação inicial. Mas com insiders sentados num ganho de papel de 70%+ do preço de abertura do IPO, o incentivo de oferta também é alto.
Esta é a montagem clássica para um pico de volatilidade pós-lockup agudo, em qualquer direção. Os primeiros 90 dias da CBRS como ação pública não são uma amostra representativa de onde ela tradeia no longo prazo. A pergunta de fair-value tem uma leitura limpa só depois que o lockup absorve e a base de holders normaliza.
Cinco coisas que o tape ainda não está precificando
Em ordem aproximada de convicção:
-
A normalização de concentração de clientes é gradual, não instantânea. A fatia EAU não vai cair abaixo de 50% antes de 2027 mesmo no ramp mais generoso da OpenAI. Qualquer um modelando CBRS como um nome de "infra de IA diversificada" está precificando errado a superfície de risco político dos próximos quatro trimestres.
-
O acordo OpenAI é dólares e capacidade de compute travados, não receita comprometida. US$ 10 bi / 750 MW até 2028 é um acordo de compra de capacidade. O reconhecimento de receita real depende do próprio ritmo de buildout de data-center da OpenAI, que é gatilhado por energia e zoneamento mais que por chips. O backlog converte num ritmo que a OpenAI controla, não a Cerebras.
-
TAM de inferência é mais difícil de dimensionar que TAM de treinamento, porque a economia por consulta escala com tamanho do modelo × volume de tokens × requisitos de latência. O case bull para expansão do TAM de inferência assume que modelos de fronteira ficam grandes E latência continua sendo um moat E inferência on-device não come a cauda longa. Cada uma dessas três é contestável, e os ranges de TAM de consenso que você vai ver citados (de US$ 50 bi a US$ 200 bi até 2030) não são o mesmo número.
-
O benchmark "21× B200" é específico de workload. Raciocínio no Llama 3 70B é o caso de uso para o qual a Cerebras é otimizada. Em workloads de embedding vanilla, geração de imagem, ou treinamento, a margem comprime ou inverte. A vantagem de TCO all-in encolhe materialmente fora da faixa de inferência limitada por latência.
-
O print de lucratividade GAAP é não-operacional. A linha de lucro líquido de 2025 não é um resultado operacional sustentável. A empresa ainda está investindo via sua linha de custo. Modelagem de EBITDA forward que se ancora na figura de US$ 237M de lucro líquido em vez da perda operacional de US$ 146M está lendo o campo errado.
O dashboard ao vivo da bolha Semicondutores / Compute acompanha NVDA, AMD, AVGO, TSM, INTC, MRVL, MU, QCOM. CBRS será adicionada depois de 30 sessões pós-IPO, com o resultado de correlação residualizada publicado para qualquer lado que os dados imprimam.
A leitura mais profunda: CBRS é o primeiro nome listado na pilha de IA onde toda a tese de investimento é "especialização em inferência ganha uma faixa estrutural contra GPUs de propósito geral". Essa tese é empiricamente testável de um jeito que a maioria dos nomes de infraestrutura de IA não é, porque a base de clientes é pequena o suficiente para acompanhar trimestre a trimestre e o workload (inferência de modelo de fronteira) é concentrado o suficiente para ler em benchmarks públicos.
É um trade limpo - a favor ou contra - num setor onde a maioria dos trades é suja.
Para contexto da taxonomia: As 12 bolhas de IA, ranqueadas por realidade empírica. Para a peça metodológica relacionada sobre por que nomes de tese única concentrada clusterizam de perto: O que é correlação residualizada?.
Related bubbles
Related research
Go deeper
Get the daily digest.
One email a day · alerts + bubble shifts + new research. Free during beta.
No spam. One email per day max. Pro adds Telegram trade alerts and higher AI-assistant limits.