Equipe de plataforma de computação
DEPOIMENTOS

O que dizem as equipes que trabalharam com a Cúbita

Relatos de times de plataforma após revisões, projetos de runbooks e meses de assessoria contínua.

← Voltar ao Início

Experiências reais

FM
Felipe Magalhães
Engenheiro de Plataforma · São Paulo, SP

"Fizemos a Revisão de Saúde depois de seis meses operando nosso cluster A100 sem nenhuma documentação formal. O relatório trouxe três pontos que a gente já desconfiava mas nunca tinha parado para registrar. Simples, direto, sem enrolação."

Maio 2025 · Revisão de Saúde Operacional
LA
Larissa Andrade
Tech Lead de ML Infra · Porto Alegre, RS

"O projeto de runbooks foi o que eu esperava — colaborativo de verdade. A equipe não chegou com um template pronto e pediu para a gente preencher. Passamos pelo que a gente já fazia, estruturamos junto, e no final ficou algo que eu consigo manter e passar para novos membros."

Junho 2025 · Desenvolvimento de Runbooks
RC
Rodrigo Costa
Diretor de Infraestrutura · Recife, PE

"Estamos no retainer há quatro meses. O que mais valorizo é ter um ponto de contato que entende o ambiente sem eu precisar explicar do zero toda vez. Às vezes a pergunta é pequena, mas a resposta me poupa horas de pesquisa."

Junho 2025 · Retainer de Assessoria Contínua
MO
Marina Oliveira
SRE Sênior · Belo Horizonte, MG

"O que me convenceu foi a postura. Não tentaram vender mais horas do que o necessário. A Revisão de Saúde foi honesta sobre o que estava bem e sobre o que precisava atenção — e não tentaram transformar cada ponto de atenção em um projeto adicional."

Maio 2025 · Revisão de Saúde Operacional
GN
Gabriel Neves
Coordenador de Plataforma · Curitiba, PR

"Contratamos o projeto de runbooks num momento em que estávamos dobrando o time. Precisávamos de algo que um engenheiro novo pudesse ler e entender sem precisar de três semanas de shadow. Entregou exatamente isso."

Abril 2025 · Desenvolvimento de Runbooks
PP
Patricia Pinto
Gerente de Operações de IA · Rio de Janeiro, RJ

"Já tentamos contratar consultoria genérica de infraestrutura antes. A diferença é que com a Cúbita não precisamos explicar o que é VRAM ou por que o scheduler importa. O contexto já está lá, e isso economiza muito tempo."

Maio 2025 · Retainer de Assessoria Contínua

Estudos de caso

CASO 01

Redução de falsos positivos em ambiente de treinamento distribuído

DESAFIO

Equipe de 4 engenheiros operando cluster com 16 GPUs H100 recebia volume alto de alertas de temperatura durante workloads de treinamento. Tempo gasto investigando falsos positivos consumia horas por semana.

SOLUÇÃO

Revisão de Saúde Operacional identificou que os limites de alerta estavam configurados sem considerar o comportamento térmico esperado durante jobs de treinamento longos. Sugestões incluíram limiares diferenciados por tipo de workload e critérios de triagem documentados.

RESULTADO

Redução de cerca de 70% no volume de alertas acionáveis após ajuste dos limiares. Equipe reportou que o tempo gasto em triagem diminuiu de forma relevante nas semanas seguintes à entrega do relatório.

"O relatório foi direto: os thresholds estavam errados para o nosso padrão de uso. Dois dias depois da entrega já tínhamos implementado as sugestões."
— Engenheiro de Plataforma, São Paulo
CASO 02

Estruturação de onboarding para cluster compartilhado entre equipes

DESAFIO

Organização com três equipes de pesquisa compartilhando um cluster de GPU. Cada time tinha seu próprio método informal de onboarding, o que gerava conflitos de agendamento e erros operacionais recorrentes em novos membros.

SOLUÇÃO

Projeto de Desenvolvimento de Runbooks focado no runbook de onboarding e no runbook de agendamento de jobs. Processo colaborativo incluiu representantes das três equipes na revisão dos rascunhos.

RESULTADO

Runbook de onboarding adotado como padrão único para as três equipes. Incidentes relacionados a conflitos de agendamento reduziram nas quatro semanas seguintes à entrega. Novo membro de uma das equipes concluiu onboarding sem acompanhamento direto usando apenas o runbook.

"Três equipes, três jeitos de fazer a mesma coisa. Conseguimos chegar num documento único que todo mundo conseguiu assinar. Isso já valia o projeto."
— Tech Lead, Porto Alegre
CASO 03

Assessoria contínua durante expansão de capacidade

DESAFIO

Organização planejando dobrar a capacidade do cluster dentro de seis meses, sem ter certeza de como as mudanças operacionais impactariam o dia a dia da equipe durante e após a expansão.

SOLUÇÃO

Retainer de Assessoria Contínua com foco nos ciclos mensais que antecederam e acompanharam a expansão. Revisões incluíram análise de capacidade projetada e atualização de runbooks para refletir o ambiente maior.

RESULTADO

Expansão realizada com documentação operacional atualizada desde o primeiro dia. Equipe reportou que a transição foi mais tranquila do que expansões anteriores, com menos ambiguidade sobre responsabilidades e procedimentos.

"Ter alguém de fora que acompanhava os ciclos mensais nos ajudou a não deixar a documentação defasada durante a expansão. É fácil esquecer isso quando todo mundo está ocupado."
— Gerente de Operações, Rio de Janeiro

Fale diretamente com a equipe

  • Endereço
    Rua Bocaiúva 2125, Centro
    Florianópolis — SC, 88015-902
  • Horário
    Segunda a sexta: 09h00 – 18h00
    BRT (UTC-3)

Tem dúvidas antes de contratar?

Oferecemos uma conversa inicial sem custo para entender o contexto da sua infraestrutura e avaliar juntos se há alinhamento com o que precisam.

Agendar Conversa Inicial

Indicadores de trabalho

+40
Engajamentos entregues
4.8
Avaliação média dos clientes
3
Anos de operação
BR
Atendimento nacional remoto
Membro da ABPITI desde 2024
Equipe com certificações em HPC e CUDA
Conformidade com LGPD em todos os projetos

Quer ser o próximo a ter uma operação mais estruturada?

Entre em contato e conte o estado atual do seu cluster. Respondemos em até 1 dia útil.

Entrar em Contato