Operações de GPU com método e documentação
Conheça quem está por trás da Cúbita e como chegamos a este trabalho.
← Voltar ao InícioComo a Cúbita nasceu
A Cúbita nasceu da observação de um padrão recorrente: equipes de engenharia de plataforma adquirem hardware de aceleração de alto custo e, poucos meses depois, percebem que a operação cotidiana ainda acontece de forma informal — sem runbooks, sem critérios claros de manutenção, sem processos documentados para onboarding de novos membros.
A equipe fundadora trabalhou por anos em ambientes de computação de alto desempenho, tanto em projetos de pesquisa quanto em operações de infraestrutura corporativa. Esse histórico mostrou que o problema raramente está no hardware ou nas ferramentas — está na falta de método operacional.
Em 2023, decidimos formalizar esse trabalho consultivo, baseados em Florianópolis, com foco exclusivo em ambientes que utilizam aceleradores Nvidia. Sem alargamento de escopo para consultoria geral de TI. Sem promessas de resultados automáticos. Assessoria direta, com entregáveis que a própria equipe do cliente consegue manter depois.
Missão
Ajudar equipes de plataforma a operar ambientes de computação acelerada com mais clareza — por meio de revisões honestas, documentação durável e acompanhamento que respeita o conhecimento interno da organização.
Visão
Ser a referência em assessoria operacional para clusters de GPU no Brasil — reconhecidos pela objetividade dos entregáveis e pela capacidade de trabalhar com equipes de diferentes níveis de maturidade.
Valores
- Clareza acima de jargão
- Documentação que o cliente mantém
- Escopo definido antes do trabalho começar
- Nenhuma dependência criada desnecessariamente
Quem faz o trabalho
Mais de oito anos em operações de infraestrutura de alto desempenho. Trabalhou com clusters HPC em contexto acadêmico e depois em plataformas de ML corporativas antes de co-fundar a Cúbita.
Formação em gestão do conhecimento, com experiência em estruturação de runbooks e processos para equipes de DevOps e SRE. Responsável pela metodologia de entrega dos projetos de runbook da Cúbita.
Experiência em monitoramento e observabilidade de infraestrutura. Atua nas revisões de saúde operacional e no acompanhamento dos clientes do retainer mensal.
Como conduzimos os engajamentos
Confidencialidade por padrão
Todo engajamento inclui acordo de confidencialidade. Informações técnicas e organizacionais compartilhadas durante o trabalho ficam restritas à equipe Cúbita envolvida no projeto.
Escopo documentado antes do início
O escopo de cada modalidade é acordado por escrito antes do trabalho começar. Alterações durante o engajamento são tratadas de forma explícita, não assumidas.
Interlocutor único por projeto
Cada cliente tem um membro da equipe Cúbita como ponto de contato principal durante o engajamento — sem transferências não anunciadas ou rotatividade de interlocutores.
Entregáveis em formato editável
Relatórios e runbooks são entregues em formatos que o cliente pode editar e versionar internamente — Markdown, Notion, Confluence ou o formato preferido da equipe.
Comunicação assíncrona preferencial
Valorizamos comunicação registrada e assíncrona. Reuniões síncronas são agendadas quando necessário, não como padrão de todo alinhamento.
Transparência sobre limitações
Se um problema está fora do escopo da assessoria operacional, dizemos isso diretamente — e, quando possível, indicamos quem pode ajudar melhor.
Assessoria operacional para plataformas de computação acelerada
O uso de aceleradores Nvidia — da linha de GPUs A100, H100 e demais da família Hopper e Ampere — cresceu de forma expressiva em organizações brasileiras que desenvolvem ou utilizam modelos de linguagem, sistemas de visão computacional e pipelines de treinamento distribuído. Com esse crescimento, a complexidade operacional dos ambientes também aumentou.
Diferente de infraestrutura de propósito geral, clusters de GPU têm particularidades operacionais: gerenciamento de drivers e toolkits de CUDA, monitoramento de temperatura e utilização de VRAM, agendamento de workloads com múltiplos usuários ou equipes, e processos de manutenção que precisam minimizar indisponibilidade em ambientes onde jobs de treinamento podem levar horas ou dias.
A Cúbita trabalha com equipes de plataforma que precisam estruturar ou revisar como essas operações acontecem — sem impor um modelo único, mas ajudando a tornar o que já funciona mais sistemático e o que não funciona mais fácil de identificar e corrigir.
Com base em Florianópolis, atendemos clientes em todo o Brasil de forma predominantemente remota, com visitas presenciais quando o escopo do engajamento justifica.
Quer conhecer melhor como trabalhamos?
Uma conversa de 30 minutos costuma ser suficiente para entender se há alinhamento com o que sua equipe precisa.
Agendar Conversa