IBM diz que está executando 'supercomputador AI' desde maio, mas escolheu agora para contar ao mundo

IBM diz que está executando 'supercomputador AI' desde maio, mas escolheu agora para contar ao mundo

Nó Fonte: 1950471

A IBM é a mais recente gigante da tecnologia a revelar seu próprio “supercomputador de IA”, composto por várias máquinas virtuais em execução no IBM Cloud.

O sistema conhecido como Vela, que a empresa afirma estar online desde maio do ano passado, é apresentado como o primeiro supercomputador nativo da nuvem otimizado para IA da IBM, criado com o objetivo de desenvolver e treinar modelos de IA em grande escala.

Antes que alguém saia correndo para se inscrever para acesso, a IBM afirmou que a plataforma está atualmente reservada para uso pela comunidade IBM Research. Na verdade, o Vela se tornou o “ambiente preferido” da empresa para pesquisadores que criam recursos avançados de IA desde maio de 2022, incluindo trabalhos em modelos de fundação, afirmou.

A IBM afirma que escolheu essa arquitetura porque oferece à empresa maior flexibilidade para escalar conforme necessário e também a capacidade de implantar infraestrutura semelhante em qualquer datacenter IBM Cloud em todo o mundo.

Mas o Vela não está em execução em nenhum hardware de nó IBM Cloud padrão antigo; cada um é um sistema de soquete duplo com processadores escalonáveis ​​Xeon de 2ª geração configurados com 1.5 TB de DRAM e quatro unidades flash NVMe de 3.2 TB, além de oito GPUs Nvidia A80 de 100 GB, esta última conectada por NVLink e NVSwitch.

Isso torna a infraestrutura Vela mais próxima de um site de computação de alto desempenho (HPC) do que uma infraestrutura de nuvem típica, apesar da insistência da IBM de que estava seguindo um caminho diferente, pois “os supercomputadores tradicionais não foram projetados para IA”.

Também é notável que a IBM optou por usar processadores x86 em vez de seus próprios chips Power 10, especialmente porque eles eram elogiado por Big Blue como sendo ideal para cargas de trabalho com uso intensivo de memória, como inferência de IA de modelo grande.

Os nós são interconectados usando várias interfaces de rede de 100 Gbps organizadas em uma estrutura Clos de dois níveis, projetada para que haja vários caminhos para os dados fornecerem redundância.

No entanto, a IBM explica em uma postagem de blog seus motivos para optar por uma arquitetura nativa da nuvem, que se concentra em reduzir o tempo necessário para criar e implantar modelos de IA em grande escala o máximo possível.

“Construímos nosso sistema no local, usando o modelo tradicional de supercomputação, ou construímos esse sistema na nuvem, basicamente construindo um supercomputador que também é uma nuvem?” o blog pergunta.

A IBM afirma que, ao adotar a última abordagem, comprometeu um pouco o desempenho, mas ganhou consideravelmente em produtividade. Isso se resume à capacidade de configurar todos os recursos necessários por meio de software, além de ter acesso a serviços disponíveis no IBM Cloud mais amplo, como o carregamento de conjuntos de dados no Cloud Object Store da IBM, em vez de ter que construir uma infraestrutura de armazenamento dedicada.

A Big Blue também disse que optou por operar todos os nós no Vela como máquinas virtuais em vez de instâncias bare metal, pois isso simplificou o provisionamento e o reprovisionamento da infraestrutura com diferentes pilhas de software exigidas por diferentes usuários de IA.

“As VMs facilitariam para nossa equipe de suporte dimensionar clusters de IA de forma flexível e dinâmica e transferir recursos entre cargas de trabalho de vários tipos em questão de minutos”, explica o blog da IBM.

Mas a empresa afirma que encontrou uma maneira de otimizar o desempenho e minimizar a sobrecarga de virtualização para menos de 5%, próximo ao desempenho bare metal.

Isso incluiu a configuração do host bare metal para virtualização com suporte para extensões de máquina virtual (VMX), virtualização IO de raiz única (SR-IOV) e páginas enormes, entre outras configurações de hardware e software não especificadas.

Mais detalhes sobre a infraestrutura do Vela podem ser encontrados em blog da IBM.

A IBM não é a única empresa que usa a nuvem para hospedar um supercomputador de IA. No ano passado, a Microsoft lançou sua própria plataforma usando a infraestrutura do Azure combinada com os aceleradores de GPU da Nvidia, kit de rede e seu pacote de software AI Enterprise. Esperava-se que isso estivesse disponível para acesso dos clientes do Azure, mas nenhum prazo foi especificado.

Outras empresas que vêm construindo supercomputadores de IA, mas seguindo a rota tradicional de infraestrutura local, incluem Meta e Tesla. ®

Carimbo de hora:

Mais de O registro