O papel da CPU na IA/ML sustentável

O papel da CPU na IA/ML sustentável

Nó Fonte: 3093662

Advertorial À medida que a IA alarga o seu alcance aos ambientes informáticos empresariais, o seu impacto está a causar alguns efeitos indiretos imprevistos. As últimas novidades da IDC FuturoScape O relatório, por exemplo, prevê que, à medida que as empresas correm para introduzir produtos/serviços melhorados com IA e ajudar os seus clientes com implementações de IA, a tecnologia tornar-se-á um motivador chave para a inovação.

Outra mudança impulsionada pela IA gira em torno da medida em que os datacenters podem ter de equilibrar CPUs com aceleradores de IA discretos, como GPUs ou arquiteturas especializadas, a fim de fornecer as capacidades computacionais de alto desempenho que os desenvolvedores de IA desejam.

É um debate que levanta questões de alto risco para os proprietários de datacenters, tanto em termos de investimento CAPEX adicional como da probabilidade de que (embora os métodos de medição sejam imprecisos) as operações típicas de IA orientadas por GPU consumam mais energia do que as cargas de trabalho de TI convencionais.

Lidar com a maior sobrecarga de energia/carbono da IA ​​é um problema adicional para as operações dos datacenters, que também devem garantir que as arquiteturas de computação atualizadas e otimizadas para IA possam gerir o aumento das exigências de energia sem risco de sobrecarregar a tecnologia ou instalações existentes.

Assim, à medida que a regulamentação alargada na governação da sustentabilidade e na gestão do carbono incentiva as operações a reduzir a utilização de energia em toda a gama de hardware e software de TI, a IA representa tanto uma oportunidade como um obstáculo.

Mitigando o consumo de energia da IA

Juntos, o aumento do consumo de energia e as reconfigurações arquitetônicas necessárias para acomodar as cargas de trabalho de IA e aprendizado de máquina representam um desafio inexorável para os datacenters, explica Stephan Gillich, Diretor de Inteligência Artificial GTM no Centro de Excelência de IA da Intel.

“Está bastante claro em setores e indústrias verticais, onde quer que aplicações e serviços de IA/Machine Learning estejam sendo desenvolvidos, treinados e executados, que as capacidades das instalações de TI locais e hospedadas na nuvem terão que passar por atualizações para lidar com volumes crescentes de dados -cargas de trabalho intensivas”, diz Gillich. “Também está claro que essas atualizações terão que envolver mais do que apenas aumentar a capacidade computacional.”

Muito pode ser feito para melhorar a sustentabilidade dos datacenters focados em IA, acredita Gillich, começando pela reavaliação de algumas das suposições em torno do cenário de IA/Aprendizado de Máquina. As unidades de processamento são um bom ponto de partida, principalmente ao decidir se CPUs ou GPUs são mais adequadas para a tarefa.

Porque embora as cargas de trabalho com uso intensivo de computação específicas de IA pareçam estar aumentando (ninguém sabe ao certo em que ritmo), a maior parte do trabalho do datacenter (as cargas de trabalho que não são de IA) deve continuar trabalhando dia após dia – fornecendo aplicações estáveis e os fluxos de receitas de serviços não sejam perturbados.

A maioria deles é atualmente gerenciada por CPUs e a reforma de um datacenter padrão com GPUs mais caras seria, para muitas instalações, excedente às necessidades. Em termos gerais, uma GPU consome mais potência do que uma CPU para realizar uma tarefa semelhante. Dependendo do fornecimento de energia para uma determinada configuração de rack, a integração de GPUs na infraestrutura do datacenter requer atualizações nos sistemas de distribuição de energia, por exemplo, que certamente incorrerão em custos iniciais extras, além de contas de energia mais altas quando estiverem em funcionamento.

Além do mais, o desenvolvimento de CPU da Intel continua a inovar. Em vários casos de uso, pode-se comprovar que uma CPU alcança um desempenho geral tão bom – e às vezes melhor – quanto uma GPU, argumenta Gillich. E seu desempenho pode ser aumentado com tecnologia inovadora como o Intel® AMX (Advanced Matrix Extensions), um acelerador integrado às CPUs Intel Xeon de 4ª geração.

“Os processadores Intel Xeon podem permitir que um datacenter dimensione sua adoção de IA por meio da aceleração de IA integrada que aumenta o desempenho da CPU para aprendizado de máquina, treinamento e inferência”, ressalta Gillich. “Dessa forma, eles podem adotar aceleradores discretos para minimizar o CAPEX e maximizar o desempenho, ao mesmo tempo em que aproveitam os ambientes de processamento Intel Xeon existentes.”

Necessidade de misturar cargas de trabalho de IA e não IA

Intel AMX é um bloco de hardware dedicado no núcleo do processador escalável Intel Xeon que permite que cargas de trabalho de IA sejam executadas na CPU em vez de descarregá-las para um acelerador discreto, proporcionando um aumento significativo de desempenho. É adequado para cargas de trabalho de IA, como sistemas de recomendação de aprendizado de máquina, reconhecimento de imagem e processamento de linguagem natural, que dependem de matemática matricial.

Outro argumento a favor das CPUs aumentadas é que elas fornecem uma rota econômica para que os operadores de datacenters aproveitem mais os compromissos de CPU existentes, protejam seus ativos para o futuro, para que possam assumir cargas de trabalho mistas e os coloquem em posição de melhor desempenho. controlar o uso geral de energia.

Isto, por sua vez, pode ajudar os fornecedores de serviços de datacenter (e os seus clientes) a cumprir as metas de sustentabilidade e fornece um ponto de venda para os desenvolvedores de software (empresas ou terceiros) que procuram uma plataforma otimizada para mostrar a eficiência energética da sua codificação. saídas.

“A realidade é que, em vez de se apressarem nas oportunidades que as cargas de trabalho de IA podem prometer, os operadores de centros de dados estão a perceber que devem considerar uma série de imperativos que são informados tanto por preocupações comerciais como por escolhas tecnológicas”, diz Gillich.

Esses imperativos poderiam incluir: a integração de cargas de trabalho de IA com cargas de trabalho que não sejam de IA; a integração de diferentes pilhas de hardware e software; e porque desejam garantir que tenham uma arquitetura adequada para diversas cargas de trabalho diferentes, a integração de diferentes tipos de fluxo de trabalho.

“Essas questões apontam para desafios complexos, porque acertá-las tem influência na eficiência tecnológica e energética ideal – sendo a eficiência energética agora uma referência de desempenho fundamental que afetará cada vez mais a viabilidade comercial de um datacenter”, afirma Gillich. “Então, novamente, é de extrema importância.”

Na perspectiva de Gillich, a chave para a adaptação a esta realidade emergente é um processo gradual que pode ser denominado “assimilação da IA”. O primeiro ponto aqui é que as cargas de trabalho de IA não são segregadas de outros tipos de carga de trabalho – elas serão integradas em cargas de trabalho convencionais, em vez de serem executadas separadamente.

Gillich dá a videoconferência como um exemplo dessa integração em fases: “Já durante o streaming do tráfego padrão de áudio/vídeo entre aplicativos padrão, a IA é integrada para executar tarefas concomitantes como resumo, tradução e transcrição. Esses recursos são muito bem suportados pela IA.

Economia de energia de ponta a ponta

Alcançar eficiência energética deve ser um empreendimento verdadeiramente estratégico de ponta a ponta, argumenta Gillich. “Ele abrange tanto o lado do software quanto as arquiteturas de hardware – o mecanismo completo que permite um determinado processo de fluxo de trabalho. Onde os dados são armazenados para tornar o acesso mais eficiente – em termos de computação e, portanto, em termos de energia – é esse o melhor lugar para a eficiência energética?”

O outro fator a ser incluído nesta avaliação é determinar onde a carga de trabalho está sendo executada. Por exemplo, ele está sendo executado em clientes (como AI PC equipado com processadores Intel Core Ultra, em vez de servidores no datacenter? Algumas dessas cargas de trabalho de IA podem realmente ser executadas em clientes (juntamente com servidores)?

Cada opção é digna de consideração se quiser ajudar a alinhar melhor o equilíbrio entre IA e computação/consumo de energia, argumenta Gillich: “É quase como um retorno à noção tradicional de computação distribuída”.

Gillich acrescenta: “Às vezes, nossos clientes perguntam: 'Onde a IA atuará?' – a resposta é que a IA atuará em todos os lugares. Portanto, na Intel, nossa ambição está focada no que poderia ser chamado de acomodação universal da IA, porque acreditamos que ela entrará em todos os campos de aplicação.”

Na Intel, isso abrange middleware, como APIs, que, como acontece com qualquer outra parte da pilha de software, deve ser o mais eficiente possível. A “expansão de APIs” pode resultar em processamento desnecessário, minimizando a pegada de infraestrutura e falta de monitoramento e controle.

"Com Intel oneAPI, as empresas podem aproveitar todo o valor do hardware, desenvolver código de arquitetura cruzada de alto desempenho e preparar seus aplicativos para necessidades futuras”, explica Gillich.

“O Intel oneAPI é um modelo de programação aberto, intersetorial, baseado em padrões, unificado, de múltiplas arquiteturas e de vários fornecedores, que oferece uma experiência comum ao desenvolvedor em todas as arquiteturas de aceleradores – para desempenho mais rápido dos aplicativos e maior produtividade. A iniciativa oneAPI incentiva a colaboração na especificação oneAPI e nas implementações oneAPI compatíveis em todo o ecossistema.”

Gillich acrescenta: “oneAPI fornece uma pilha de middleware que pega coisas padrão como AI Frameworks – como Pytorch ou TensorFlow [a plataforma de software de código aberto para IA e aprendizado de máquina] – e os traduz em nível de máquina, e oneAPI permite uma maneira eficiente de faça isso. Os usuários podem usar uma API comum no nível da estrutura Ai, e temos uma API (oneAPI) que atende aos diferentes tipos de hardware.” Portanto, uma API comum significa que os usuários podem criar software aberto que pode ser suportado em uma pilha de software aberta.

Desempenho no nível da GPU com preços no nível da CPU

O progresso em TI é impulsionado em grande parte por uma expectativa de avanço tecnológico contínuo aliado a melhorias orientadas por insights nas estratégias de implantação. É um modelo baseado na busca do melhor equilíbrio possível entre as despesas orçamentárias e o ROI do negócio, e na expectativa de que sempre haja mais inovação pela qual lutar. A IA representa o apogeu deste ideal – é suficientemente inteligente para reinventar a sua própria proposta de valor através do auto-aperfeiçoamento perpétuo.

Ao incorporar o acelerador AMX em suas CPUs Intel Xeon de 4ª geração, a Intel mostra como o desempenho no nível da GPU pode ser alcançado com preços no nível da CPU. Isso permite que os datacenters sejam dimensionados enquanto maximizam o valor de retorno de suas propriedades de processamento existentes com tecnologia Intel Xeon, mas também fornece um modelo de preços que reduz o custo de entrada para clientes com cargas de trabalho de IA, mas com orçamentos limitados.

E o menor consumo de energia das CPUs significa que a eficiência energética pode ser alcançada de forma holística em todas as operações de uma instalação de datacenter – como resfriamento e ventilação – e esse é outro atrativo vencedor para arquitetos de software e desenvolvedores de soluções de AL preocupados com a sustentabilidade.

Contribuição de Intel.

Carimbo de hora:

Mais de O registro