ZTOP+ZUMO

SC16: Intel apresenta suas novas soluções de HPC e IA

Anúncios incluem novos pacotes de software, chips para HPC e o primeiro Xeon Phi otimizado para uso em aplicações de machine learning e IA

Teve início nesta semana em Salt Lake City nos EUA, o SC16, conferência técnica voltada para o mercado de computação de alto desempenho (HPC) e assuntos relacionados como networking, storage e análise de dados sendo que, no dia de hoje, a Intel anunciou sua estratégia para este mercado, incluindo é claro seus novos produtos e serviços.

Ao contrário do passado onde a empresa era meramente um fornecedor de hardware para esta indústria (com algum suporte de software, é claro) o pessoal de Santa Clara vem mudado a sua estratégia no sentido de também oferecer soluções completas de hardware e software para HPC, apoiando e incentivando assim o crescimento desse mercado:

sc16_intel_portfolio

No segmento de software, seu grande anúncio foi o Intel HPC Orchestrator 1.0 …

sc16_intel_hpc_orchestrator_framework

…. uma plataforma de software modular, customizável e de fácil manutenção voltada para criar e manter ambientes de HPC sempre funcionando de maneira eficiente e sem problemas:

Baseado na inciativa OpenHPC o grande apelo do HPC Orchestrator é que ele adota os componentes (de código aberto) do OpenHPC que são previamente testados, validados e suportados pela Intel, o que reduz o risco de um cliente implementar e/ou atualizar e/ou substituir algum componente do seu stack de software e isso provocar algum problema ou até mesmo uma pane no sistema.

sc16_intel_hpc_orchestrator_compared

Já no segmento de hardware, a Intel anunciou o novo processador Xeon, o E5-2699A v4 uma versão atualizada da plataforma Grantley-EP equipada com de 22 núcleos com HT (= 44 unidades de processamento) de 2,4~3,6 GHz ainda baseado na microarquitetura de 14 nm “Broadwell-EP”:

sc16_intel_hpc_xeon_e5-2699a

Já o segundo anúncio não é exatamente um anúncio e sim uma demonstração pública do futuro processador Xeon baseado na nova plataforma Purley + microarquitetura Skylake que integra novos recursos como o AVX-512 um conjunto de instruções avançadas de 512 bits voltado para aplicações científicas, financeiras, multimídia, etc. que exigem cálculos intensivos de ponto-flutuante.

sc16_intel_hpc_xeon_skylake

Fora isso ele também vai integrar um controlador Intel Omni-Patch voltado para acelerar o tráfego de dados em rede de alta velocidade:

A Intel também apresentou seu catálogo de soluções integradas de hardware e software para o segmento de Inteligência Artificial (ou IA) e Machine Learning (Aprendizado de Máquina):

sc16_intel_ai_portfoloio

O pessoal de Santa Clara diz que a era da Inteligência Artificial chegou e que ela está sendo intensivamente utilizada em diversas áreas de pesquisa que exigem processamento intensivo, o que inclui o que eles chamaram de “redução de tédio” (Reduce Tedium) que não tem nada a ver com entretenimento, e sim no auxílio aos analistas que passam o dia (e noites) criando modelos, aguardando o processamento e analisando os resultados de imensas quantidades de dados gerados pelos atuais sistemas de Big Data.

sc16_intel_ai_era

Dentro desse catálogo, talvez o lançamento mais relevante seja o novo processador Xeon Phi codinome “Knights Mill” que deve chegar ao mercado em 2017.

sc16_intel_hpc_xeon_phi

Para quem não sabe, o Xeon Phi tem suas origens no processador “Larrabee” de 2007 que seria primeiro chip many-core da Intel baseado nas suas pesquisas do Terascale Processor — o famoso chip de 80 núcleos que a Intel produziu numa época em que chip dual core era o bicho! De fato, a idéia era que Larrabee fosse um chip genérico com dezenas de núcleos sendo que parte deles poderiam ser designados para realizar tarefas específicas como processamento gráfico, proteção contra vírus, comunicação, etc.

Mas como de boas intenções o inferno está cheio, o projeto do Larrabee passou por diversas mudanças na sua estratégia e função — como por exemplo, se tornar uma GPU — o que fez com que ele sofresse inúmeros atrasos, ao ponto deve virar motivo de chacota entre jornalistas (como a resistência da Intel em adotar o set de instruções de 64 bits da AMD) sendo que em 2010 ele finalmente encontrou o seu lugar no mundo na forma de um co-processador aritmético altamente sofisticado batizado de Knights Ferry.

Essa idéia de que o Knights Mill foi otimizado para aplicações de AI nos foi esclarecido durante o último IDF16 numa mesa redonda com Nidhi Chappel Diretora de Machine Learning da Intel…

idf16_nidhi_chappel

… onde ela explicou que o processo de aprendizagem de máquina não envolve apenas operações “lógicas” e sim muuito processamento matemático intensivo — em especial cálculo de matrizes — o que faz com que um erro mínimo de cálculo possa comprometer o processo, de modo que quanto maior a precisão dos cálculos, melhor será o desempenho da rede neural de IA.

Quando perguntei quantos núcleos de processamento terá o Knights Mill, a executiva se esquivou da resposta e quando insisti no assunto questionando porque a Intel é tão reticente em revelar tal informação, ai foi que ela ficou realmente irritada, novamente não revelando o número. O curioso é que vi essa mesma evasiva quando entrevistei Justin Rattner ex-CTO da Intel em 2011 que na época, anunciava o Knights Corner.

Pelo que pude entender numa conversa posterior com meu colega e chapa Andreas Stiller da C’t alemã. Ele me explicou que a quantidade de núcleos a ser usado é uma decisão meio complicada já que — neste tipo de aplicação onde a precisão dos cálculos é tão importante — ou uso de uma unidade a mais ou a menos pode sim interferir na latência e/ou desempenho das cargas de trabalho do processador como um todo, de modo que mesmo naquela época (agosto de 2016) o pessoal do Knights Mill deveria estar realizando inúmeros testes e simulações até a última hora antes de bater o martelo e iniciar a produção.

Quando perguntei o que eles fariam os os núcleos não usados (caso sobrem, é claro) ele me explicou que eles podem ser simplesmente ignorados, usados em funções auxiliares ou até mesmo guardados como unidades de reserva, caso algum núcleo ativo tenha uma pane.

Mas voltando ao que interessa, outro anúncio nessa área é o Intel Deep Learning Inference Accelerator uma solução do tipo tudo-em-um baseado no Intel Arria 10  voltada a facilitar a implementação e uso dessa tecnologia em diversos ambientes e que também deve chegar ao mercado em 2017:

sc16_intel_deep_learning_accelerator

E o que seria um Inference Accelerator?

No campo da Machine Learning existem dois modos de trabalho baseados em diferentes características que envolvem o uso de redes neurais — o treino e a inferência.

No treino, a rede neural aprende novas coisas utilizando dados existentes, o que demanda um hardware capaz de processar imensos volumes de dados (= novo Xeon, Xeon Phi).

Já na inferência, a rede neural aplica o que ele aprendeu no treino em novas informações, utilizando o mesmo para identificar padrões e executar tarefas.

Neste cenário, o DLIA da Intel foi desenvolvido para acelerar esse trabalho de inferência, usando uma rede neural do tipo convolucional que foi concebido para utilizar o mínimo de pré-processamento e é muito usado em sistemas de reconhecimento de faces em imagens e vídeos, linguagem natural e até para recomendar um produto, filme ou até músicas baseadas no perfil do usuário.

O curioso é que esse produto é baseado num chip FPGA Arria 10 que, por sua vez usa o processador ARM Cortex-A9 MPcore (uia!) que a Intel integrou ao seu lineup de produtos após a compra da Altera.

A grande sacada neste caso é que como as funções dos FPGAs podem ser configuradas via software, ele pode ser otimizado para funcionar como um co-processador especializado em acelerar aplicações de AI. Fora isso, ajustes finos para melhora de desempenho e até novos recursos podem ser implementados no chip via atualização de firmware. Mais sobre isso aqui.

Assim o DLIA pode ser uma grande ferramenta para incentivar a criação de novos produtos e serviços baseados em IA, batendo de frente com concorrentes já estabelecidos nesta área como o Verdão de Santa Clara:
nvidia_tesla-p40

 

 

Desde o século passado Mario Nagano analisa produtos e já escreveu sobre hardware e tecnologia para veículos como PC Magazine, IDGNow!, Veja e PC World. Em 2007 ele fundou o Zumo junto com o Henrique assumindo o cargo de Segundo em Comando, Editor de Testes e Consigliere.