Os supercomputadores são mais duros, pesquisador sugere

Conheça os Supercomputadores do Mundo!

Índice:

Antigo conselho: dados de backup

À medida que os supercomputadores se tornam mais poderosos, eles também se tornam mais vulneráveis a falhas, graças ao aumento da quantidade de componentes internos. Alguns pesquisadores na recente conferência SC12 da semana passada em Salt Lake City, Utah, ofereceram possíveis soluções para esse problema crescente.

Os sistemas de computação de alto desempenho (HPC) de hoje podem ter 100.000 nós ou mais - com cada nó construído a partir de múltiplos componentes de memória, processadores, barramentos e outros circuitos. Estatisticamente falando, todos esses componentes falharão em algum momento, e eles param as operações quando o fazem, disse David Fiala, estudante de doutorado na North Carolina State University, durante uma palestra no SC12.

O problema não é um novo, é claro. Quando o supercomputador branco de 600 nós do ASCI (Laboratório Estratégico Acelerado de Computação Estratégica) do Lawrence Livermore National Laboratory entrou em operação em 2001, ele teve um tempo médio entre falhas (MTBF) de apenas cinco horas, graças em parte a falhas de componentes. Os esforços de ajuste posteriores melhoraram o MTBF da ASCI White para 55 horas, disse Fiala.

Mas à medida que cresce o número de nós de supercomputador, o problema também aumenta. "Algo tem que ser feito sobre isso. Vai piorar à medida que nos movemos para a exascale", disse Fiala, referindo-se a como os supercomputadores da próxima década devem ter dez vezes o poder computacional dos modelos de hoje.

Técnicas de hoje para lidar com falhas no sistema pode não escalar muito bem, disse Fiala. Ele citou o ponto de verificação, em que um programa em execução é temporariamente interrompido e seu estado é salvo em disco. Se o programa falhar, o sistema pode reiniciar o trabalho a partir do último ponto de verificação

NCSUDavid Fiala O problema com o ponto de verificação, de acordo com a Fiala, é que conforme o número de nós cresce, a sobrecarga do sistema necessário fazer checkpointing cresce bem e cresce a uma taxa exponencial. Em um supercomputador de 100.000 nós, por exemplo, apenas cerca de 35% da atividade estará envolvida na condução do trabalho. O restante será ocupado por pontos de verificação e - se houver operações de recuperação de falhas do sistema, Fiala estimou.

Devido a todo o hardware adicional necessário para sistemas exascale, que poderiam ser construídos a partir de um milhão ou mais de componentes, a confiabilidade do sistema para ser melhorado em 100 vezes para manter o mesmo MTBF que os supercomputadores de hoje desfrutam, disse Fiala.

Antigo conselho: dados de backup

A Fiala apresentou a tecnologia desenvolvida por ele e por outros pesquisadores que pode ajudar a melhorar a confiabilidade. A tecnologia aborda o problema da corrupção de dados silenciosa, quando os sistemas fazem erros não detectados gravando dados em disco.

Basicamente, a abordagem dos pesquisadores consiste em executar várias cópias, ou "clones" de um programa, simultaneamente e depois comparar as respostas. O software, chamado RedMPI, é executado em conjunto com a Message Passing Interface (MPI), uma biblioteca para dividir aplicativos em execução em vários servidores para que as diferentes partes do programa possam ser executadas em paralelo.

O RedMPI intercepta e copia cada MPI mensagem que um aplicativo envia e envia cópias da mensagem para o clone (ou clones) do programa. Se clones diferentes calcularem respostas diferentes, os números poderão ser recalculados rapidamente, o que economizará tempo e recursos de executar todo o programa novamente.

"A implementação da redundância não é cara. Pode ser alta no número de contagens do núcleo que são necessários, mas evita a necessidade de reescrever as reinicializações dos pontos de verificação ", disse Fiala. "A alternativa é, obviamente, simplesmente executar tarefas novamente até você achar que tem a resposta correta."

A Fiala recomendou a execução de duas cópias de backup de cada programa, para redundância tripla. Embora a execução de várias cópias de um programa consuma inicialmente mais recursos, com o tempo ele pode ser mais eficiente, devido ao fato de que os programas não precisariam ser executados novamente para verificar as respostas. Além disso, o ponto de verificação pode não ser necessário quando várias cópias são executadas, o que também economiza recursos do sistema.

UCSCEthan Miller

"Eu acho que a idéia de fazer redundância é realmente uma ótima idéia. [Para] computações muito grandes, envolvendo centenas de milhares de nós, certamente há uma chance de que erros se infiltrem", disse Ethan Miller, professor de ciência da computação na Universidade da Califórnia em Santa Cruz, que participou da apresentação. Mas ele disse que a abordagem pode não ser adequada, dada a quantidade de tráfego de rede que essa redundância pode criar. Ele sugeriu a execução de todos os aplicativos no mesmo conjunto de nós, o que poderia minimizar o tráfego de internódios.

Em outra apresentação, Ana Gainaru, estudante de doutorado da Universidade de Illinois em Urbana-Champaign, apresentou uma técnica de análise de log. arquivos para prever quando ocorreriam falhas no sistema.

O trabalho combina análise de sinal com mineração de dados. A análise de sinal é usada para caracterizar o comportamento normal, portanto, quando ocorre uma falha, ela pode ser facilmente identificada. A mineração de dados procura correlações entre falhas relatadas separadas. Outros pesquisadores mostraram que várias falhas às vezes são correlacionadas umas com as outras, porque uma falha com uma tecnologia pode afetar o desempenho em outras, de acordo com Gainaru. Por exemplo, quando uma placa de rede falha, ela logo prejudicará outros processos do sistema que dependem de comunicação de rede.

Os pesquisadores descobriram que 70% das falhas correlacionadas fornecem uma janela de oportunidade de mais de 10 segundos. Em outras palavras, quando o primeiro sinal de uma falha foi detectado, o sistema pode ter até 10 segundos para salvar seu trabalho ou mover o trabalho para outro nó, antes que ocorra uma falha mais crítica. "A previsão de falhas pode ser combinada com outras técnicas de tolerância a falhas", disse Gainaru.

Joab Jackson cobre o software corporativo e as notícias gerais de tecnologia para o Serviço de Notícias IDG. Siga Joab no Twitter em @Joab_Jackson. O endereço de e-mail de Joab é [email protected]

O Ashampoo UnInstaller faz mais do que o seu nome sugere

Embora o Ashampoo UnInstaller soe como uma simples ferramenta de desinstalação, é na verdade um conjunto de utilitários.

Os scanners de mesa alcançaram um nível de qualidade que os tornou "guardiões". Não importa o quão atraente o marketing faça os novos modelos soarem, os scanners mais antigos ainda produzem imagens e textos de qualidade boa a excelente. O problema é que muitos desses scanners agora são pouco mais que portas, porque seus fabricantes não atualizaram os drivers dos scanners para os sistemas operacionais mais recentes, como o Vista, o Windows 7 ou o Mac OSX. Digite Hamrick Software e seu p

A interface Advance do VueScan é dividida em seis guias, cada uma das quais oferece uma ampla variedade de opções para ajustar a qualidade, cor e faixa dinâmica de suas varreduras.

Direitos autorais protegem os detentores de contas bancárias são mais importantes do que fornecer informações para ajudar na execução de direitos autorais De acordo com uma decisão do tribunal holandês esta semana, as leis de privacidade que protegem correntistas bancários são mais importantes do que fornecer informações para ajudar na execução de direitos autorais, segundo uma decisão do tribunal holandês esta semana. tem que revelar quem tem acesso a uma conta bancária, cujo número está public

FTD World, em ftdworld.net, é um site de indexação da Usenet que lista links para arquivos binários postados no Usenet. Ele também fornece arquivos na listagem do formato NZB que permite aos usuários fazer o download dos arquivos publicados com mais facilidade. Ao fazer isso, o site fornece acesso a arquivos de entretenimento protegidos por direitos autorais, incluindo livros, filmes, músicas, jogos e software sem a permissão dos detentores dos direitos autorais, segundo a fundação antipirataria

Os supercomputadores são mais duros, pesquisador sugere

Conheça os Supercomputadores do Mundo!

Índice:

Antigo conselho: dados de backup

O Ashampoo UnInstaller faz mais do que o seu nome sugere

Artigos interessantes

Melhores ferramentas de programação para ensinar crianças

3 melhores ferramentas de gravação de imagens USB habilitadas para GUI no Linux

10 melhores plug-ins úteis de blocos de Gutenberg para WordPress

Mais 3 alternativas VoIP ao Skype

Academix GNU/Linux

Ferramentas para acessar o sistema de arquivos do Linux a partir do Windows

Melhores ferramentas de programação para ensinar crianças

3 melhores ferramentas de gravação de imagens USB habilitadas para GUI no Linux

10 melhores plug-ins úteis de blocos de Gutenberg para WordPress

Melhores ferramentas de programação para ensinar crianças

3 melhores ferramentas de gravação de imagens USB habilitadas para GUI no Linux

10 melhores plug-ins úteis de blocos de Gutenberg para WordPress

Os supercomputadores são mais duros, pesquisador sugere

Conheça os Supercomputadores do Mundo!

Índice:

Antigo conselho: dados de backup

Recomendado

Artigos interessantes