Websites

O Yahoo ajuda o IIT Bombay a configurar o Hadoop Cluster Lab

0605 Spark on Yarn Empower Spark Applications on Hadoop Cluster

0605 Spark on Yarn Empower Spark Applications on Hadoop Cluster
Anonim

O Yahoo ajudou o Instituto Indiano de Tecnologia de Bombaim a montar um laboratório de cluster do Hadoop em Mumbai doando um cluster de servidores executando o software Hadoop de código aberto.

O Apache Hadoop é um projeto de computação distribuída de código aberto da Apache Software Foundation que o Yahoo suporta. O

Yahoo executa um grande número de suas operações críticas usando o Hadoop, e não pode fazer toda a pesquisa necessária em torno do Hadoop dentro da empresa, disse Prabhakar Raghavan, vice-presidente sênior e chefe do Yahoo Labs. uma entrevista por telefone na quinta-feira.

O Yahoo anunciou em junho do ano passado sua própria distribuição do Hadoop, citando o interesse da comunidade Apache Hadoop que publica a versão do Hadoop que testa e implanta em seus próprios clusters grandes.

laboratório em M o umbai ajudará pesquisadores nas áreas de estudo do instituto, como técnicas de busca e classificação, extração de informações e processamento de linguagem natural.

Pesquisadores acadêmicos que querem pesquisar questões relacionadas à Web normalmente não têm acesso aos recursos de computação e terabytes de dados que são necessários para pesquisas sobre "problemas de escala da Web", disse Raghavan.

Começando com o fornecimento de computadores Hadoop à Carnegie Mellon University em 2007 com um supercomputador de 4.000 processadores, o Yahoo ajudou outras universidades dos EUA a instalar o Hadoop clusters, disse ele.

Raghavan não deu mais detalhes sobre o cluster instalado no IIT, dizendo apenas que servidores com centenas de CPUs e capacidade para manipular terabytes de dados foram implantados lá.

Além do IIT Bombay, Yahoo está ajudando a criar grupos semelhantes em instituições acadêmicas na Alemanha e em Cingapura, disse Raghavan. Estas são as três primeiras instituições acadêmicas fora dos EUA, onde o Yahoo está ajudando a criar esses clusters, acrescentou ele.

O Yahoo planeja mais tarde conectar alguns clusters ao redor do mundo para criar uma "utilidade maior". Antes disso, os recursos de administração de sistemas do Hadoop precisam ser fortalecidos para impedir que um estudante de uma instituição deixe de trabalhar em outra instituição, disse Raghavan. O Yahoo se uniu em 2008 ao Laboratório de Pesquisa Computacional (CRL), um laboratório da Índia. Tata Group, para oferecer instalações de supercomputação gratuitas para instituições acadêmicas na Índia que estão pesquisando computação em larga escala, particularmente em torno do Hadoop. Essa colaboração continua, mas está focada na supercomputação de alto desempenho, disse Raghavan.

A parceria com instituições acadêmicas no Hadoop ajuda o Yahoo a criar um grupo de engenheiros familiarizados com a plataforma Hadoop, segundo Raghavan. Alguns deles já foram contratados pelo Yahoo, acrescentou ele. O Yahoo também se beneficiou de idéias que surgiram de instituições acadêmicas que fazem pesquisas usando o Hadoop, disse Raghavan. Ele, no entanto, não deu exemplos específicos de idéias que foram retiradas dessa colaboração com instituições acadêmicas.