Windows

Os grandes planos de dados do Facebook incluem armazéns, análises mais rápidas

PALESTRA | Desafios para Implementar Big Data Analytics na Saúde: a experiência do Einstein

PALESTRA | Desafios para Implementar Big Data Analytics na Saúde: a experiência do Einstein
Anonim

Os problemas, que o Facebook tem sido forçado a enfrentar "muito mais cedo que o setor mais amplo", incluem formas mais eficientes de processar o comportamento do usuário no site, como melhor acessar e consolidar diferentes tipos de dados nos vários data centers do Facebook e criar novos sistemas de software de código aberto para processar esses dados, vi Murthy, que gerencia a infraestrutura analítica do Facebook, disse na terça-feira: "O Facebook é uma empresa de dados e a coisa mais óbvia que as pessoas pensam sobre isso é a segmentação de anúncios", disse ele em uma conferência da indústria em São Francisco. fale sobre a infraestrutura de back-end do Facebook, análise de dados e projetos de código aberto

[Mais leitura: Os melhores serviços de streaming de TV]

“Mas é mais profundo do que isso”, disse ele. O trabalho de bastidores está relacionado à infraestrutura analítica do Facebook, que foi projetada para acelerar o desenvolvimento de produtos e melhorar a experiência do usuário por meio da análise profunda de todos os dados disponíveis, seja pelas ações que os usuários realizam no site, como postar atualizações de status ou aplicativos que eles usam no Facebook em diferentes dispositivos.

O Facebook atualmente usa vários sistemas de software de código aberto conhecidos como Hadoop, Corona e Prism para processar e analisar seus dados, que a empresa focará em fazer. mais rápido e mais eficiente nos próximos seis a doze meses, disse Murthy.

Muitos dos desafios da empresa estão ligados ao que o Facebook chama de armazém de dados, que combina dados de várias fontes em um banco de dados onde a atividade do usuário pode ser analisada. no agregado, como, por exemplo, dando um relatório diário sobre o número de fotos que foram marcadas em um país específico, ou observando quantos usuários em uma determinada área se envolveram com páginas que foram recomendadas a eles.

A análise foi projetado para otimizar as experiências do usuário e descobrir o que os usuários gostam e não gostam, mas também está se tornando mais exigente, já que o Facebook é capaz de acessar mais e mais dados sobre seus usuários, disse Murthy. Atualmente, o warehouse do Facebook recebe 500 terabytes de novos dados todos os dias, ou 500.000 gigabytes. O armazém cresceu quase 4000 vezes nos últimos quatro anos, "muito à frente do crescimento do usuário no Facebook", disse Murthy.

Para lidar com essas questões, o Facebook desenvolveu seu sistema de software Prism, projetado para executar As principais funções de análise nos datacenters da empresa em todo o mundo dividem as análises em "pedaços", disse Murthy. Dessa forma, executar uma análise sobre, digamos, alguma métrica relacionada aos feeds de notícias dos usuários não vai entupir o warehouse de forma mais geral.

“Estamos pensando cada vez mais em como capturar esses dados”, disse ele. A empresa também está trabalhando em um sistema que leva uma abordagem completamente diferente para consultar o warehouse e dar um tempo de resposta em questão de segundos, disse Murthy.

Outra área em que o Facebook está continuamente procurando melhorar é sua “infraestrutura transacional”. O que lida com o processamento de dados mais básico e diário de, digamos, curtidas, comentários e atualizações de status para manter a rede social funcionando sem problemas. Algumas das questões que os engenheiros e analistas da empresa analisam incluem descobrir como prever o crescimento real desse tipo de dados e quanto a computação deveria realmente atribuir a ele, disse Murthy."Podemos prever o que vai ser daqui a seis meses?", Disse ele.

Enquanto isso, o Facebook também está envolvido em um esforço de longo prazo para tornar seus servidores físicos mais eficientes. A empresa iniciou seu Projeto de computação aberta em 2011, com o objetivo de projetar servidores modulares que proporcionam aos clientes maior controle sobre a rede, memória, fontes de alimentação e outros componentes que entram em seus servidores. Foi expandido para incorporar processadores ARM em janeiro.