Websites

Crunching Data on the Cheap

Data Crunch: How To Break Into Data Science

Data Crunch: How To Break Into Data Science
Anonim

Software de armazenamento de dados são caros, mas muitas empresas ainda estão dispostas a cavar fundo, apostando que a análise fornecerá novos insights sobre seus negócios e uma vantagem competitiva.

Em um relatório divulgado no início deste ano, a empresa de pesquisa IDC previu o mercado de plataformas de armazenamento de dados crescerá de cerca de US $ 7,9 bilhões em 2009 para cerca de US $ 10,8 bilhões em 2013.

A boa notícia para as empresas de TI que querem começar em análises, mas não têm orçamento agora, é o recente surgimento do software livre opções que empacotam poder de fogo de processamento de dados bastante sério.

Em outubro, a Greenplum anunciou uma Edição de Nó Único do seu banco de dados MPP (massively parallel processing). As arquiteturas MPP dividem cargas de trabalho de dados em várias partes que são gerenciadas independentemente em uma matriz de servidores.

A versão de nó único pode ser usada no modo de produção em um servidor x86 com até dois soquetes de CPU e núcleos ilimitados. Ele também pode ser implantado em uma única máquina virtual com até oito núcleos virtuais. Não há limite de armazenamento. O Single Node Edition também pode ser vinculado a uma implementação mais ampla do Greenplum.

Também em outubro, o Calpont lançou o InfiniDB Community Edition, um banco de dados orientado a colunas de código aberto. O método colunar pode, em muitos casos, reduzir muito a demanda de E / S em comparação com sistemas que armazenam dados em linhas, além de atingir níveis mais altos de compressão, disse o analista Curt Monash da Monash Research.

InfiniDB Community Edition também é limitado a servidor único, mas não tem limite na contagem de CPU, o número de núcleos, memória, volume de dados ou usuários simultâneos.

O Calpont também tem uma edição comercial do InfiniDB, agora em fase de adoção antecipada, que permite aos usuários dimensionar o sistema para vários servidores.

O InfiniDB Community Edition segue o lançamento no ano passado de outra plataforma de data warehousing de código aberto da Infobright. Este último pode ter uma vantagem por enquanto sobre o InfiniDB em termos de suporte da comunidade; A Infobright disse recentemente que o software foi baixado mais de 15.000 vezes. No final, porém, essas opções de armazenamento de dados livres têm seus limites e cenários de uso prováveis, de acordo com a Monash.

"Se você tiver um único analista ou pequeno equipe de analistas fazendo consultas exploratórias iniciais contra alguns terabytes de dados ou menos, então esses produtos provavelmente farão o trabalho ", disse ele.

As empresas também podem não ter o orçamento para adquirir qualquer outra coisa, ou não conseguir financiamento sem realizar uma prova inicial do conceito, Monash acrescentou: "Certamente há cargas de trabalho para as quais eles são insuficientes, e você terá que pagar por um produto que fará o trabalho para você", disse ele. "Mas se você quiser obter mais valor de seus dados, esses produtos gratuitos podem ser um ótimo lugar para começar."