O termo Big Data está cada vez mais popular, embora ainda esteja mal compreendido. Observo em muitas palestras que não existe consenso quanto a que realmente é Big Data e quais as tecnologias fundamentais que o sustentam. E mais ainda, existem muitas dúvidas de como tangibilizar o conceito, ou seja, como sair do conceitual e criar soluções de negócio que agreguem valor para as companhias.
Para colocarmos o termo em contexto, Big Data vem chamando atenção pela acelerada escala em que volumes cada vez maiores de dados são criados pela sociedade. Já falamos comumente em petabytes de dados gerados cada dia, e zetabytes começa a ser uma escala real e não mais imaginária e futurista. O que era futuro há uma década, terabytes, hoje nós já temos nas nossas próprias casas.
Começando pelo início. O que é Big Data? Outro dia escrevi um post com uma fórmula simples para conceitualizá-lo. Big Data = volume + variedade + velocidade. Hoje adiciono mais dois “V”s: veracidade e valor. Vamos detalhar estes tópicos um pouco mais.
Volume está claro. Geramos petabytes de dados a cada dia. E estima-se que este volume dobre a cada 18 meses. Variedade também, pois estes dados vêm de sistemas estruturados (hoje minoria) e não estruturados (a imensa maioria), gerados por e-mails, mídias sociais (Facebook, Twitter, YouTube e outros), documentos eletrônicos, apresentações estilo Powerpoint, mensagens instântaneas, sensores, etiquetas RFID, câmeras de vídeo, etc.
Velocidade porque muitas vezes precisamos agir praticamente em tempo real sobre este imenso volume de dados, como em um controle automático de tráfego nas ruas.
Veracidade porque precisamos ter certeza que os dados fazem sentido e são autênticos. E valor porque é absolutamente necessário qua a organização que implementa projetos de Big Data obtenha retorno destes investimentos. Um exemplo poderia ser a área de seguros, onde a análise de fraudes poderia ser imensamente melhorada, minimizando-se os riscos, utilizando-se, por exemplo, de análise de dados que estão fora das bases estruturadas das seguradoras, como os dados que estão circulando diariamente nas mídias sociais.
Por outro lado, esta diversidade de alternativas demanda que os líderes dos projetos de Big Data escolham a mais adequada ou mesmo demandem mais de uma opção, de acordo com as necessidades específicas.
Aliás, ao lado destas alternativas surgem outras opções, como o uso de appliances, como o Netezza da IBM, que embarcam em um hardware adaptado todos os softwares necessários para criar projetos de Big Data. Os appliances queimam etapas nos projetos de Big Data.
Adicionalmente, podemos pensar que a computação em nuvem é também um impulsionador para Big Data, pois pode-se usar nuvens públicas para suportar imensos volumes de dados e as caraterísticas de elasticidade das nuvens permitem que acionemos servidores virtuais sob demanda, aprenas no momento de tratar estes dados.
Enfim, Big Data já está batendo nas nossas portas. Seu potencial ainda não está sendo plenamente reconhecido, mas já vemos sinais claros desta importância quando lemos relatórios como o “Big Data, Big Impact: new possibilities for International Development”, publicado pelo World Economic Forum. Este relatório mostra como a sociedade mundial pode usufruir do imenso volume de dados gerado por ela para ajudar a resolver problemas diversos como questões sócio-econômicas e mesmo prevenção de epidemias.
Quanto às empresas, Big Data abre um novo e ainda inexplorado território. Carecemos de conhecimentos, experiências e mesmo de expertise profissional.
Fonte: www.ibm.com/developerworks