Big Data - Introdução ao Hadoop e configuração Inicial - Parte I

Fala Galera! Vamos começar nosso tuto sobre esta grande tecnologia.

O que é Big Data?

Dados grandes é uma coleção de grandes conjuntos de dados que não podem ser processadas utilizando computação tradicional técnicas. Não se trata de uma técnica única ou uma ferramenta, ao contrário, envolve muitas áreas de negócios e tecnologia.

O que vem nos dados grandes?

Dados grandes envolve os dados produzidos por diferentes dispositivos e aplicações. Abaixo estão alguns dos campos que vêm sob a égide de dados grandes.
  • Dados da caixa preta: é um componente do helicóptero, aviões e jatos, etc. Ele capta vozes da tripulação de voo, as gravações de microfones e fones de ouvido, e as informações sobre o desempenho da aeronave.
  • Mídias Sociais os dados: mídias sociais, tais como o Facebook e o Twitter manter as informações e as opiniões postadas por milhões de pessoas em todo o mundo.
  • Os dados: Bolsa de Valores bolsa de valores dos dados contém informações sobre a 'comprar' e 'vender' as decisões feitas sobre uma quota de empresas diferentes feitos pelos clientes.
  • Grade de Energia dados: a grade de energia dados contém informações consumidas por um determinado nó no que diz respeito a uma estação de base.
  • Transporte de dados: Transporte de dados inclui modelo, a capacidade, a distância e disponibilidade de um veículo.
  • Motor de busca os dados: motores de busca recuperar muitos dados de diferentes bancos de dados.
grande dados
Assim Dados grandes inclui grande volume e alta velocidade, e extensível grande variedade de dados. Os dados, que serão de três tipos.
  • Estruturada de dados: os dados relacionais.
  • Entrevistas semi-estruturadas dos dados: os dados em XML.
  • Dados Não Estruturados: Word, PDF, texto, Media Os Logs.

Os benefícios dos dados grandes

  • Usando as informações mantidas em a rede social, como o Facebook, as agências de marketing estão aprendendo sobre a resposta para as suas campanhas, promoções, publicidade e outros meios.
  • Usando as informações da mídia social como preferências e produto percepção de seus consumidores, empresas de produtos e organizações de varejo estão a planear a sua produção.
  • Usando os dados sobre a história médica pregressa dos pacientes, os hospitais estão oferecendo um melhor e rápido atendimento.

Dados grandes tecnologias

Dados grandes tecnologias são importantes para a análise mais acurada, o que pode levar a mais concreta tomada de decisões que resultem em maior eficiência operacional, redução de custos e redução dos riscos para o negócio.
Para aproveitar o poder das grandes dados, você exigiria uma infra-estrutura que pode gerenciar e processar grandes volumes de dados estruturados e não estruturados em tempo real e pode proteger a privacidade dos dados e a segurança.
Há diversas tecnologias no mercado de diferentes fornecedores, incluindo Amazon, IBM, Microsoft, etc., para lidar com dados grandes. Ao olhar para as tecnologias que lidam com dados grandes, examinamos as seguintes duas classes de tecnologia:

Grandes dados operacionais

Estes incluem sistemas como MongoDB que fornecem capacidades operacionais em tempo real e cargas interativa onde os dados são principalmente capturados e armazenados.
Grandes sistemas de armazenamento de dados NoSQL são projetados para tirar proveito das novas arquiteturas de computação em nuvem que surgiram ao longo da última década para permitir grandes computações para ser executado barata e eficiente. Isso torna dados grandes cargas operacionais muito mais fácil de gerenciar, mais barato e mais rápido de implementar.
Alguns sistemas NoSQL podem fornecer insights sobre padrões e tendências com base em dados em tempo real com codificação mínima e sem a necessidade de dados os cientistas e infra-estrutura adicional.

Grandes dados analíticos

Estes incluem sistemas como Massively Parallel Processing (MPP) sistemas de bancos de dados e MapReduce que fornecem capacidades analíticas para retrospectiva e análise complexa que pode tocar a maioria ou todos os dados.
MapReduce fornece um novo método de análise de dados que é complementar os recursos fornecidos pelo SQL e um sistema baseado em MapReduce que pode ser ajustada para cima de servidores únicos para milhares de alto e baixo efeito máquinas.
Estes dois tipos de tecnologias são complementares e freqüentemente utilizados em conjunto.

Sistemas contra Analíticos Operacionais

OperacionalAnálise
Latência1 MS - 100 ms1 Min - 100 min.
Simultaneidade1000 - 100,000 habitantes1 - 10
Padrão de AcessoGrava e lê
ConsultasSeletivosUnselective
DadosOperacionalEstudo retrospectivo
Usuário FinalO ClienteOs dados Cientista
TecnologiaNoSQLMapReduce, MPP Database

Grandes Desafios de Dados

Os principais desafios associados com dados grandes são as seguintes:
  • Captura de dados
  • Curadoria
  • Para Bagagem
  • Pesquisar
  • Compartilhar
  • Transferência
  • Análise
  • Apresentação
Para cumprir os desafios, as organizações normalmente ter a ajuda de servidores empresariais.

Comentários

Postagens mais visitadas deste blog

E Esse Tal de Nano Service?

Executar Audio em Java Swing

Validando Email em Java Com e Sem expressão Regular