четверг, 31 мая 2018 г.

Cloudera moving average


Eu me deparei com este artigo: que menciona como calcular a média móvel usando o Hadoop. Observe que todos os registros de uma CHAVE devem ser classificados e depois reduzidos. Agora, suponha que os registros de uma determinada CHAVE estejam espalhados por todos os fragmentos do cluster Mongo. Nesse caso, seria possível calcular a média móvel Eu entendo que Mongo faz o mapa reduzir em cada nó. O requisito principal para resolver este problema é garantir que todos os emissos para um mapa sejam reduzidos em uma única fase de redução. Se for esse o caso, Mongo Map Reduce nunca poderá resolver esses problemas. Existe algum mal-entendido básico. Além disso, com bilhões de linhas e petabytes de dados, por que a Hadoop Reduzir a fase não faz falta na memória, uma vez que tem que lidar com pelo menos várias TBs de dados mapeados. Perguntou 16 de maio 13 às 7:31 Você pode explicar por que Hadoop não afastou a memória por essa computação. Da minha compreensão, toda a redução acontecerá em um nó, onde todos os registros de uma CHAVE serão reduzidos. Isso deve resultar em uma enorme sobrecarga de memória nesse nó, uma vez que as TBs de dados precisam estar presentes lá. Como Hadoop lida com uma enorme quantidade de dados ndash P. Prasad 16 de maio 13 às 8:29 Eu acredito que, ao contrário de MongoDB, o hadoop, assim como o SQL ao processar uma grande associação, irá escrever coisas no disco e ler somente quando necessário O sistema operacional usando swap como suporte de memória temporário para certas coisas provavelmente. MongoDB faz mais na RAM antes de gravar no disco, como tal, irá facilmente resgatar ndash Sammaye 16 de maio 13 em 8: 37 Atualizado: Comparação de preços para Big Data Appliance e Hadoop Por Jean-Pierre Dijcks-Oracle em 03 de abril de 2014 Era hora de Atualize esse post um pouco. Big Data Appliance cresceu, obteve mais recursos e preços, bem como informações apenas mudadas em todo o quadro. Então, aqui está uma atualização. A publicação ainda tem como objetivo fornecer uma comparação simples de maçãs com as maçãs e um esclarecimento sobre o que é, e o que não está incluído no preço e na embalagem do Oracle Big Data Appliance, quando comparado a quotIm fazendo isso sozinho - DIY stylequot. Detalhes do Oracle Big Data Appliance Alguns dos itens mais negligenciados no preço de um cluster Hadoop são o custo do software, o custo do hardware real preparado para produção e o equipamento de rede necessário. Um cluster Hadoop precisa de mais do que apenas CPUs e discos. Para o Oracle Big Data Appliance, assumimos que você deseja executar este sistema como um sistema de produção (com componentes com conectores a quente e componentes redundantes em seu sistema). Nós também assumimos que você quer a principal distribuição Hadoop mais o suporte para esse software. Você quer ver a segurança do cluster e possivelmente criptografar dados em repouso e através da rede. Falando em rede, o InfiniBand eliminará problemas de saturação de rede - o que é importante para o seu cluster Hadoop. Com isso em mente, o Oracle Big Data Appliance é um sistema de engenharia construído para clusters de produção. Está pré-instalado e pré-configurado com Cloudera CDH e todas as opções (eu enfatizo todas) incluídas e nós (com a ajuda de Cloudera, é claro) fizeram a sintonização do sistema para você. Além disso, o preço do hardware (US 525.000 para um sistema de rack completo - mais configurações e tamanhos menores gt ler mais) inclui o custo de Cloudera CDH, suas opções e Cloudera Manager (para a vida útil da máquina - então não Uma assinatura). Então, para US 525,000 você obtém o seguinte: Big Data Appliance Hardware (vem com pedido de serviço automático após falhas de componentes) Cloudera CDH e Cloudera Manager Todas as opções Cloudera, bem como Accumulo e Spark (CDH 5.0) Oracle Linux e Oracle JDK Oracle Distribution De R Oracle NoSQL Database Community Edition Oracle Big Data Appliance Enterprise Manager Plug-In O custo de suporte para o acima é um único item de linha. O preço de lista para o Premier Support for Systems pela lista de preços Oracle (ver fonte abaixo) é de US $ 63.000 por ano. Para fazer uma comparação simples de 3 anos com outros sistemas, a tabela a seguir mostra os detalhes e os totais do Oracle Big Data Appliance. Observe que o único item adicional é o custo de instalação e configuração que são feitos pelo pessoal ou parceiros da Oracle, no local: para isso você receberá um rack completo BDA (servidores 18 Sun X4-2L, 288 núcleos (Dois Intel Xeon E5- CPUs 2650V2 por nó), disco de 864TB (doze discos de 4TB por nó), além de software, além de suporte, além de configuração e configuração no local. Ou em termos de custo por TB cru na compra e no preço da lista. 697. HP DL - 380 Sistema Comparativo (isto é alterado da postagem original para os DL-380 mais comuns). Para construir uma solução de hardware comparativa para o Big Data Appliance, nós escolhemos uma configuração HP-DL180 e construímos os servidores usando o site da HP para obter preços. O seguinte é o preço de um único servidor. ProLiant DL380p Gen8 Rackmount Fábrica Integrada 8 SFF CTO Modelo (2U) sem processador, 24 DIMM sem memória, open bay (sem disco) com 8 SFF gave de unidade, Smart Array P420i controller with Zero Memory , 3 slots PCIe 3.0, 1 conector FlexibleLOM, sem alimentação, 4 x vermelho Ventiladores indesejados, Integrated HP iLO Management Engine Além disso, precisamos de switches InfiniBand. O Oracle Big Data Appliance vem com 3 switches IB, o que nos permite expandir o cluster sem de repente exigir switches extras. E, esperamos que essas máquinas façam parte de clusters muito maiores. Os switches IB estão em algum lugar na vizinhança de US 6.000 por switch, então adicione 18.000 por rack e adicione um switch de gerenciamento (o BDA usa um switch Cisco), que parece ser uma lista de aproximadamente 15.000. A troca total chega a cerca de 33.000. Também precisamos da assinatura Cloudera Enterprise - e para comparar maçãs com maçãs, nós a faremos para todos os softwares. Algumas fontes (veja este documento) peg CDH Core em 3.382 lista por nó e por ano (suporte 247). Uma vez que a BDA tem mais software (todas as opções) e que o preço não é público, vou fazer um cálculo e arredondamento educado e dobrar o preço com um arredondamento para o número agradável e redondo mais próximo. Isso me leva a 7.000 por nó, por ano para suporte 247. O BDA também vem com criptografia no disco, o que é ainda mais difícil de avaliar. Meu palco educado é cerca de 1.500 lista ou mais por nó e por ano. Ah, e não podemos esquecer a assinatura do Linux, que lista em 1.299 por nó por ano. Nós também executamos um banco de dados MySQL (edição corporativa com replicação), que custa a assinatura de lista 5.000. Executamos isso replicado em 2 nós. Isso nos leva a cerca de 10.000 preços de lista por nó por ano para todas as inscrições e suporte de software aplicáveis ​​e um adicional de 10.000 para os dois nós MySQL. Sistema HP Cloudera Do-it-Yourself Vamos construir o nosso próprio sistema. As especificações são como um BDA, então teremos 18 servidores e todos os outros componentes incluídos. Alguns argumentarão que a instalação e a configuração são gratuitas (você já paga sua equipe do centro de dados), mas eu argumentaria que algo que leva um curto período de tempo quando feito pela Oracle vale muito equivalente se você demorar muito mais Obtenha tudo isso instalado, otimizado e executado. No entanto, aqui estão algumas matemáticas sobre como chegar a esse custo de qualquer maneira: aproximadamente 150 horas de trabalho por rack para o trabalho de instalação pura. Isso acrescenta-se a US 15.000 se assumirmos um custo por hora de 100. Nota: esses 15.000 NÃO incluem otimizações e ajuste para o Hadoop, para o sistema operacional, para Java e outras coisas interessantes como configurações de rede em todas essas áreas. Agora você precisará gastar tempo para descobrir o número de slots que você aloca por nó, o tamanho do bloco do sistema de arquivos (você usa padrões Apache, ou Clouderas ou algo mais) e muitas outras coisas ao nível do sistema. Além disso, preconfiguramos, por exemplo, o Kerberos e o Apache Sentry, oferecendo-lhe um método seguro de autorização e autenticação, além de ter uma configuração de criptografia em disco e em rede com um clique. Claro que você pode contatar várias outras empresas para fazer isso por você. Você também pode argumentar que você quer o hardware mais barato possível, porque o Hadoop foi construído para lidar com falhas, por isso é bom que as coisas falhem regularmente. Sim, o Hadoop lida com falhas de hardware, mas seu centro de dados provavelmente está muito menos interessado nessa idéia, porque alguém vai substituir os discos (o tempo todo). Portanto, certifique-se de que os discos são intercambiáveis ​​a quente. Um oh, que alguém trocando os discos custa dinheiro. A outra consideração é falhas em componentes importantes como o poder. O poder redundante em um rack é bom. Tudo isso está incluído (e pensou) no Oracle Big Data Appliance. Em outras palavras, você realmente quer passar semanas instalando, configurando e aprendendo ou prefere começar a criar aplicativos no topo do cluster Hadoop e, assim, oferecer valor à sua organização. As principais diferenças entre o Oracle Big Data Appliance e uma abordagem DIY são: Um sistema DIY - a preço de tabela com instalação básica, mas sem otimização - é um escalonamento 220 mais barato como uma compra inicial Um sistema DIY - a preço de tabela com instalação básica, mas sem otimização - é quase 250.000 mais caro ao longo de 3 anos. Nota para a compra, você pode gastar isso em construir ou comprar aplicativos em seu cluster (ou comprar algum software intrigante real da Oracle). O suporte para o sistema DIY inclui cinco (5) fornecedores. Seu fornecedor de suporte de hardware, o fornecedor de sistemas operacionais, seu fornecedor Hadoop, seu fornecedor de criptografia e seu fornecedor de banco de dados. O Oracle Big Data Appliance é suportado de ponta a ponta por um único fornecedor: Oracle Time to value. Enquanto confiamos que sua equipe de TI fará funcionar o sistema DIY, o sistema Oracle permite uma base de quotloading muito mais rápida para carregar o tempo de dados. Normalmente, alguns dias em vez de poucas semanas (ou mesmo meses), o Oracle Big Data Appliance está ajustado e configurado para tirar proveito da pilha de software, das CPUs e da rede InfiniBand em qualquer questão que você, você ou qualquer outro cliente da BDA encontrar em O sistema é fixado para todos os clientes. Você não possui uma configuração única, com problemas únicos em cima dos problemas genéricos. Em uma comparação de maçãs a maçãs de um cluster Hadoop de produção, o Oracle Big Data Appliance começa com os mesmos preços de aquisição e vem em frente em termos de TCO ao longo de 3 anos. Ele permite que uma organização entre no mundo Hadoop com um sistema de produção em um curto período de tempo, reduzindo ambos os riscos e reduzindo o tempo de mercado. Como sempre, em caso de dúvida, entre em contato com o seu representante amigável do Oracle para perguntas, suporte e cotações detalhadas. HP e preços relacionados: hp ou ideasinternational (o último é um serviço pago - desculpe) Oracle Pricing: oracle us pricing corporativo exadata-pricelist-070598.pdf Preços MySQL: oracle nós preços corporativos preços-listas mysql-pricelist-183985.pdf Categoria : Dados grandes

Комментариев нет:

Отправить комментарий