No mundo de hoje, Hadoop é um tema de grande relevância e interesse para um amplo espectro da sociedade. Tanto a nível pessoal como profissional, Hadoop desperta grande curiosidade e provoca debates e reflexões contínuos. Desde a sua origem até ao seu impacto hoje, Hadoop tem vindo a evoluir e a adquirir novas dimensões que convidam a estudos e análises mais aprofundados. É por isso que neste artigo nos propomos explorar as diferentes facetas de Hadoop, analisando o seu impacto em diferentes contextos, a sua influência na tomada de decisões e a sua relevância na esfera global.
Apache Hadoop | |
---|---|
Desenvolvedor | Apache Software Foundation |
Lançamento | Julho 2008 |
Versão estável | 3.0.3 (31 de maio de 2018 | )
Escrito em | Java |
Sistema operativo | Multiplataforma |
Gênero(s) | Sistema de arquivos distribuídos |
Licença | Apache License 2.0 |
Página oficial | hadoop |
Hadoop é uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes volumes de dados, com atenção a tolerância a falhas. Foi inspirada no MapReduce e no GoogleFS (GFS). Trata-se de um projeto da Apache de alto nível, construído por uma comunidade de contribuidores e utilizando a linguagem de programação Java. O Yahoo! tem sido o maior contribuidor do projeto, utilizando essa plataforma intensivamente em seus negócios. É disponibilizado pela Amazon e IBM em suas plataformas.
De acordo com seus co-fundadores, Doug Cutting e Mike Cafarella, a gênese do Hadoop foi o documento Google File System publicado em outubro de 2003. Este artigo gerou outro do Google – "MapReduce: processamento de dados simplificado em grandes clusters". O desenvolvimento começou no projeto Apache Nutch, mas foi transferido para o novo subprojeto Hadoop em janeiro de 2006. Doug Cutting, que trabalhava no Yahoo! na época, deu-lhe o nome do elefante de brinquedo de seu filho. O código inicial que foi fatorado do Nutch consistia em cerca de 5.000 linhas de código para HDFS e cerca de 6.000 linhas de código para MapReduce.
Em março de 2006, Owen O'Malley foi o primeiro committer a adicionar ao projeto Hadoop; Hadoop 0.1.0 foi lançado em abril de 2006. Ele continua a evoluir por meio de contribuições que estão sendo feitas ao projeto. O primeiro documento de design para o Hadoop Distributed File System foi escrito por Dhruba Borthakur em 2007.
O framework do Apache Hadoop é composto dos módulos seguintes na versão 2.2.x:
Todos os módulos do Hadoop são desenhados com a premissa fundamental de que falhas em hardware são comuns, sejam elas máquinas individuais ou um conjunto inteiro de máquinas em racks, e devem portanto ser automaticamente tratadas por software pelo framework.
|arquivourl=
requer |arquivodata=
(ajuda)