La storia di Hadoop – Parte IV

L’utilizzo di Hadoop in Yahoo era diventato essenziale. Centinaia di tecnici e programmatori utilizzavano MapReduce per scrivere applicazioni. Ma il business di Yahoo era legato all’advertising e al search.

L’elefantino rischiava di non essere libero di crescere.

A giugno del 2011, alcuni ingegneri di Yahoo tra cui Eric Baldeschweiler, fondarono Hortonworks, una società che avrebbe fatto di Hadoop non solo il suo business ma la propria missione.

Logo Hortonworks
Logo Hortonworks

Tra i fondatori troviamo Alan Gates, uno degli ideatori di Pig, Arun C. Murthy, il responsabile di tutto il codice MapReduce scritto in Yahoo e padre di YARN, Devaraj Das, architetto Hadoop e promotore di MapReduce, Hadoop Security e HCatalog, Mahadev Konar, ingegnere Hadoop, Owen O’Malley, il primo committers nella storia del progetto Hadoop e autore della più grande applicazione Hadoop, Sanjay Radia, architetto del progetto HDFS in Yahoo e Suresh Srinivas, anche lui architetto del progetto HDFS.

I fondatori di Hortonworks
I fondatori di Hortonworks

L’idea alla base di Hortonworks non era solo quella di rendere Hadoop migliore e di traghettarlo nelle enterprise di tutto il mondo ma quella di guidare la crescita delle funzionalità all’interno della community Apache grazie all’altissima professionalità delle proprie risorse.

Hortonworks poteva essere per Hadoop quello che Yahoo non era: la società che facesse crescere Hadoop mantenendo fede ai principi dell’open source e al tempo stesso spalancasse le porte del mondo enterprise.

Hortonworks diventò in breve il punto di riferimento di un Hadoop open source, non proprietario, al quel tutti possono contribuire. Più del 50% del codice del progetto originale è stato scritto da dipendenti Hortonworks e quest’ultima ha il più alto numero di committers e PMC members rispetto a qualsiasi altra società al mondo.

I committers di Hortonworks
I committers di Hortonworks

Possono veramente affermare: “We do Hadoop”. E fino a oggi la crescita di Hortonworks è stata assolutamente impressionante.

Ma questa anche questa è un’altra storia.

Il 27 dicembre 2011 venne rilasciato Hadoop 1.0 e in quel periodo il cluster di Yahoo raggiunse il considerevole numero di 42.000 nodi, con centinaia di petabyte di dati gestiti.

Infine, a maggio del 2013, il nuovo record del mondo stabilito da Hadoop: il sort di 100 TB circa di dati in 72 minuti su di un cluster a 2.100 nodi con 50.400 cores.

Stiamo ovviamente parlando ancora di Hadoop 1, ma lo sviluppo di Hadoop 2 procede spedito e la nuova versione, la 2.2 vedrà la luce il 13 ottobre del 2013.

L’elefantino è ormai diventato adulto.

Ma le storie hanno tante sfaccettature. Facciamo un altro passo indietro fino al 2007.

Sebbene Yahoo sia stata la principale artefice dello sviluppo di Hadoop, anche altre realtà furono fortemente attratte dal progetto. Tra queste certamente Google, interessata a formare nuove figure professionali in ambito MapReduce. Il problema consisteva nel fatto che il codice MapReduce di Google fosse proprietario e così, nel 2007, con IBM e la National Science Foundation, rilevò un data center in via di dismissione e vi installò 2.000 nodi Hadoop: era lo scenario ideale per far crescere neo laureandi e ingegneri senza rivelare informazioni preziose sul proprio codice sorgente.

In questo contesto Christophe Bisciglia, un giovane ingegnere di Google, che utilizzava il 20% del suo tempo a insegnare informatica alla Washington University, si fece promotore del progetto e si occupò di gestire il cluster. Fu proprio in quel momento che si rese conto che non esisteva alcuna società per supportare l’implementazione e la gestione di cluster Hadoop: e lui stava sperimentando sulla propria pelle quanto se ne sarebbe sentito il bisogno.

Come sempre accade le società nascono dalle idee e così nacque Cloudera: Christophe Bisciglia si unì a Amr Awadallah di Yahoo, Jeff Hammerbacher di Facebook e Mike Olson, ex ingegnere di Oracle e inventore del motore Berkeley DB, per dar vita alla prima società nella storia avente come core business Hadoop.

I fondatori di Cloudera
I fondatori di Cloudera

Sono trascorsi diversi anni da quei giorni e lo scenario si è ampliato: MapR, fondata nel 2009 e Pivotal, nata nel 2013, sono solo due esempi di società dedicate e focalizzate su distribuzioni Hadoop proprietarie. Ma anche IBM si è da tempo mossa con BigInsights e Intel ha finanziato in modo significativo Cloudera, dopo aver abbandonato le proprie ambizioni di una distribuzione Hadoop “Intel Inside”. Cisco e HP hanno invece stretto un accordo worldwide con Hortonworks e non è un caso che quest’ultima abbia stretto partnership con Teradata, SAP e Microsoft. Nel frattempo Hortonworks stessa si è quotata in borsa raggiungendo, pochi giorni dopo, la capitalizzazione di 1 miliardo di dollari.

In fermento anche lo scenario cloud, che si sta ampliando sempre di più con società quali Amazon, Microsoft e Rackspace che offrono Hadoop as a Service, il primo basato sulla distribuzione di MapR mentre le altre due realtà hanno scelto Hortonworks.

E le previsioni? Se analizzato in modo isolato, il mercato di Hadoop per IDC varrà nel 2016 circa 813 milioni di dollari (previsione risalente a maggio 2012). A maggio 2014, la medesima previsione indica, per il quinquennio 2015-2020, un valore di 2.2 miliardi di dollari. Ma una previsione ancora più interessante è quella relativa al mercato Big Data che, per il 2016, avrà un valore di 23 miliardi di dollari. E Hadoop è imprescindibilmente legato ai Big Data.

Non male per un elefantino.

E’ un mondo che ha ancora molto da dire in termini di evoluzione di prodotto e di acquisizioni societarie.

Ma a me piace continuare a ricordare che tutto è nato dall’idea di due persone… e da un elefantino di pezza.

Add a Comment

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *