La storia di Hadoop – Parte II

Ma il lavoro e gli sforzi di Cutting e Cafarella non passarono inosservati. Così come l’allora direttore della divisione Search di Yahoo, Qi Lu, aveva ascoltato con estremo interesse la presentazione del white paper di Google su MapReduce, anche Nutch aveva attirato l’attenzione del colosso di Sunnyvale.

Qi Lu
Qi Lu

E infatti, spinta dalla volontà di rivoluzionare la propria tecnologia legata al Search, Yahoo assunse Doug Cutting e un intero team dedicato, sotto la direzione di Eric Baldeschweiler (famoso con il nik di Eric14). Al contrario di Cutting, Cafarella preferì optare per una carriera universitaria, diventando professore associato alla Michigan University, cessando quasi del tutto qualsiasi collaborazione con il nuovo gruppo.

Eric Baldeschweiler
Eric Baldeschweiler

A volere fortemente questa mossa furono Jan Pederson, futuro Chief Scientist di Yahoo e Raymie Stata, che divenne in seguito Chief Architect for algorithmic web search e poi, nel 2010, CTO. I due convinsero Lu, senza particolare difficoltà a dire il vero, dell’assoluta necessità di questa nuova strategia. A sua volta Lu, supportato da Jeff Weiner, allora manager di Yahoo e ora CEO di LinkedIn, riuscì a convincere il board di Yahoo.

Raymie Stata
Raymie Stata

Questa può essere considerata la svolta cruciale nello sviluppo di Hadoop. Non solo ora erano disponibili notevoli fondi da dedicare all’implementazione del codice ma c’era un team dedicato a questo scopo.

Ma un pericolo per l’elefantino si stagliava all’orizzonte.

Come ama ricordare Amit Kumar, all’epoca Engineering Director della divisione Web Search di Yahoo, lo stesso Kumar era solito sedersi accanto a Eric Baldeschweiler, quando quest’ultimo fu incaricato di delineare il framework di nuova generazione che avrebbe supportato il motore di ricerca negli anni a venire. La stessa divisione aveva già prodotto un numero rilevante di ottimi risultati in passato ma, riferisce sempre Kumar, era tempo di riprogettare dalle radici i sistemi dedicati a tale scopo.

All’epoca il motore di ricerca di Yahoo era composto da quattro componenti principali: il Crawler, per il download delle pagine internet, il WebMap, per la gestione dei grafi, l’Indexer, per l’indicizzazione e il Runtime, per la gestione delle query.

Il WebMap era un grafo con circa 1 trilione di archi, che rappresentavano i link web, e 100 miliardi di nodi, rappresentanti gli URLs. L’infrastruttura che gestiva il WebMap, chiamata Dreadnaught era, sotto alcuni aspetti, simile a MapReduce e scalava da 20 a 600 nodi senza problemi, ma si rendeva necessario riprogettarla da zero per renderla più flessibile e scalare.

Webmap example
Webmap example

Dopo aver esaminato in dettaglio Hadoop, il team, chiamato Grid Computing Team, lo trovò troppo “giovane” e così iniziarono a scrivere da zero una nuova versione di Dreadnaught in C++ prendendo spunto dal Google File System e da MapReduce. L’idea era quella di creare non solo Dreadnaught 2.0 bensì un framework utilizzabile anche in altre business units.

Con un team ben affiatato, estremamente competente e altamente qualificato avrebbero avuto certamente successo nel compito.

Ma ci sarebbe voluto tempo, troppo tempo.

Fortunatamente, e Kumar ricorda ancora molto bene quel giorno, Baldeschweiler se ne rese conto e, stravolgendo la strategia fino ad allora percorsa, decise di focalizzarsi sul rendere Hadoop migliore.

Quel giorno furono gettate le basi di Hadoop per come oggi lo conosciamo.

Add a Comment

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *