IBM sta collaborando con la British Library ad un progetto per la conservazione e l’analisi di terabytes di informazioni sul Web prima che vadano persi per sempre.
Il nuovo progetto di analytics software, denominato IBM BigSheets, aiuta ad estrarre, annotare e analizzare visivamente grandi quantità di informazioni Web utilizzando un browser.
Il prototipo della nuova tecnologia IBM sta aiutando la British Library ad archiviare e preservare quantità massicce di pagine Web e, quindi, aprire la porta virtuale dei suoi archivi alle generazioni future.
La nuova tecnologia di IBM aiuta la British Library a velocizzare il processo di archiviazione, prima che il dato presente su Web venga perso per sempre.
Il Web cambia velocemente, con nuove pagine che vengono create ogni giorno: un’esplosione di informazioni, destinate a sparire quasi altrettanto velocemente. Recenti ricerche stimano l’aspettativa di vita di un sito Web tra i 44 ed i 75 giorni. Ogni sei mesi, il 10% delle pagine Web dei domini inglesi viene perso.
“IBM BigSheets fa per le grandi quantità di informazioni quello che un foglio di calcolo ha fatto per un personal computer,” ha detto Rod Smith, vice president, Emerging Internet Technologies, IBM.
“Nello spazio di pochi minuti, ricercatori, accademici e studenti potranno eseguire ricerche su archivi di pagine Web di grandi dimensioni, analizzare e visualizzare senza sforzo i risultati della ricerca.”
Preservare le informazioni per le generazioni future
Ogni anno più di sei milioni di ricerche vengono generate a partire dal catalogo online della British Library, e più di 400.000 persone visitano le sale-lettura della British Library, alla ricerca di informazioni.
La British Library riceve una copia di ogni pubblicazione fisica prodotta nel Regno Unito ed in Irlanda, per un totale di 150 milioni tra mappe, manoscrittti, spartiti musicali, giornali e riviste che deve archiviare.
Andando oltre il semplice aspetto fisico, la British Library ha avviato l’archiviazione di pagine Web scelte dai domini UK a partire dal 2004. Con BigSheets, gli utenti della biblioteca, in futuro, avranno la possibilità di accedere ad un vasto archivio storico di siti Web e di fare ricerche e analisi, visualizzandone i risultati, in modo semplice.
“Stimiamo che lo spazio Web del Regno Unito conterrà, entro il 2011, oltre 11 milioni di siti Web. Per affrontare l’enorme sfida di catturare questi contenuti, abbiamo bisogno di un sistema capace di portare l’Archivio Web ad una scala adeguata, una scala-Web”, ha detto Helen Hockx-Yu, Web Archiving Programme Manager, The British Library.
“IBM può aiutarci ad analizzare l’archivio web, contenente milioni di pagine, e a portare in superficie una conoscenza che, altrimenti, sarebbe molto difficile da scoprire con i metodi di ricerca tradizionali.”
Che si tratti di una persona interessata al proprio albero genealogico o di uno studente al lavoro su un progetto per la scuola, le persone hanno bisogno di aiuto nell’orientarsi in questo oceano di informazioni su Web, in continuo aumento.
Per esempio, le elezioni del 2005 hanno visto il primo tentativo, da parte dei politici inglesi, di usare il web come strumento di campagna politica. Si prevede che questo utilizzo del web avrà un’esplosione per le elezioni del 2010, e i dati raccolti nel 2005 consentiranno ai ricercatori di studiare l’evoluzione del rapporto tra politica e web per accedere ad una fonte primaria di materiali di grande valore.
BigSheets: i fondamenti tecnici
Quest’anno, la mole di informazioni digitali si stima raggiungerà i 988 esabite, l’equivalente di una catena di libri dal Sole a Plutone e ritorno. Il Web sta esplodendo di informazioni ed i business professionals vogliono accedere a quelle informazioni – strutturate e non strutturate – per avere una visione più approfondita del loro lavoro.
IBM BigSheets è un motore di approfondimento che aiuta le aziende a ottenere una vista migliore da data set di grandi dimensioni ed in breve tempo. Costruito sul framework di Apache Hadoop, IBM BigSheets è capace di elaborare grandi quantità di dati velocemente ed in modo efficace.
IBM BigSheets è il prototipo di una nuova tecnologia. Gli utenti possono esplorare e generare nuovi approfondimenti dei dati utilizzando un’applicazione Web e poi il software IBM pubblica data feeds secondo gli standard Web 2.0, ricercabili dai clienti della British Library.
BigSheets è l’estensione del paradigma del mashup, che integra gigabytes, terabytes, o petabytes di dati non strutturati provenienti da repository su Web; raccoglie una grande quantità di dati non strutturati partendo da user-defined seed URLs; estrae ed arricchisce l’informazione usando un’architettura di gestione delle informazioni non strutturate; e permette all’utente di esplorare e visualizzare queste informazioni in un contesto specifico, ritagliato per l’utente. Per esempio, gli utenti possono vedere i risultati delle ricerche in un grafico a torta e vedere i dati in una tag cloud.