Una tassonomia può fornire molti vantaggi relativi all’organizzazione delle informazioni e alla facilitazione della ricerca. Tuttavia, una tassonomia può essere un ostacolo alla sua implementazione. Per questo occorre partire dall’analisi del contenuto e dal coinvolgimento di tutte le tipologie di utenti
Una buona tassonomia non può essere generata in maniera completamente automatica, e nella maggior parte dei casi una tassonomia predefinita non è adatta: è quindi necessario uno sforzo manuale per progettare e costruire una tassonomia appropriata. Una tassonomia è una sorta di vocabolario controllato. Un vocabolario controllato è un insieme di termini (parole o frasi) che rappresentano concetti, cose o idee unici. I termini possono funzionare da tag quando sono contrassegnati da elementi di contenuto (documenti, pagine Web, record di database, immagini o altri file multimediali). Una tassonomia è un tipo specifico di vocabolario controllato che ha una struttura. Può essere una struttura gerarchica ad albero o una struttura a sfaccettature, che organizza i termini in base al tipo di attributo, in modo da fungere come filtro di ricerca o di perfezionamento, mentre i metodi automatici possono generare elenchi di termini, ma non possono creare la struttura logica. Le tassonomie presentano molti utilizzi, e hanno numerosi vantaggi, tra cui: tagging o indicizzazione coerenti; navigazione per argomento/categoria; risultati di ricerca migliorati abbinando le stringhe di ricerca ai concetti; recupero di informazioni rilevanti che non sono state ricercate direttamente; filtraggio o ordinamento dei risultati per termini di tassonomia; gestione del flusso di lavoro dei contenuti; metadati coerenti per l’identificazione, il confronto e l’analisi; contenuti selezionati nei feed o nelle caselle informative; collegamento automatico di argomenti rilevanti per la personalizzazione o i suggerimenti; miglioramento dei grafi di conoscenza per una migliore analisi dei dati.
Qualunque implementazione di una tassonomia è unica, e coinvolge un insieme specifico di contenuti e un insieme specifico di utenti. Pertanto, la tassonomia dovrebbe essere costruita per adattarsi al contenuto e agli utenti. Una tassonomia predefinita non sarebbe l’ideale, in quanto potrebbe non avere i termini necessari, avere troppi termini dettagliati che non sono necessari o potrebbe non avere la terminologia preferita dagli utenti. La creazione di una tassonomia prevede passaggi che analizzano il contenuto e passaggi che tengono conto delle esigenze degli utenti.
L’analisi del contenuto
Il primo passaggio nella creazione di una tassonomia consiste nel determinare l’ambito del contenuto che verrà incluso nel tagging e nel recupero tramite la tassonomia. Per i contenuti pubblicati esternamente questo può essere ovvio, ma per i contenuti interni potrebbe non essere così chiaro. Alcuni contenuti possono essere archiviati in applicazioni database, come i CRM o i sistemi di gestione delle risorse umane, che dovrebbero essere ricercati separatamente e non integrati con altri, considerata la presenza di informazioni riservate e di privilegi utente diversi. Una volta determinato l’ambito di applicazione, dovrebbero essere identificati i diversi tipi di contenuto e le diverse aree tematiche del contenuto.
Il passaggio successivo consiste nell’analizzare un campione rappresentativo di contenuto di ciascuno dei diversi tipi e aree tematiche di contenuto, che verranno etichettati e recuperati, per identificare argomenti ed entità rilevanti per il contenuto. Questa forma di analisi del contenuto è simile all’indicizzazione senza un vocabolario controllato. Il tassonomista assume il ruolo di un indicizzatore o di qualcuno che tagga il contenuto e annota quali termini o tag dell’indice descriverebbero meglio il contenuto. Questo viene fatto per un campione significativo di contenuti di ogni tipo e di ogni area tematica. Il numero effettivo di elementi di contenuto dipenderà dal numero di tipi e aree tematiche, dal volume totale del contenuto e dall’eventuale utilizzo dell’estrazione automatica dei termini.
L’estrazione automatica dei termini implica l’utilizzo di software di analisi del testo per estrarre i termini tassonomici candidati, in base alla loro frequenza e pertinenza all’interno di un corpo di contenuto di testo. Questo passaggio dovrebbe essere eseguito dopo che è stata redatta una tassonomia iniziale che include alcune strutture e sinonimi per i termini. In questo modo, l’analisi del testo può integrare correttamente la tassonomia esistente per estenderla sia con nuovi concetti sia con sinonimi a concetti esistenti, invece che suggerire termini che potrebbero duplicarsi a vicenda nel significato.
Gli input degli utenti
È importante raccogliere suggerimenti dagli utenti durante la creazione di una tassonomia, in modo da personalizzare la tassonomia in base alle esigenze. Tuttavia, esistono diversi tipi di utenti di una tassonomia, e tutti i tipi di utenti dovrebbero essere presi in considerazione. Gli utenti della tassonomia comprendono chi cerca di trovare contenuti e chi carica o pubblica contenuti, e tagga manualmente i contenuti o modifica la codifica automatica. Ci sono altre persone che non sono utenti diretti della tassonomia, ma possono avere input in base ai loro ruoli come esperti di user experience, project manager di tassonomia, esperti in materia o persone che trattano con utenti esterni in ruoli di relazione con i clienti. Il metodo principale per ottenere l’input degli utenti su una tassonomia è attraverso interviste e questionari, idealmente entrambi in combinazione, in cui una conversazione segue un elenco di domande inviate alle persone coinvolte. È importante porre diversi tipi di domande su misura per i diversi tipi di utenti, con domande che riguardano il tagging rispetto a domande che riguardano il recupero dei contenuti. L’input raccolto dagli utenti durante le interviste e i questionari può essere utilizzato per progettare meglio la tassonomia e la relativa interfaccia utente, con cui ottenere casi d’uso per testare successivamente la tassonomia, per identificare possibili sfaccettature per una tassonomia sfaccettata e anche per raccogliere alcuni concetti per la tassonomia.
Un altro metodo per ottenere input dagli utenti è attraverso una sessione di brainstorming. Questo metodo è particolarmente utile per le tassonomie aziendali interne. Gli utenti rappresentativi di diversi dipartimenti possono contribuire con le loro idee suggerendo termini di esempio, che vengono scritti su una lavagna bianca, lavagna a fogli mobili o note adesive, e quindi lavorando con un facilitatore, il gruppo di brainstorming può rimuovere i valori anomali, riunire sinonimi e termini simili, e inventare categorie o sfaccettature per raggruppare i termini. Anche ottenere l’input degli utenti per i termini della tassonomia può essere più diretto, soprattutto nei casi in cui sono presenti esperti in materia per determinate sezioni della tassonomia. Agli esperti in materia può essere chiesto di fornire un elenco di termini suggeriti nella loro area tematica, che può quindi essere rivisto, modificato e incorporato nella tassonomia più ampia.
Infine, una forma indiretta per ottenere l’input degli utenti consiste nell’esaminare i registri di ricerca che indicano ciò che gli utenti hanno digitato nella casella di ricerca. I rapporti del registro di ricerca possono essere ordinati in base alla frequenza della stringa di ricerca, in modo che le stringhe di ricerca utilizzate più di frequente vengano considerate per l’inclusione nella tassonomia. Le stringhe di ricerca devono essere modificate per confermare lo stile e la policy della tassonomia, ma le stringhe di ricerca esatte devono essere incluse come sinonimi o etichette alternative per supportare le ricerche future.
Costruire una tassonomia
Una tassonomia è costruita da una combinazione di un approccio top-down e bottom-up. Top-down si riferisce allo sviluppo dei termini o delle sfaccettature di primo livello e quindi all’aggiunta di termini più dettagliati. Bottom-up si riferisce all’identificazione prima dei termini specifici da includere e quindi allo sviluppo di categorie basate sul raggruppamento di tali termini. I metodi top-down tendono a fare più affidamento sugli input degli utenti, mentre i metodi bottom-up tendono a fare più affidamento sull’analisi del contenuto. Entrambi i metodi top-down e bottom-up dipendono l’uno dall’altro, quindi entrambi possono essere eseguiti come attività sovrapposte anziché consecutivamente.
Heather Hedden
Esperta di tassonomia, ha operato in vari ruoli per oltre 25 anni in numerose organizzazioni e come consulente indipendente. Attualmente, lavora per il team di servizi professionali di Semantic Web Company (fornitore del software PoolParty Semantic Suite). Precedentemente, Heather Hedden è stata editor senior di vocabolario presso un editore didattico, tassonomista presso uno sviluppatore di software per motori di ricerca enterprise, e insegnante presso la Simmons University School of Library and Information Science.
Ha progettato e sviluppato tassonomie, thesaurus, ontologie e schemi di metadati per contenuti pubblicati internamente ed esternamente, compresi siti web, intranet e sistemi di gestione dei contenuti. Ha anche tenuto seminari sulla creazione di tassonomie in numerose conferenze e nell’ambito della formazione aziendale. È autrice del libro “The Accidental Taxonomist”, arrivato alla seconda edizione.
Heather Hedden presenterà per Technology Transfer il seminario “Design di Tassonomia e Metadati” che si terrà a Roma l’11-12 ottobre 2021.