ASTRID ( la Fondazione per l’Analisi, gli STudi e le ricerche sulla Riforma delle Istituzioni Democratiche e sull’innovazione nelle amministrazione pubbliche ) ha cambiato motore di ricerca per i suoi documenti e si è dotata di uno strumento di sicura efficacia.
Sto parlando dell’utilizzo di un motore di ricerca con clusterizzatore che permette di organizzare automaticamente i risultati di una ricerca in categorie tematiche.
L’Algoritmo prescelto, dopo tante prove, è stato l’STC (Suffix Tree Clustering), che sulla tipologia di documenti indicizzati sembra produrre un risultato più soddisfacente di altri (es. lingo) .
I problemi affrontati sono stati, nell’ordine:
- taratura e personalizzazione del crawler (ho scelto lucene per l’indice)
- eliminazione delle eccezioni date dai caratteri unicode non validi (d’altra parte, non si può chiedere al cliente di riscrivere e riesportare tutti i documenti….)
- scelta del giusto algoritmo
- l’indicizzazione dei contenuti protetti e/o soggetti ad abbonamento
- taratura dei parametri di estrazione ed aggregazione semantica
Il ritultato, a mio parere, è soddisfacente e spero di poter ampliare il discorso su questo tipo di prodotti.


