Astrid si dota di un nuovo strumento di search results clustering

ASTRID ( la Fondazione per l’Analisi, gli STudi e le ricerche sulla Riforma delle Istituzioni Democratiche e sull’innovazione nelle amministrazione pubbliche ) ha cambiato motore di ricerca per i suoi documenti e si è dotata di uno strumento di sicura efficacia.
Sto parlando dell’utilizzo di un motore di ricerca con clusterizzatore che permette di organizzare automaticamente i risultati di una ricerca in categorie tematiche.

L’Algoritmo prescelto, dopo tante prove, è stato l’STC (Suffix Tree Clustering), che sulla tipologia di documenti indicizzati sembra produrre un risultato più soddisfacente di altri (es. lingo) .

I problemi affrontati sono stati, nell’ordine:

  1. taratura e personalizzazione del crawler (ho scelto lucene per l’indice)
  2. eliminazione delle eccezioni date dai caratteri unicode non validi (d’altra parte, non si può chiedere al cliente di riscrivere e riesportare tutti i documenti….)
  3. scelta del giusto algoritmo
  4. l’indicizzazione dei contenuti protetti e/o soggetti ad abbonamento
  5. taratura dei parametri di estrazione ed aggregazione semantica

Il ritultato, a mio parere, è soddisfacente e spero di poter ampliare il discorso su questo tipo di prodotti.