Friday, March 14, 2008

Una discussione sulle potenzialità dell' analisi semantica per il monitoraggio del web e sullo stato dell'arte

Si è sviluppato negli ultimi giorni su questo blog un micro dibattito sull'analisi semantica di testi a proposito del post sul prodotto Blogmeter.

Ho pensato di evidenziare questa discussione perchè tratta un tema che mi appassiona molto e quindi provo a sintetizzare le considerazioni. Il miniforum si è svluppato sul commento di Marlon (che ringrazio per il contributo) che esprimeva qualche perplessità :

"Ho visto il sito (di Blogmeter) e non c'è scritto molto di concreto sul prodotto. Personalmente non credo possa fare realmente ciò che promette ed in particolare l'analisi semantica del "parlato" .... attendo smentite".

La sua è un'opinione non di un neofita in quanto ci racconta che "a livello universitario ho lavorato a tematiche simili sia perché adesso opero nel settore dell'Information Technology".

In effetti le sue perplessità sono assolutamente giustificate, perchè l'analisi semantica non ha dato in passato grandi risultati, ma in questo momento mi sembra che si stiano facendo passi in avanti.

Nel campo dell'analisi del linguaggio i risultati devono essere rapportati alla enorme difficoltà del problema, a causa degli infiniti modi di rappresentare un concetto e della difficoltà di trasferire alla macchina l'informazione di contesto, che invece è patrimonio del lettore. Questo spiega perchè la medesima informazione può essere recepita in maniera positiva o negativa da due lettori diversi.

In ambiti verticali specifici e con adeguato training dei sistemi si possono però avere risultati interessanti. Ovviamente quanto più è ristretto il dominio di conoscenza da osservare tanto più è possibile ottenere risultati corretti.

Paradossalmente lo stimolo alla ricerca è arrivato dal più drammatico episodio di terrorismo accaduto, ovvero l'attentato alle torri gemelle.

L'esplosione del problema di Al Qaeda, come network di cellule che utilizzano anche il web per comunicare e per ricevere ordini, ha impresso un'accelerazione degli investimenti in ricerca da parte degli Stati Uniti, ma anche le politiche di investimento della Comunità Europea nel campo del software puntano oggi molto su questi aspetti, all'interno del settimo programma quadro.

Alla discussione è intervenuto Sacha Monotti di Blogmeter (monitoraggio accurato!!!) che ci fa notare che "per avere un evidenza pratica di cosa può fare blogmeter basta seguire il monitoraggio sul buzz politico che stiamo portando avanti con spindoc:

http://mediameter.wordpress.com/osservatorio-buzz-politico-online/

http://www.spindoc.it/2008/03/07/il-pd-e-in-un-post-su-due-e-sfida-online-berlusconi/

(vi anticipo che nei prossimi giorni andremo a valutare in dettaglio quali sono i TEMI più cari agli italiani ;-))"

Aggiungo poi, che di tutti i temi che ho trattato, questo è uno di quelli maggiormente interessanti per me, infatti dal 2005-2006 seguo con attenzione lanalisi semantica e per un periodo, nella nostra società, abbiamo lanciato un laboratorio su cui abbiamo investito per ottenere questi risultati. Il progetto è stato poi sospeso a causa di sopravvenuti impegni di lavoro che hanno dirottato le risorse, ma non certo per mancanza di interesse.

Quindi ho osservato Blogmeter con occhio critico e devo dire che è una interessante implementatione, va nella direzione verso la quale abbiamo cercato di andare.

Mi sento però di dover fare alcune osservazioni:

Allo stato (e ancora per molto), l'analisi semantica produce buoni risultati ma ovviamente non può spiegare nel dettaglio di cosa parla un certo post e non può farlo di qualunque argomento o contesto.

L'obiettivo ragionevole è quello di aiutare l'uomo ad organizzare la conoscenza nella maniera migliore possibile, in considerazione dell'enorme mole di informazioni disponibili, che rappresentano al tempo stesso informazione e "noise". Questo si ottiene "facilitando" l'individuazione dell'informazione significativa ai nostri fini.

Un altro obiettivo è quello di desumere informazioni statistiche, che, in quanto tali, possono anche non essere corrette in un singolo dettaglio/post, ma hanno valore proprio nella loro visione di insieme.

A questo proposito il test sulla politica è esemplificativo. Aggiungo che se fossimo già in un mondo in cui il web rappresenta il principale canale di comunicazione, oggi saremmo in grado di avere delle proiezioni su un campione enorme e quindi molto affidabile.

Marlon poi sottolineava altri aspetti che sono:

- quali sono gli algoritmi di analisi semantica utilizzati ?
- quanto tempo "macchina" ci vuole per analizzare i blog ?
- quanto intervento umano di fine tuning è necessario ?
- ecc. ecc.

Qualche risposta cercherò di darla nell'intervista a Sacha e Vittorio che pubblicherò domani ma ovviamente li invito ad intervenire anche sugli altri aspetti.

Concludo con l'ultima considerazione, oggi la rete vede affermarsi fenomeni di conoscenza collettiva, da Wikipedia al social bookmarking. E' dall'integrazione di strumenti automatici con politiche e strumenti di collaboration che dobbiao di aspettarci di ottenere il risultato migliore nel campo della condivisione della conoscenza.

grazie a tutti per la discussione.

3 comments:

  1. In quanto massimo esperto condominiale di analisi semantica mi sento di aggiungere anche un dettaglio, che forse può far capire meglio qual è il metro di giudizio che dobbiamo avere su questo genere di prodotti.
    Se l'analisi semantica è ad un buon punto l'analisi sintattica ed i sistemi di indicizzazione sono molto più avanti e la loro spinta di rinnovamento sembra non interrompersi. Questo in parole povere significa che qualunque prodotto che utilizza l'analisi semantica deve fronteggiare a livello di qualità dei risultati ottenuti la competizione di quelle aziende che con i sistemi di indicizzazione fanno veri miracoli (big G in testa, ovviamente).
    Quello che l'utente finale percepisce nei due casi non si discosta di molto ed anzi i sistemi "tradizionali" spesso risultano più rapidi, precisi e di minore complessità.
    Insomma l'approccio riduzionista sembra tenere bene, nonostante tutto, sarà che ci abbiamo fatto l'abitudine.

    ReplyDelete
  2. caro Miki grazie di animare la discussione anche in questa nostra assemblea condominiale...

    ma a questo punto ti chiedo un ulteriore contributo...

    tra i due approcci quale ritieni darà risultati migliori nei prossimi anni... ???

    ReplyDelete
  3. Grazie carlo, per l'utile spazio di discussione.
    L'argomento è complesso e abbiamo pubblicato una risposta più organica direttamente su mediameter, la trovi qui: http://mediameter.wordpress.com/2008/03/18/discutendo-di-analisi-semantica-e-di-monitoraggio-dei-social-media/
    Un solo commento per miki: credo che tu abbia colto nel segno: se l'utente non capisce la differenza di qualità dei risultati, meglio andare avanti con il buon vecchio vector space model. Bisogna pero' essere consapevoli che per catturare certi fenomeni la statistica delle occorrenze e il pagerank non saranno mai sufficienti, basta provare a catturare concetti come la fiducia o lo intenzioni di acquisto. E' per questo che vale la pena di investire in tecnologie di analisi del linguaggio.

    ReplyDelete