Date post: | 28-Nov-2014 |
Category: |
Social Media |
Upload: | comunicazionegenerativa |
View: | 196 times |
Download: | 0 times |
www.voicesfromtheblogs.com | we capture the sentiment of the net
Ascoltare la Rete:
la Sentiment Analysis
Firenze, 14 giugno
“Big Data, big duties”
www.voicesfromtheblogs.com | we capture the sentiment of the net
Big Data: 2013 vs 2012
www.voicesfromtheblogs.com | we capture the sentiment of the net
E in Italia?
www.voicesfromtheblogs.com | we capture the sentiment of the net
www.voicesfromtheblogs.com | we capture the sentiment of the net
Perché analizzare i Big Data
1. Una crescente mole di dati disponibili su prodotti, temi,
preferenze. Perché ignorarli?
2. La possibilità di una analisi real-time
3. La possibilità di geolocalizzare l’analisi
4. La possibilità di analizzare diverse lingue
5. La capacità di catturare dinamiche prima degli altri:
nowcasting e forecasting
6. Il passaparola elettronico funziona!
7. Non si possono fare domande…
8. Il costo di queste analisi è decisamente più contenuto
rispetto alle alternative
www.voicesfromtheblogs.com | we capture the sentiment of the net
Come analizzare i Big Data
Due grandi approcci:
1. The Volume
2. The Analytics
www.voicesfromtheblogs.com | we capture the sentiment of the net
The Volume
1. Conteggiare: numero di menzioni, numero di likes,
numero di followers, ecc.
• Utile soprattutto ai grandi brand (in senso ampio)
www.voicesfromtheblogs.com | we capture the sentiment of the net
Grillo ospite a Porta a Porta
40.68
40.70
40.72
40.74
-74.050 -74.025 -74.000 -73.975
lon
lat
*Fonte: VfB. Periodo sett-nov, 2013.
Post geolocalizzati: 900K
Il brand Martini
www.voicesfromtheblogs.com | we capture the sentiment of the net
20
30
40
50
-120
-110
-100
-90
-80
-70
lon
lat
40
50
60
-10
0
10
20
30
40
lon
lat
www.voicesfromtheblogs.com | we capture the sentiment of the net
The Volume
2. Identificare gli «influencer»
• Cercare di «influenzare» chi conta quando parla
di te
www.voicesfromtheblogs.com | we capture the sentiment of the net
I limiti del Volume
• Il conteggio dice però qualche cosa solo sulla
notorietà di un prodotto, personaggio, tema, nulla
però sulla popolarità/valutazione di tale prodotto,
personaggio, tema
• Ma generalmente a una impresa/istituzione,
interessa non solo sapere quanto si parli, ma
come si parli di me o di qualche evento o di
qualche prodotto
www.voicesfromtheblogs.com | we capture the sentiment of the net
Fare analytics
• Due dimensioni per fare analytics:
• Prima dimensione: una analisi puramente
automatizzata vs. una analisi supervisionata
• Seconda dimensione: una analisi individuale
[quasi tutti] vs. una analisi aggregata [pochi…]
www.voicesfromtheblogs.com | we capture the sentiment of the net
Come fare una analisi automatizzata
• Fare affidamento su dizionari ontologici costruiti
sulla base di qualche regola semantica più o meno
complessa per produrre un «sentiment»
www.voicesfromtheblogs.com | we capture the sentiment of the net
www.voicesfromtheblogs.com | we capture the sentiment of the net
I problemi dei dizionari ontologici
• I dizionari sono statici per definizione (mentre il
linguaggio evolve continuamente e cambia da
soggetto a tema a lingua utilizzata)
www.voicesfromtheblogs.com | we capture the sentiment of the net
I problemi dei dizionari ontologici
• I dizionari non colgono i doppi sensi, l’humor, i
giochi di parole
“Questo film promette bene. Sembra avere una bellissima trama, un cast
d’eccezione e attori di primo piano e Stallone dà il massimo di sé stesso.
Ma non regge”
"Ibis redibis numquam peribis in bello", che si può tradurre sia come
"andrai, ritornerai, non morirai in guerra", ma anche all’opposto,
"andrai, non ritornerai, morirai in guerra"
“ragazza stufa scappa di casa… i genitori muoiono di freddo”
“non esiste un vento favorevole per il marinaio che non sa dove andare” (Seneca)
I problemi dei dizionari ontologici
www.voicesfromtheblogs.com | we capture the sentiment of the net
I problemi dei dizionari ontologici
• E inoltre…
…a me interessa capire le opinioni dietro al
sentiment!!! E con un dizionario ontologico, a
differenza di una codifica manuale, questo non è
possibile…
www.voicesfromtheblogs.com | we capture the sentiment of the net
Stima individuale vs. stima aggregata
• Immaginiamo allora di aver codificato
manualmente (e quindi senza i problemi dei
dizionari ontologici…) un certo numero di post su
un certo argomento
• Possiamo fermarci a questo punto?
• NO!!! i campioni rappresentativi di opinioni sui Big
Data hanno poco senso, ma l’universo è
disponibile!
www.voicesfromtheblogs.com | we capture the sentiment of the net
Stima individuale vs. stima aggregata
• Come passare allora da questo sotto-insieme (che
possiamo capire train-set) all’intero universo dei
post (ovvero, al test-set)?
www.voicesfromtheblogs.com | we capture the sentiment of the net
Come arrivare ad un stima aggregata?
per sapere quanto mangime
consumano i pesci, è meglio
contare quanto ne mangia
ciascun pesce e poi
aggregare il dato…
…oppure guardare direttamente
quanto mangime è rimasto nel
barattolo?
www.voicesfromtheblogs.com | we capture the sentiment of the net
Stima individuale vs. stima aggregata
• La maggior parte dei metodi cerca di stimare a quale
categoria appartiene ciascun singolo post
appartenente al test-set, utilizzando le informazioni del
train-set
• Il problema è che così facendo ogni post è predetto
appartenere a una certa categoria con una qualche
probabilità < 1
• Quindi, quando si aggrega per arrivare alla stima
aggregata, anche l’errore di classificazione individuale è
aggregato producendo un errore complessivo che può
arrivare al 15/20%
www.voicesfromtheblogs.com | we capture the sentiment of the net
L’innovazione iSA®
• La tecnologia iSA® sviluppata da Voices from the
Blogs (VfB) risolve questo problema stimando
direttamente la distribuzione aggregata delle
opinioni del test-set, invece che i singoli post da
aggregare poi successivamente
Come funziona iSA®?
www.voicesfromtheblogs.com | we capture the sentiment of the net
Step-by-Step iSA®
• Ogni singolo post nel train-set è classificato da
codificatori umani
• L’algoritmo apprende dalla classificazione umana
l’associazione tra linguaggio e contenuto semantico
ed estende all’intero universo tale associazione
• La distribuzione finale dell’intero universo è stimata
poi direttamente con un errore di classificazione
inferiore al 3%
• Tutto ciò rende possibile analizzare i Big Data con
la profondità di una analisi qualitativa
26
Cosa dicono; cosa piace, cosa non piace (e
perchè) quando parlano di me, del mio prodotto
specifico o in generale
Cosa gli piacerebbe
Come si sentono su un certo tema
La mia campagna sta funzionando?
Analizzare i miei competitors
Scoprire nuovi mercati
Analytics: applicazioni
www.voicesfromtheblogs.com | we capture the sentiment of the net
Alcuni esempi
Brand Reputation:
marchi, prodotti, individui,
eventi, istituzioni
www.voicesfromtheblogs.com | we capture the sentiment of the net
Alitalia Brand Reputation Prima e dopo il volo atterato fuori pista (2 feb 2013)
*Fonte: Analisi interna, 26 Mag 2013. Blog analizzati: 2122 (1130 prima e 992 dopo l’incidente).
Sentiment Aspetti positivi Aspetti negativi
Positivo
26.0%
Neutro
14.3%
Negativo
59.7%economico
iniziative
ottimi servizi
serio
tratte9.7%
22.7%
20.6%
14.9%
32.0%
12.0%
53.5%
8.2%
15.1%
11.2%
prima dopo
bilancio passivo
costoso
errori
monopolio
poca chiarezza
poco sicuro
voli cancellati13.0%
8.6%
25.6%
3.1%
14.3%
9.8%
25.5%
7.7%
11.8%
11.9%
12.8%
12.1%
9.7%
33.9%
prima dopo
prima
dopo
Positivo
7.4%Neutro
2.7%
Negativo
89.9%
www.voicesfromtheblogs.com | we capture the sentiment of the net
Milano Fashion Week
*Fonte: VfB, 25 Set 2012. (http://sentimeter.corriere.it/2012/09/25/milano-fashion-week-gucci-e-armani-i-piu-acclamati-su-twitter/ )
www.voicesfromtheblogs.com | we capture the sentiment of the net
Il nuovo iPad
*Fonte: VfB in esclusiva per Sole24Ore, 08 Mar 2012. Tweet analizzati: 40.000.
(http://www.ilsole24ore.com/art/tecnologie/2012-03-10/nuovo-ipad-cosa-dice-093953.shtml?uuid=AbvOGa5E )
sì
76.3%no
23.7%
Lo compreresti?
Cosa piace di più? Cosa manca o non
convince?
www.voicesfromtheblogs.com | we capture the sentiment of the net
batteria
4G/LTE
fotocamera
dettatura vocale
prezzo
nuove app
retina display
processore 22.6%
19.7%
14.4%
11.3%
8.9%
8.0%
7.8%
7.3%
porta USBdock nome
72.8%
18.7%
8.5%
download
ecologico
economico
efficiente
pratico
sempre con me18.6%
61.2%
0%
0%
0%
20.2%
17.8%
11.5%
59.0%
10.1%
1.0%
0.7%
Ita Eng
Libro o ebook?
*Fonte: VfB, 30 Mar 2012. (http://voicesfromtheblogs.com/2012/03/30/book-o-ebook/ ).
Tweet analizzati: 13.500 in italiano e 70.000 in inglese
ebook
34.8%
indifferente
28.4%
libro di carta
36.9%
ebook
58.6%
indifferente
21.2%
libro di carta
20.2%
Tweet in italiano Tweet in inglese Quali vantaggi dell’ebook?
profumo della carta
si conserva meglio
è tangibile80.7%
0%
19.3%
42.9%
44.0%
31.3%
Ita Eng
Quali vantaggi del libro di carta?
13.500 tweet in
italiano
70.000 tweet in
inglese
Analizzati:
Marzo,2012
www.voicesfromtheblogs.com | we capture the sentiment of the net
Gradimento di Mario Monti
22/11/12:
Il giudizio della rete
sul Monti bis
*Fonte: VfB in esclusiva per il Corriere della Sera, 22 Nov 2012.
(http://sentimeter.corriere.it/2012/11/22/quante-chance-per-monti-bis-secondo-la-rete/ ). Tweet analizzati: 31.000
Contrario
58.6% non so
11.1%
Favorevole
30.3%
Cosa ne pensi
di un Monti-bis?
www.voicesfromtheblogs.com | we capture the sentiment of the net
bene complessivamente
bene in economia
bene ma ancora poco
male complessivamente
male in economia
troppa austerity e poco welfare
troppe tasse 24.9%7.0%
17.7%13.2%
7.1%19.2%
10.6%
Come giudichi l’azione del governo Monti?
bravo ma autoreferenziale
competente e credibile
onesto e buon politico
dannoso per il paese
non eletto
non incisivo
poco equo e democratico
troppo vicino alla finanza 22.8%6.8%
11.6%5.3%
13.5%10.0%
26.4%3.5%
Che ne pensi di Monti come uomo politico?
Expo 2015
*Fonte: VfB, in esclusiva per Camera di Commercio di Milano.
Post analizzati in Rete: oltre 13 mila pubblicati in lingua diversa dall’italiano e fuori dall’Italia
(http://voicesfromtheblogs.com/2013/12/10/expo2015-vista-nel-mondo-piace-ma-se-ne-parla-ancora-poco/)
www.voicesfromtheblogs.com | we capture the sentiment of the net
La 55.Biennale d’arte di
Venezia
*Fonte: VfB.
(http://voicesfromtheblogs.com/2014/02/04/la-55-biennale-darte-di-venezia-e-la-rete-tra-plausi-e-perplessita/#more-6495).
www.voicesfromtheblogs.com | we capture the sentiment of the net
La Pubblica Amministrazione
*Fonte: VfB in esclusiva per Repubblica
(http://www.repubblica.it/economia/2014/02/10/news/pa_e_agenda_digitale_la_rete_rimpiange_la_coda_allo_sportello-
78232391/). www.voicesfromtheblogs.com | we capture the sentiment of the net
Scoprire emozioni e
aspettative…
www.voicesfromtheblogs.com | we capture the sentiment of the net
www.voicesfromtheblogs.com | we capture the sentiment of the net
iHappy: la felicità degli italiani
Giorni felici o tristi
*Fonte: VfB in esclusiva per Juventus FC, 08 Mag 2013.
(http://www.juventus.com/juve/it/news/Juve+la+ricetta+della+felicita ). Tweet analizzati: 430.000
iHappy Pre Scudetto
(fino a 05/05/2013 ore 16.00)
iHappy Post Scudetto
(da 05/05/2013 ore 16.00 fino a
06/05/2013 ore 08.00)
La felicità in Italia dopo lo Scudetto Juventus
felice
infelice
felice
infelice
www.voicesfromtheblogs.com | we capture the sentiment of the net
www.voicesfromtheblogs.com | we capture the sentiment of the net
Il Wired Next Index
Uno dei primi esperimenti in Italia che si propone di unire
indicatori freddi con indicatori caldi. Il WNI è infatti un indice
econometrico che tiene assieme…
5 indicatori freddi: numero imprese, tasso di disoccupazione,
export, aspettative ISTAT dei consumatori, aspettative ISTAT
delle imprese
3 indicatori caldi basati su una analisi di Twitter: fiducia su
ripresa economica, su proprie condizioni personali, su politica.
Tra 2013 e 2014 circa 60M di post
Il WNI in pratica
.3.4
.5.6
.7
WN
I Ita
lia
01jan2013 01may2013 01sep2013 01jan2014 01may2014
Wired Next Index
www.voicesfromtheblogs.com | we capture the sentiment of the net
1 anno e mezzo di WNI
Media
2013
Media
2014
www.voicesfromtheblogs.com | we capture the sentiment of the net
WNI e MIB
Amore…
…e Sesso
Real-time monitoring
www.voicesfromtheblogs.com | we capture the sentiment of the net
I mondiali 2014
www.voicesfromtheblogs.com | we capture the sentiment of the net
*Fonte: Analisi in esclusiva di VfB per TV Svizzera e per Wired
Discovering new
(potential) markets
www.voicesfromtheblogs.com | we capture the sentiment of the net
Il Giappone e l’olio di oliva
www.voicesfromtheblogs.com | we capture the sentiment of the net
51
1. Coverage! Coverage! And even more
Coverage!
• Questo è un problema tecnologico e/o
finanziario
Cosa conta nell’Analytics
52
2. Il metodo che si utilizza per analizzare i social
media do matter!
• Questo è un problema statistico
• L’esempio delle elezioni: uno dei pochi
eventi sociali che presenta una misura
indipendente di ciò che si vuole prevedere
(ovvero, i risultati elettorali medesimi)
Cosa conta nell’Analytics
53
Abbiamo analizzato 80 previsioni elettorali
basate sull’analisi dei social media pubblicate in
questi ultimi anni
Diversi paesi: Stati Uniti, Italia, Francia, Spagna,
Germania, Singapore, ecc.
54
Le tecniche supervisionate a livello aggregato
aumentano l’accuratezza delle previsioni del 5%
se confrontate con le previsioni che si basano
solo sul volume dei dati o su metodi di Sentiment
Analysis completamente automatizzati
#US2012 Monitoraggio in tempo reale
*Fonte: VfB in esclusiva per il Corriere della Sera, 06 Nov 2012.
(http://sentimeter.corriere.it/2012/11/06/twitter-lancia-lultima-volata-ai-due-candidati/ ). Tweet analizzati: 50M+ (2M/ giorno)
www.voicesfromtheblogs.com | we capture the sentiment of the net
Obama 16,9 M di followers su Twitter,
Romney 0,6…eppure…
www.voicesfromtheblogs.com | we capture the sentiment of the net
Some Electoral Forecasts
www.voicesfromtheblogs.com | we capture the sentiment of the net
Altre applicazioni…
www.voicesfromtheblogs.com | we capture the sentiment of the net
La censura in Cina
www.voicesfromtheblogs.com | we capture the sentiment of the net
La censura in Cina
www.voicesfromtheblogs.com | we capture the sentiment of the net
La censura in Cina
Voices from the Blogs nasce nell’ottobre 2010 come
osservatorio scientifico sulle opinioni espresse in rete (social
media, blog, forum, web)
Il 12/12/12 diventa uno Spin-Off dell’Università degli Studi di
Milano (Srl iscritta nel Registro delle Startup Innovative)
A maggio 2014, Voices from the Blogs ha analizzato oltre
300 milioni di post scritti in italiano, inglese, francese,
spagnolo, tedesco, russo e giapponese
Voices from the Blogs, oltre che in Italia, opera al momento
sul mercato statunitense, canadese, svizzero e spagnolo
Chi siamo
www.voicesfromtheblogs.com | we capture the sentiment of the net
Follow us!
URL: http://voicesfromtheblogs.com
Twitter: @blogsvoices
Facebook: Voices from the Blogs
www.voicesfromtheblogs.com | we capture the sentiment of the net
Grazie