Gli Italiani su Twitter

Tratti di personalità e interazioni





Domenico Bianco

Francesco Grisolia

Mauro Mario Gentile

30/6/2017

Obiettivo del progetto e strumenti utilizzati


Classificazione per tratti di personalità degli utenti italiani di Twitter



Strumento

Caratteristiche

Pregi

Limiti


BIG5

  • Cinque tratti psicologici
  • Ipotesi lessicale
  • Modello nomotetico
  • Descrizione sintetica della personalità
  • Applicabile a testi di varia natura
  • Generalizabilità
  • Tendenza all'astrazione
  • Limitato al linguaggio
  • Trascura le diversità culturali

LIWC

  • Programma di analisi testuale
  • Rilevamento di tratti psicologici
  • Basato su dizionario
  • Analisi automatizzata
  • Rilevanza delle parole-funzione
  • Significatività dei risultati
  • Categorie predefinite
  • Binarietà invece di gradiente
  • Ignora specificità dell'uso linguistico

Applicazione del modello agli utenti di lingua italiana




Raccolta dei dati

Con 60 App Twitter, in 2 mesi sono stati raccolti e processati:

  • 14,2 milioni di account unici di lingua italiana

    • Scraping di Socialbakers: 1000 utenti italiani più seguiti
    • Crawling dei follower e following dei più seguiti
    • RestAPI per le informazioni generali dei follower dei più popolari
    • Scraping di follower selezionati per accelerare il processo di raccolta dati
    • Tecnica snowball per incrementare la completezza del DB
    • Filtraggio degli utenti italiani ed estrazione account unici
    • Raccolta (ogni 5 minuti per 1 mese) di trending topic e utenti coinvolti. Tasso di inclusione: 99,5%
  • 1,7 miliardi di tweets

    • Crawling di fino a 3200 tweet per ogni utente
    • Estrazione dei menzionati e degli autori originali dei retweet
    • Determinazione, per utente, della locazione più frequente dei suoi tweet

Base di riferimento e caratterizzazione

Inferenza di 2 dimensioni di analisi:

  • Sesso: 12 milioni di utenti, 1.7% di errore di classificazione su campione di 5,500 utenti
  • Geolocalizzazione: 2,46 milioni di utenti, 2.4% di errore su campione di 1,500 utenti

L'OCEAN è stato poi calcolato solo per utenti con almeno 70 corrispondenze complessive LIWC nei propri tweet per riprodurre le stesse condizioni operative IBM e garantire la massima affidbilità del modello

OCEAN: 2,55 milioni di utenti classificati

Dettagli sulla determinazione del sesso

Approccio iniziale: ricerca di nomi comuni come substringhe nel campo name

  • Buoni risultati. Ma.... qual è il sesso dei seguenti account?

    • Carlo Maria
    • Carlo&Maria
    • Carlotta? Mariano?
    • Ada Merlo ok.. ma Lega Nord Padania?
    • Hotel Rosa
  • Approccio più strutturato, per fasi:

    • 0) filtraggio: eliminazione account con & e “e” come carattere isolato. Carlo&Maria eliminato
    • 0b) filtraggio account business: eliminazione che contengono: hotel, club, fans, circolo, istituto etc. Hotel Rosa eliminata
    • 1) classificazione nomi composti comuni: Carlo Maria->M
    • 2) name match-> ricerca di match esatto di nomi: Ada Merlo-> F ma AdaMerlo ignorata. Carlotta->F e Mariano->M
    • 2b) risoluzione di ambiguità della fase 2: Antonello De Maria -> M
    • 3) Split on capital: AdaMerlo-> F ; LegaNord Padania ignorata
    • 4) contains, solo su nomi lunghi. Mariarossetti -> M ma LegaNord ignorata
  • Machine learning sui rimanenti: 75% di accuracy

Tipi OCEAN

Tipo OCEAN

Punteggi alti

Punteggi bassi


Openness
Apertura/Chiusura mentale

  • Aperti a nuove esperienze, idee o culture
  • Sensibili, immaginativi
  • Curiosi, tolleranti, progressisti
  • Meno creativi, più autoritari
  • Convenzionali e meno inclini al cambiamento

Conscientiousness
Coscienziosità/Negligenza

  • Organizzati e pianificatori
  • Affidabili e coerenti
  • Orientati ai risultati e a obiettivi di lungo termine
  • Rilassati, spontanei, creativi
  • Meno legati a regole e piani

Extroversion
Estroversione/Introversione

  • Socievoli, attivi, loquaci
  • Stimolati dal mondo esterno, dalla compagnia
  • Inclini a esprimere emozioni positive
  • Solitari, generalmente riservati
  • A proprio agio in solitudine

Agreeableness
Amabilità/Sgradevolezza

  • Hanno fiducia nel prossimo
  • Propensi a mantenere relazioni sociali positive
  • Cooperativi, si adattano ai bisogni altrui
  • Assertivi
  • Capaci di comunicare verità scomode

Neuroticism
Nevroticità/Stabilità emotiva

  • Inclini agli sbalzi d’umore e alle emozioni negative
  • Tendono allo stress, nervosismo e depressione
  • Provano senso di vulnerabilità
  • Calmi e sicuri di sé

Word embeddings


Esempi significativi


  • O: renzi, governo, europa; tutte, nuove; visto, fatto;
  • O: voglio, devo, posso;
  • C: google, android, iphone; sport, calcio; ieri, oggi, domani, serata;
  • C: spero, credo, penso; ahahaha, ahaha;
  • E: liam, zayn, one direction; cuore, amore;
  • E: renzi, governo, europa, italiani; google, android, iphone;
  • A: buon, buongiorno;
  • A: voglio, posso, devo, vorrei;
  • N: odio, schifo, merda; ahahahah, ahahah;
  • N: collezionato_monete, cibo_controllato, raccolto_preso; vita, storia; cinema, teatro, film;

Corrispondenze LIWC frequenti per OCEAN





Non si notano differenze sostanziali tra le corrispondenze LIWC piu frequenti per i 5 tratti, tranne poche eccezioni

Le differenze si manifestano nelle parole meno frquenti

Semplificazione operativa: discretizzazione 25-50-25%





  • Due distribuzioni su cinque sono approssimabili a curve normali
  • Tre sono invece asimmetriche (due lievemente, una fortemente)
  • Distinzione per sesso poco rilevante: limitate differenze sulla media
  • Quantizzazione su 3 livelli volutamente sbilanciati per enfatizzare i livelli estremi
  • 243 possibili combinazioni dei 5 tratti quantizzati: il profilo psicologico

Distribuzione degli utenti per profilo psicologico


Distribuzione reale vs teorica

Tratti estremi Reale Teorica
5 6.3 3,1%
4 18.2% 15.6%
3 25.9% 31.3%
2 17.7% 31.3%
1 15.7% 15.6%
0 16.0% 3.1%

Uomini vs Donne


Tratti estremi M F
5 6.4% 6.3%
4 17.9% 18.2%
3 25.1% 25.9%
2 17.8% 17.7%
1 16.2% 15.8%
0 16.6% 16.0%
  • I tratti non sono tra loro indipendenti
  • Non si apprezza differenza rilevante tra sessi

Geografia degli OCEAN



La conferma dei luoghi comuni


  • L’area del paese più organizzata e incline alla pianificazione: il Nord-Est
  • I più estroversi e nevrotici: Sud e Isole
  • L’area con maggiore apertura mentale: il Centro.
  • Isole felici di organizzazione e spirito cooperativo: Val D’Aosta e Trentino-Alto Adige
  • Le più estroverse: Puglia, Sicilia e Calabria
  • Le più instabili emotivamente: Calabria, Friuli-Venezia Giulia e Liguria

Personaggi famosi: profili atipici






  • Forte caratterizzazione psicologica: valori polarizzati, non corrispondenti alla distribuzione attesa su campione casuale (25-50-25%)
  • Rilevamento di categorie affini:
    • Gruppo delle categorie “impersonali”: stabilità emotiva, apertura al nuovo, pianificazione
    • Gruppo comunicazione/spettacolo: le star dei social spiccano per alti valori di instabilità emotiva
    • Politici ibridi: vicini al protagonismo del mondo dello spettacolo ma anche affini alla impersonalità di aziende e istituzioni
    • Musicisti e sportivi: fiducia nel prossimo e orientamento ai risultati distribuiti in modo quasi identico

Personaggi famosi: profili atipici - dettagli


  • Forte caratterizzazione psicologica: valori polarizzati, non corrispondenti alla distribuzione attesa su campione casuale (25-50-25%)
  • Rilevamento di categorie affini:
    • Gruppo delle categorie “impersonali”: stabilità emotiva, apertura al nuovo, pianificazione
    • Gruppo comunicazione/spettacolo: le star dei social spiccano per alti valori di instabilità emotiva
    • Politici ibridi: vicini al protagonismo del mondo dello spettacolo ma anche affini alla impersonalità di aziende e istituzioni
    • Musicisti e sportivi: fiducia nel prossimo e orientamento ai risultati distribuiti in modo quasi identico

Una visione d'insieme: i centroidi dei cluster come stereotipi




  • Gli Equilibrati – Valori medi in tutti i tratti
    Papa Francesco, Valentino Rossi, Emma Marrone, Fiorello, Simona Ventura

  • I Dispersivi – Inclini agli sbalzi d’umore, scarsamente cooperativi, poco orientati a pianificare
    Luca Bizzarri, Gerry Scotti, Mario Balotelli, Giuseppe Cruciani, Vittorio Feltri, Alessandro Gassman, Pierluigi Battista

  • I Focalizzati – Orientati agli obiettivi, emotivamente stabili, aperti a nuove esperienze
    Jovanotti, Ligabue, Barbara D’Urso, Samantha Cristoforetti, Giorgio Chiellini, Gianluigi Buffon

  • Gli Innovatori – Introversi, assertivi, aperti a nuove esperienze
    Matteo Renzi, Beppe Grillo, Roberto Saviano, Marco Travaglio, Selvaggia Lucarelli, Nichi Vendola

  • I Conservatori – Estroversi, cooperativi, ma poco inclini al cambiamento
    Michelle Hunziker, Ezio Greggio, Antonella Clerici, Flavia Pennetta, Maria De Filippi

Interazione tra stereotipi



  • Effetto specchio per innovatori, focalizzati e dispersivi: seguono i propri simili
  • La popolarità dei dispersivi: quasi tutti li ritwittano e menzionano, inclusi loro stessi
  • La stabilità dei conservatori: menzionano e ritwittano prevalentemente altri conservatori
  • Attrazione per la diversità: gli equilibrati seguono, ritwittano e menzionano prevalentemente i dispersivi.

Possibili sviluppi


  • Validazione del modello attuale:
    • Somministrazione di questionari Big Five a un campione rappresentativo della rete italiana di Twitter
  • Ampliamento del dizionario LIWC:
    • Introduzione di n-grammi
    • Aggiunta degli emoticon
  • Analisi semantica
    • Analisi per gradiente superando la binarietà
    • Modulazione dei pesi delle categorie in base ad uso reale delle parole
    • Espressioni idiomatiche

Un ringraziamento particolare al Prof. Alessandro Lenci, docente di linguistica computazionale all’Università di Pisa


Bibliografia


  • Sui Big5
    • Caprara, G.V., Perugini, M. (1994), “Personality described by adjectives: Generalizability of the Big Five to the Italian lexical context”, European Journal of Personality, 8: 357-369. h.link
    • Costa P. T.Jr., McCrae R. R. (1992), Revised NEO Personality Inventory (NEO-PI-R) and NEO Five-Factor Inventory (NEO-FFI) professional manual. Odessa (FL, USA), Psychological Assessment Resources h.link
    • Costa P. T.Jr., McCrae R. R. (2008), “The revised NEO Personality Inventory”, in Boyle G. J., Matthews G., Saklofske D. H. (a cura di), The SAGE Handbook of Personality Theory and Assessment. London, SAGE
    • McCrae R. R., Costa P.T. Jr (1996), “Toward a New Generation of Personality Theories: Theoretical Contexts for the Five-Factor Model”, in J. S. Wiggins (a cura di), The Five-Factor Model of personality: Theoretical perspectives New York, Guilford Press h.link
    • Rolland J. (2002), “The Cross-Cultural Generalizability of the Five Factor Model of Personality”, in McCrae R.R., Allik J. (a cura di), The Five Factor Model of Personality Across Cultures, New York, Kluwer Academic Publishers h.linkhttps://link.springer.com/chapter/10.1007%2F978-1-4615-0763-5_2
    • Henrich, J., Heine, S. J., Norenzayan, A. (2010), Most people are not weird, Nature, 466 (7302), 29 h.link
  • Su LIWC5
    • Pennebaker, J. W., Francis, M.E., Booth, R. J. (2001), Linguistic Inquiry and Word Count (LIWC): LIWC 2001, Manwah (NJ, USA), Lawrence Erlbaum Associates h.link
    • Pennebaker, J. W., Booth, R. J., Francis, M.E. (2007), Linguistic Inquiry and Word Count (LIWC): LIWC 2007, Austin (TX, USA), LIWC.net
    • Pennebaker, J.W., Chung, C.K., Ireland, M., Gonzales, A., and Booth, R. J., The Development and Psychometric Properties of LIWC2007, The University of Texas at Austin and The University of Auckland, New Zealand; pp. 5-6 h.link
    • Pennebaker, J. W., Boyd, R. L., Jordan K.,Blackburn, K. (2015), The Development and Psychometric Properties of LIWC2015. Austin, The University of Texas at Austin.
    • Tausczik, Y. R., Pennebaker, J. W. (2010), “The Psychological Meaning of Words: LIWC and Computerized Text Analysis Methods”, Journal of Language and Social Psychology, 29 (I): 24-54 h.link
  • Sull’analisi della personalità tramite l’uso di online social networks
    • Kosinski, M., Bacrach, Y., Kohli, P., Stillwell, D., Graepel, T. (2014), “Manifestation of user personality in website choice and behaviour on online social networks”, Machine Learning, 95(3): 357-380 h.link
    • Kosinski, M., Stillwell, D., Graepel, T. (2013), “Private traits and attributes are predictable from digital records of human behavior”, PNAS (Proceedings of the National Academy of Sciences), 110(15): 5802-5805 h.link
    • Mairesse, F., Walker, M. (2006), “Words mark the nerds: computational models of personality recognition through language”, Proceedings of the 28th Annual Conference of the Cognitive Science Society, pp. 543–548 h.link
    • Schwartz, A. H. et al. (2013), “Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach”, PLOS ONE, 8(9): e73791 h.link
    • Yarkoni, T. (2010), “Personality in 100,000 Words: A large-scale analysis of personality and word use among bloggers”, Journal of Research in Personality, 44(3): 363-373 h.link
    • h.link
  • Su Twitter
    • Goldbeck, J., Robles, C., Edmondson, M., Turner, K. (2011), “Predicting Personality from Twitter”, IEEE International Conference on Privacy, Security, Risk, and Trust, and IEEE International Conference on Social Computing, Boston, 9-11 ottobre 2011 h.link
    • Hughes, D.J., Rowe, M., Batey, M., Lee, A. (2011), “A tale of two sites: Twitter vs. Facebook and the personality predictors of social media usage”, Computers in Human Behavior, 28: 561-569 h.link
    • Park, P., Macy, M. (2015), “The paradox of active users”, Big Data & Society, I-4, DOI: 10.1177/2053951715606164 h.link
    • Qiu, L, Lin, H., Ramsay, J., Yang, F. (2012), “You are what you tweet: Personality expression and perception on Twitter”, Journal of Research in Personality, 46: 710-718 h.link
    • Quercia, D., Kosinski, M., Stilwell, D., Crowcroft, J. (2011), “Our Twitter Profiles, Our Selves: Predicting Personality with Twitter”, IEEE International Conference on Privacy, Security, Risk, and Trust, and IEEE International Conference on Social Computing, Boston, 9-11 ottobre 2011 h.link
    • Sumner, C., Byers, A., Boochever, R., Park, G.J (2012), “Predicting Dark Triad Personality Traits from Twitter Usage and a Linguistic Analysis of Tweets”, Proceeddings of the 11th International Conference on Machine Learning and Applications, ICMLA 2012, pp. 386-393 h.link