UNIMIB - 2021/2022

Non solo leggerissima

Popolarità, ballabilità e altri parametri: uno studio di brani e artisti partecipanti alle ultime dieci edizioni del Festival di Sanremo

Un progetto di Crescenzi Elena (873871), Maver Andrea (828725), Pedron Silvia (873851) e Zanotti Oscar (873763)


INTRODUZIONE

“Signore e Signori, benvenuti al Casinò di Sanremo per un’eccezionale serata organizzata dalla Rai, una serata della canzone con l’orchestra di Cinico Angelini”. Era il 29 gennaio 1951 quando queste parole vennero pronunciate dall’allora conduttore Nunzio Filogamo quando aprì il primo festival della canzone italiana a Sanremo. La prima edizione venne trasmessa in radio, vide partecipare solo tre cantanti, e i giornali dedicarono al Festival solo un piccolo trafiletto. Dal 1955, anno in cui la Rai mandò in onda per la prima volta il programma, è iniziata una storia di grandi successi. Oggi, nel 2022, il Festival di Sanremo è un evento che catalizza completamente l’attenzione di tutti i media nazionali, dalla televisione ai giornali fino alle radio, dove è ancora possibile riascoltare i tormentoni della manifestazione. Un nuovo metodo di fruizione della musica si è però sviluppato negli ultimi dieci anni, cioè Spotify. Spotify è un servizio musicale di streaming di musica on demand lanciato nel 2008, che nell’ultimo trimestre del 2021 ha registrato più di 155 milioni di utenti paganti e oltre 13 solo nel nostro Paese. A causa di questi numeri elevati, è ragionevole pensare che gli ascolti su questa piattaforma siano rappresentativi degli ascolti attuali, almeno per quanto riguarda la fascia più giovane e avvezza alla tecnologia della società. Analizzando i brani che hanno partecipato al Festival negli ultimi dieci anni, con l’aiuto dei dati che Spotify fornisce ai suoi utilizzatori, si può scoprire se ci siano stati cambiamenti, sostanziali o meno, per quanto riguarda le canzoni in gara di questa importante manifestazione, che, almeno in parte, è il riflesso dell’industria musicale italiana.


DOMANDA DI RICERCA

A causa dell’altissima risonanza mediatica del Festival di Sanremo nel nostro Paese, può risultare interessante ricercare delle correlazioni tra i vari partecipanti e le canzoni in gara, per poter scoprire qualcosa di più su questo importante evento. In particolare, lo studio si pone l’obiettivo di verificare, attraverso l’utilizzo di caratteristiche numeriche fornite dalla più grande piattaforma streaming del mondo, se le ultime dieci edizioni del Festival presentino delle differenze significative sia a livello di canzoni che di artisti partecipanti. Si cercano inoltre delle relazioni tra queste feature per ottenere degli ulteriori insight. La domanda finale, forse leggermente provocatoria, è “Le canzoni di Sanremo sono tutte uguali?”.


TARGET DELLE INFOGRAFICHE

Le infografiche sono rivolte a un pubblico italiano appassionato di musica, e non necessariamente fan del Festival, curioso di scoprire qualcosa di più riguardo a questo evento, che per una settimana all’anno catalizza l’attenzione di tutti i media nazionali. Le visualizzazioni sono corredate di ampie descrizioni per facilitarne l’utilizzo e la comprensibilità, oltre che qualche commento che ne descrive caratteristiche interessanti; non sono necessarie particolari conoscenze di statistica.


RACCOLTA DEI DATI

La prima fase della ricerca consiste nella raccolta dei dati. A causa del fatto che non esista un dataset disponibile online riguardo al Festival di Sanremo, è necessario crearlo da zero. Per fare ciò sono stati utilizzati due sistemi di API (Application Programming Interface), cioè quelle di Spotify e quelle di WikiData. Le API sono delle interfacce che permettono di svolgere particolari azioni, in questo caso scaricare dati disponibili nel web, in modo semplice e veloce. Sono messe a disposizione dagli stessi siti proprietari, che forniscono la possibilità a sviluppatori e ricercatori di scaricare il loro dati in modo libero e gratuito. Il primo passaggio è stato quello di creare dieci playlist Spotify contenenti le canzoni che hanno partecipato al festival. Fatto ciò è stato possibile iniziare il download dei dati: tramite il linguaggio di programmazione R e un pacchetto chiamato “spotifyr”, è possibile utilizzare delle speciali funzioni per procurarsi tutte le informazioni che Spotify rende disponibili in relazione a canzoni o artisti. Questo permette di ottenere due tabelle, appunto una per le tracce e l’altra per gli artisti; la prima viene integrata con l’anno dell’edizione in cui la canzone era in gara e la posizione di arrivo nella classifica finale. La seconda necessita di un'ulteriore integrazione tramite le API di WikiData. Questo è un grafo di conoscenza che contiene informazioni simili a quelle del cugino più conosciuto Wikipedia, ma in un diverso formato, cioè proprietà-valore. Utilizzando il pacchetto R “WikiDataR” e gli ID identificativi Spotify specifici per ogni artista, viene fatto un matching all’interno del grafo; una volta trovato il/la cantante in questione, se ne salva l’anno di inizio carriera. A questo punto la tabella artisti può essere integrata ulteriormente con edizione, posizione in classifica e gli anni di carriera, trovati come semplice differenza tra anno di inizio e anno di partecipazione al Festival. Le due tabelle finali sono composte nel seguente modo.

Tabella Canzoni:
- ID: codice alfanumerico identificativo
- Titolo: titolo della canzone
- Artista: nome del/degli artisti o del gruppo
- Popolarità: valore da 0 a 1 che indica la popolarità di una traccia, legato principalmente al numero di streaming da parte degli utenti
- Ballabilità: valore da 0 a 1 che indica quanto una canzone sia adatta a essere ballata, basandosi su tempo e ritmo
- Energia: valore da 0 a 1 che indica la percentuale di intensità e attività. Solitamente, tracce energetiche sembrano veloci, forti e rumorose
- Parlato: valore da 0 a 1 che individua la presenza di parole all’interno della traccia. Valori alti indicano tracce unicamente parlate, come podcast, mentre quelli più bassi si riferiscono a canzoni; valori medi sono spesso assunti da canzoni rap, caratterizzate dall’avere un gran numero di parole
- Positività: valore da 0 a 1 che indica la positività trasmessa dalla canzone. Vicino a 1 è felice, gioiosa e euforica; al contrario, vicino a 0, risulta triste, depressa o arrabbiata
- Edizione: anno di partecipazione al Festival
- Classifica: posizione di arrivo nella classifica finale

Tabella Artisti:
- ID: codice alfanumerico identificativo
- Nome: nome del/degli artisti o del gruppo
- Popolarità: valore da 0 a 1 che indica la popolarità di un’artista, legato principalmente al numero di streaming da parte degli utenti
- Carriera: anni di carriera dell’artista, come differenza tra anno dell’edizione e anno di inizio del percorso da cantanti
- Edizione: anno di partecipazione al Festival
- Classifica: posizione di arrivo nella classifica finale

Importante fare alcune precisazioni: il valore di popolarità dipende dalla data in cui vengono scaricati i dati, in quanto varia a causa degli streaming degli utenti. Per completezza, i dati utilizzati in questa ricerca sono stati scaricati il 10/04/2022, cioè circa due mesi dopo la conclusione dell’edizione 2022 del Festival. Inoltre, alcune tracce non sono presenti su Spotify, quindi non potranno essere presenti nemmeno nel dataset. In particolare: “È colpa mia” di Maria Nazionale (2013), “Da lontano” di Antonella Ruggiero e “Sing in the rain” di Ron (2014), “Vita d’inferno” di Biggio e Mandelli e “Voce” di Lara Fabian (2015). Inoltre, “Domenica” di Achille Lauro (2022) dava degli strani problemi nella fase di download, per i quali tutti i valori numerici elencati sopra, che sarebbero serviti a descriverla, risultavano 0. Per questo motivo non è stata inserita nel dataset. I dataset finali sono costituiti da 228 artisti e 227 canzoni; il diverso numero è causa del fatto che alcune canzoni sono portate in gara da coppie di artisti e che nelle edizioni 2013 e 2014 ogni cantante si esibiva con due tracce, delle quali poi solo una si qualificava per le serate finali.


INFOGRAFICHE

Per rispondere alle domande di ricerca sono stati utilizzati due tipi di infografiche, che verranno descritti più dettagliatamente nelle successive parti del report, cioè degli scatter plot e dei violin plot, sia per le canzoni che per gli artisti. I primi permettono di osservare se esistano o meno delle relazioni tra le diverse feature numeriche che descrivono le tracce, mentre i secondi permettono di osservare se ci siano stati cambiamenti significativi tra un’edizione e l'altra, e se le distribuzioni delle canzoni per i parametri siano variate nell’arco degli ultimi dieci anni.

SCATTER PLOT

Canzoni

Per quanto riguarda le canzoni, sono stati realizzati tre scatter plot, che mettono in relazione ballabilità ed energia, ballabilità e popolarità, parlato e energia. Tutte le infografiche hanno una struttura simile, che verrà perciò descritta solamente una volta. Le visualizzazioni permettono di osservare quattro dimensioni: un parametro numerico sull’asse X, uno sull’asse Y, la positività della canzone in base al colore, per il quale un blu più scuro indica una canzone più felice, e il posizionamento in classifica tramite la dimensione del punto. Lungo gli assi sono presenti dei box plot che permettono di osservare la distribuzione dei punti lungo tutto il range di valori. Sono inoltre presenti delle bande per indicare il valore medio del parametro con intervalli di confidenza al 95%. Sono stati aggiunti dei filtri e degli evidenziatori per permettere all’utente di scegliere un particolare artista, canzone, edizione o posizionamento in classifica. Un’aggiunta interessante è il player interattivo che permette di riprodurre una preview di trenta secondi delle canzoni; cliccando su una di esse il player viene aggiornato automaticamente e premendo il tasto play inizia la riproduzione.

Osservando la distribuzione dei punti si nota come esista una relazione positiva tra ballabilità ed energia, cioè al crescere di una cresce anche l’altra. Interessante come si possa rilevare la presenza dello stesso tipo di relazione anche con la positività. Questo permette di dividere il grafico in settori, dei quali quello in alto a destra contiene in modo quasi esclusivo tutte le canzoni allegre, energiche e ballabili.

A differenza del precedente, questo scatter plot non mostra alcun tipo di relazione chiara e definita tra le variabili. Le canzoni più ballabili assumono spesso anche alti valori di positività, ma si distribuiscono lungo tutto il range di popolarità. La dimensione che influenza maggiormente quest’ultima è l’anno, risultato piuttosto intuitivo, a causa della forte risonanza mediatica del Festival. Le canzoni in gara nell’edizione 2022 occupano in modo esclusivo la fascia più alta della visualizzazione, a cui seguono poi le edizioni precedenti. Per le edizioni più vecchie, invece, si nota come spesso le canzoni attualmente più popolari siano quelle arrivate sui gradini più alti del podio.

Per quanto riguarda il parlato, si nota come gran parte delle canzoni assumano valori molto bassi; per come è stata pensata questa misura non è un risultato particolarmente strano, ma una distribuzione così sbilanciata permette di notare subito eventuali outlier. La maggior parte di questi ultimi si trovano per alti livelli di energia, e perciò anche di positività; questo potrebbe essere la prova che canzoni con molte parole appartengano a generi come hip-hop e urban, che si caratterizzano spesso per avere un ritmo incalzante.

Artisti

Per quanto riguarda gli artisti, invece, è stato realizzato uno scatter plot con una struttura leggermente più semplice. Sugli assi sono presenti gli anni di carriera (X) e la popolarità (Y); come nei precedenti, la dimensione dei punti indica il posizionamento in classifica, sono presenti box plot lungo gli assi, le bande di confidenza e i diversi evidenziatori. In questo caso viene utilizzata una tinta unita per i punti, in quanto non è stato ritenuto utile rappresentare un’altra dimensione.

Nonostante la popolarità sia una misura che varia nel tempo, come detto precedentemente, si può notare come gli artisti attualmente più in voga siano quelli con meno anni di carriera alle spalle, quindi probabilmente anche più giovani come età anagrafica. I vincitori si trovano tutti oltre il valore medio di popolarità e, in otto delle ultime dieci edizioni, avevano anche avuto una carriera più breve della media dei partecipanti. Questo valore medio è però fortemente influenzato dalla presenza di outlier, cioè artisti storici che vengono celebrati al Festival; questa influenza si nota dalla differenza tra il valore medio e quello mediano della distribuzione.

VIOLIN PLOT

Vengono rappresentati dei violin per ogni variabile numerica all’interno dei dataset, ognuno raggruppato per edizione, in modo tale da poter confrontare valori medi e distribuzioni nel tempo. Tutti i violin hanno una struttura simile, che verrà perciò descritta solamente una volta. Viene scelto uno dei parametri numerici e vengono prodotti dieci violin, uno per edizione, e affiancati uno all’altro; le linee nere all’interno rappresentano o le singole canzoni o i singoli artisti. Sono anche presenti degli punti bianchi che indicano il valore medio della feature per l’edizione, con dei tratti per gli intervalli di confidenza al 95%. La combinazione di violin plot, più i valori medi con intervalli di confidenza permette di fare facilmente dei confronti anno per anno.







Osservando i violin plot per i diversi parametri relativi alle canzoni, si nota che il valore medio per edizione non subisce grandi variazioni nel tempo, anche se le distribuzioni variano da anno ad anno. Andando più nel particolare, la ballabilità ha subito una crescita quasi costante a partire dal 2018, fino a stabilizzarsi nell’edizione 2022. Al contrario, l’energia ha assunto valori simili per tutti e dieci gli anni, senza rilevare particolari oscillazioni, a parte una leggera flessione nel 2018. Anche il parlato non varia particolarmente e, attraverso i violini, è facile individuare la presenza di outlier, presenti in tutte le edizioni. La popolarità è il valore che segue un trend più evidente, infatti a partire dal 2018 si osserva una continua e forte crescita, che culmina con l’edizione 2022, come è giusto aspettarsi. Dopotutto, i dati sono stati acquisiti circa due mesi dopo la conclusione del Festival, perciò artisti e canzoni risentono ancora della sua spinta. I valori di positività sembrano essere tutti simili, anche se si nota un crollo nell’edizione 2015, che pare essere stata particolarmente triste; le ultime tre edizioni hanno valori e distribuzioni praticamente identici. Per quanto riguarda le carriere degli artisti, invece, si possono osservare due trend: uno crescente a partire dal 2015 fino al 2018 e uno decrescente dal 2018 all’ultima edizione del 2022. Nel 2018 la media della lunghezza della carriera dei cantanti in gara è stata significativamente maggiore rispetto a tutte le altre, e non sembra influenzata da particolari outlier. Negli ultimi quattro anni si è visto un generale ringiovanimento, dovuto probabilmente al cercare di rendere più appetibile il Festival anche a un pubblico più giovane; la presunta inversione di rotta nel 2022 non deve essere fraintesa, in quanto è causata dalla presenza di quattro evidenti outlier, che spostano inevitabilmente il valore medio verso l’alto.


VALUTAZIONE DELLE VISUALIZZAZIONI

Al fine di valutare le visualizzazioni sono state adottate tre metodologie principali: valutazione euristica, test utente e questionario.

VALUTAZIONE EURISTICA

Una valutazione euristica è stata svolta per individuare le principali problematiche delle infografiche. É stato chiesto a 10 utenti di interagire con le visualizzazioni e di pensare ad alta voce e raccolto tutte le informazioni utili al fine di migliorare la qualità. Prima di lasciare libertà agli utenti con le infografiche è stato spiegato loro il contesto del progetto e il significato delle variabili rappresentate. Le principali critiche ricevute e poi corrette in ciascuna visualizzazione sono state le seguenti:
- Mancanza di descrizioni, risolta aggiungendo il context, sia a livello di struttura che di contenuto
- Colori troppo chiari, che non si distinguono dallo sfondo, risolta scegliendo un'altra palette più scura
- Non si distinguono le osservazioni e le differenze tra loro, risolta creando dei raggruppamenti e aumentando la dimensione dei punti.
Sono anche sorti complimenti: il fatto di avere inserito le linee con medie e intervalli di confidenza è stato apprezzato dagli utenti soprattutto durante la fase di test utente; il player interattivo è stato in assoluto la caratteristica più apprezzata e il fatto di poter ascoltare la particolare canzone ha riscosso molto successo. Per quanto riguarda i violin plot, è stato riscontrata una difficoltà nel confrontare i valori medi delle edizioni, e perciò il fare paragoni nel tempo risultava sconveniente. Per sopperire a questo, i punti indicanti il valore medio sono stati uniti, in modo da formare una linea temporale. Questo non è propriamente corretto, perchè suggerisce un cambiamento continuo nel tempo, ma è stato apprezzato dagli utenti, che in questo modo hanno potuto analizzare la visualizazione con più chiarezza e maggiore leggibilità.

TEST UTENTE

Dopo aver svolto la valutazione euristica delle visualizzazioni, sono state selezionate due delle infografiche create, per le quali sono stati ideati tre task da far svolgere ad alcuni utenti per verificare la facilità di interazione. Questi test sono stati sottoposti a undici utenti di età compresa tra i 20 e 34 anni. Prima di procedere con il test vero e proprio, abbiamo spiegato loro l’obiettivo del nostro progetto e il significato delle variabili rappresentate. Le tre infografiche con i relativi task sottoposte agli utenti sono gli scatter plot di anni di carriera x popolarità e ballabilità x energia. Per il primo, le domande sono state le seguenti:
1. Tra gli artisti con più di 20 anni di carriera individuare chi è il più popolare? (Elisa);
2. Individuare il vincitore con più anni di carriera (Stadio);
3. Quale sembra essere l’edizione con artisti mediamente con la carriera più lunga? (2018).
Per il secondo sono state:
1. Individuare tra le canzoni classificate tra il quarto e il decimo posto quella meno ballabile (Raphael Gualazzi - Sai ci basta un sogno);
2. Individuare tra i primi tre classificati per ogni edizione, aventi energia sopra la media, la canzone con ballabilità maggiore (Pinguini tattici nucleari - Ringo Starr);
3. Qual è il valore di positività della canzone Brividi di Mahmood e blanco? (0,342).
In seguito sono riportati i risultati dei test.

Risultati test utente 1 (scatter plot carriera x popolarità)

Risultati test utente 2 (scatter plot ballabilità x energia)

Osservando i risultati dei diversi test si osserva come la maggior parte degli utenti risponda correttamente alle domande poste, a volte necessitando di essere indirizzati. Si nota un'alta quantità di risposte errate per il primo task del secondo test; questa inaspettata difficoltà è stata però spesso dovuta a una mal interpretazione della stessa. Una volta mostrata quella corretta, tutti gli utenti hanno ripercorso il loro ragionamento mentale per trovare la risposta giusta.

QUESTIONARIO

Come ultimo metodo di valutazione delle infografiche è stato creato un questionario psicometrico in cui è stato chiesto di valutare le infografiche in base alla scala Cabitza-Locoro. Questa prevede di valutare la qualità delle data visualization su una scala da 1 a 6 in base ai seguenti aggettivi: utile, chiara, informativa, bella, intuitiva. Al questionario hanno preso parte 33 persone. Il campione di persone a cui è stato sottoposto è composto principalmente da studenti universitari e qualche genitore. Di seguito è allegato uno screenshot di parte del questionario sopra descritto.

Di seguito i risultati.

Osservando i risultati del questionario si nota che le valutazioni sono molto positive, soprattutto per quanto riguarda bellezza e informatività. Le variabili inoltre presentano tutte una correlazione positiva tra loro, anche se di diverse intensità.