Dove Trovare Dati Calcistici Gratuiti per Modelli Algoritmici

Raccolta di dati statistici sul calcio con documenti e appunti su un tavolo

Un modello algoritmico è buono quanto i dati che lo alimentano. Puoi avere il Dixon-Coles più elegante del mondo o il Random Forest più sofisticato, ma se i dati di input sono incompleti, imprecisi o obsoleti, il risultato sarà un pronostico elegantemente sbagliato. La buona notizia è che nel 2026 i dati calcistici gratuiti sono più abbondanti e accessibili che mai. La notizia meno buona è che orientarsi tra le fonti richiede sapere cosa cercare, dove trovarlo e quali limiti accettare.

Questa guida cataloga le principali fonti gratuite di dati calcistici, organizzate per tipo di dato e livello di dettaglio, con indicazioni pratiche su come usarle nei tuoi modelli.

Football-data.co.uk: il fondamento

Se esiste una fonte che ogni scommettitore algoritmico dovrebbe conoscere, è football-data.co.uk. Attivo dal 2001, questo sito fornisce gratuitamente i risultati e le quote di chiusura di oltre 30 campionati, dalla Premier League alla seconda divisione greca. I dati sono in formato CSV, direttamente importabili in Excel, Python, R o qualsiasi strumento di analisi.

Per ogni partita, il file CSV include il risultato finale, i gol segnati e subiti per ciascuna squadra, i tiri, i tiri in porta, i falli, i corner, i cartellini gialli e rossi, e le quote di chiusura di una decina di bookmaker. Questa combinazione di dati statistici e quote è esattamente ciò che serve per costruire un modello e fare backtesting: puoi calcolare le probabilità e verificare immediatamente se avresti trovato value bet a quelle quote.

L’archivio storico risale a oltre trent’anni per i campionati principali, il che lo rende la fonte ideale per il backtesting su lungo periodo. La Serie A, la Premier League, la Liga, la Bundesliga e la Ligue 1 hanno dati completi dal 1993/94 in poi. I campionati minori hanno coperture più recenti e meno dettagliate, ma comunque utili.

Il limite principale è l’assenza di dati avanzati: non trovi xG, tracking data o statistiche a livello di singolo evento. I dati vengono aggiornati settimanalmente, non in tempo reale, il che li rende inadatti per il live betting ma perfetti per l’analisi pre-match e il backtesting.

FBref e StatsBomb: dati avanzati a costo zero

FBref (fbref.com) è stato a lungo il punto di riferimento per le statistiche calcistiche avanzate gratuite. Inizialmente in partnership con StatsBomb, dal 2022 è passato a Stats Perform Opta come fornitore di dati. A gennaio 2026, tuttavia, Opta ha interrotto la fornitura di statistiche avanzate, riducendo significativamente i dati disponibili sul sito. Quando disponibili, le metriche più utili per il betting algoritmico includevano gli xG a livello di squadra (per alimentare modelli di Poisson con xG anziché gol reali), gli xG concessi (per la valutazione difensiva) e le statistiche di tiro (numero, posizione, tipo). FBref presenta i dati in tabelle HTML ben strutturate che possono essere estratte con pandas in Python usando la funzione read_html, anche se il sito implementa protezioni contro lo scraping eccessivo.

La copertura di FBref è ottima per i cinque campionati maggiori europei e le competizioni UEFA per quanto riguarda le statistiche di base, ma le statistiche avanzate (xG e metriche derivate) sono state rimosse a gennaio 2026 a seguito della fine della partnership con Opta. L’archivio storico degli xG, quando disponibile, copriva circa otto stagioni per i campionati principali.

Understat (understat.com) è un’alternativa a FBref per i dati xG, con una copertura concentrata su sei campionati (Serie A, Premier League, La Liga, Bundesliga, Ligue 1, Premier League russa). Il vantaggio rispetto a FBref è la semplicità dell’interfaccia e la facilità di estrazione dei dati. Lo svantaggio è la copertura più limitata e l’assenza delle metriche avanzate non legate ai tiri.

Transfermarkt e dati contestuali

Transfermarkt (transfermarkt.com) non è una fonte di dati statistici in senso stretto, ma fornisce informazioni contestuali preziose per integrare i modelli quantitativi: valori di mercato dei giocatori, storico dei trasferimenti, infortuni e squalifiche, formazioni e cambi di allenatore. Questi dati non entrano direttamente in un modello di Poisson, ma possono alimentare feature aggiuntive per modelli di machine learning.

L’informazione sugli infortuni è particolarmente utile. Se il tuo modello non tiene conto dell’assenza del centravanti titolare, le sue previsioni saranno sistematicamente sbilanciate per le partite in cui quel giocatore manca. Transfermarkt pubblica liste aggiornate degli indisponibili per ogni squadra, consultabili manualmente o estraibili con scraper automatici.

API gratuite e fonti programmatiche

Per chi lavora in Python o R e vuole automatizzare la raccolta dati, le API sono lo strumento più efficiente. Il panorama delle API calcistiche gratuite è più ricco di quanto si pensi, anche se ogni servizio ha limiti sul volume di richieste.

API-Football offre un piano gratuito con 100 richieste al giorno, che copre risultati, classifiche, formazioni e statistiche di base per i campionati principali. Per un modello che si aggiorna una volta al giorno su un singolo campionato, 100 richieste sono più che sufficienti. Il formato JSON è pulito e ben documentato, il che facilita l’integrazione in uno script Python.

OpenFootball è un progetto open source che raccoglie risultati e calendari di campionati da tutto il mondo in formato strutturato. Non ha un’API nel senso tradizionale — i dati sono distribuiti come file su GitHub — ma per chi ha bisogno di risultati storici in formato facilmente importabile è una risorsa preziosa.

The Odds API merita una menzione separata perché fornisce quote in tempo reale di decine di bookmaker. Il piano gratuito è limitato (500 richieste al mese), ma sufficiente per chi monitora un singolo campionato e aggiorna le quote una volta al giorno. Per il confronto sistematico tra le probabilità del modello e le quote del mercato, un feed di quote automatico è un salto di qualità rispetto alla consultazione manuale dei comparatori.

Per chi usa Python, la libreria soccerdata aggrega dati da più fonti (FBref, Football-Data.co.uk, Understat e altre) in un’interfaccia unificata. Per chi usa R, worldfootballR ha svolto un ruolo simile, anche se il progetto è stato archiviato nel 2024. Sono strumenti comunitari, non sempre aggiornati con tempestività, ma riducono drasticamente il tempo necessario per raccogliere e strutturare i dati.

Dati sulle quote: dove trovarli per il backtesting

Il backtesting di un modello di betting richiede non solo i risultati delle partite ma anche le quote storiche — le quote effettive alle quali avresti potuto scommettere al momento della partita. Senza quote storiche, non puoi calcolare il ROI simulato e non puoi sapere se il tuo modello avrebbe generato profitti reali.

Football-data.co.uk resta la fonte principale, con le quote di chiusura di Bet365, Pinnacle e altri bookmaker per ogni partita dal 2000 in poi. Le quote di chiusura sono il benchmark corretto per il backtesting perché rappresentano il prezzo di mercato al momento della partita — sono il prezzo al quale avresti realisticamente scommesso.

OddsPortal offre un archivio storico delle quote di apertura e chiusura consultabile online. La navigazione è manuale (non c’è un’API pubblica), ma per chi ha bisogno delle quote di un bookmaker specifico che football-data.co.uk non copre, è un’alternativa utile.

Un’avvertenza importante: le quote storiche nei dataset gratuiti sono tipicamente le quote di chiusura, non le quote al momento in cui avresti piazzato la scommessa. Se il tuo modello identifica una value bet due giorni prima della partita, la quota a quel momento potrebbe essere diversa dalla quota di chiusura. Questo crea un bias nel backtesting: il ROI simulato con le quote di chiusura potrebbe essere diverso (tipicamente peggiore) dal ROI che avresti ottenuto scommettendo alle quote di apertura.

Costruire un workflow di raccolta dati

La tentazione iniziale è accumulare dati da tutte le fonti possibili, costruendo un database enorme che copra ogni aspetto misurabile del calcio. Resistere a questa tentazione è la prima lezione della data engineering applicata al betting. Più dati non significano necessariamente modelli migliori — significano più lavoro di pulizia, più possibilità di errore e più feature da gestire.

L’approccio pragmatico è partire con una sola fonte (football-data.co.uk per i risultati e le quote) e aggiungere fonti supplementari solo quando il modello base è funzionante e il backtesting indica che i dati aggiuntivi migliorano le previsioni. Se il tuo Poisson con i dati di football-data.co.uk dà un ROI del 2%, e aggiungendo gli xG di FBref il ROI sale al 4%, l’integrazione è giustificata. Se il ROI resta invariato, gli xG aggiungono complessità senza valore.

La regola operativa è: una fonte primaria affidabile è meglio di cinque fonti incoerenti. Football-data.co.uk per i numeri di base, FBref per gli xG quando servono, Transfermarkt per il contesto qualitativo. Tre fonti, tre scopi distinti, nessuna sovrapposizione. Tutto il resto è rumore travestito da informazione.