In questa pagina, in via di aggiornamento, sto raccogliendo e creando una lista di possibili siti/fonti da dove poter scaricare dataset utilizzabili per i vostri esperimenti di Machine Learning.
Come primo elenco vi riporto un lista di fonti recensite anche su wikipedia organizzati per categoria.
- Image data
- Text data
- Sound data
- Signal data
- Physical data
- Biological data
- Anomaly data
- Question Answering data
- Multivariate data
- Curated repositories of datasets
- See also
- References
Di seguito una lista ulteriori fonti :
DATABASE DI IMMAGINI
- Il dataset MNIST è un db di 60.000 immagini di numeri scritti a mano utilizzabili per il training e mette a disposizione ulteriori 10.000 immagini per il test e la l validazione . È un sottoinsieme di un set più grande disponibile da NIST. Le immagini dei numeri sono state normalizzate sono a dimensione fiisa 28X28 pixel in scala di grigi.
- Fashion-MNIST è un set di immagini degli articoli di Zalando, costituito 60.000 imagini per il training e 10.000 immagini per il test. Ogni esempio è un’immagine in scala di grigi 28×28, associata a un’etichetta di 10 classi.
- Tiny Images Dataset : si tratta di uno archivio di quasi 80 milioni di immagini a colori 32×32 a cura della New York University e del MIT di Boston.
- Face Recognition: una raccolta di link a molti database di immagini appositamente predisposte per il riconoscimento facciale. In alcuni casi sono corredate di misure biometriche, in altri riportano differenti espressioni facciali.
- Amsterdam Library of Object Images (ALOI): una collezione di oltre 100 mila immagini a colori di oggetti fotografati da diverse angolazioni e condizioni di luce.
- Open Image dataset è costituito da circa 9 milioni di immagini annotate con label,
- Coco Dataset è un dataset di immagini molto famoso costituito da più di 300.000 immagini suddivise per 80 categorie.
- Cani e gatti – kaggle , nato originariamente come sfida, rivolta ai migliori professionisti del Machine Learning e AI di tutto il mondo per la la costruzione di un classificatore.
- Dataset per il gioco della morra cinese : immagini di mani ( che indicano forbice, carta, pietra).Puoi scaricare il training set qui, ed il test set qui.
DATI STATISTICI NAZIONALI
- Istat: l’Istituto di Statistica nazionale mette a disposizione di tutti i suoi ricchissimi database che fotografano l’Italia da ogni punto di vista. Si possono effettuare ricerche, creare dei grafici ed esportare i dati in vari formati quali Excel e CSV. A titolo esemplificativo si riporta la tabella relativa alla popolazione di 15-34 anni per titolo di studio.
- UNdata: un mondo di informazioni che spazia dall’economia alla finanza, dalla salute all’industria. Con un click è possibile accedere ai servizi statistici messi a disposizione da qualunque Paese del mondo.
- Data.gov.uk: il governo britannico ha pubblicato oltre 38000 dataset che spaziano dai trasporti, all’economia, all’istruzione, alla criminalità, al meteo ecc. Un comodissimo motore di ricerca permette di filtrare in base al tipo di licenza, al formato dei dati, alla categoria di appartenenza.
CLIMA
- Global climate data: dati climatici di ogni nazione dal 1929 ad oggi provenienti da oltre 9000 stazioni meteo.
FISICA
- CERN Open Data: l’enorme patrimonio di dati prodotti nel più grande laboratorio di fisica al mondo.
SPORTS
- Football-Data.co.uk: dalla stagione 1992/93 ad oggi, tutti i risultati e alcune statistiche di 22 campionati europei. Se vi interessa la serie A date un’occhiata a http://www.football-data.co.uk/italym.php
RACCOLTE
- mldata.org: un repository di dataset per il machine learning costantemente aggiornato. In molti casi i dati sono disponibili in molteplici formati da csv ad arff fino ad octave e matlab. Chiunque può caricare il proprio dataset (previa registrazione al sito) e scaricare quelli disponibili che tra le altre cose presentano il numero di download effettuati, le visualizzazioni e il rating ottenuto. Sono presenti anche alcuni esempi di algoritmi sviluppati in occasione di esperimenti o gare.
- Amazon Public Data
- Google Public Data
- Kaggle
- Reddit r/dataset
Sono amante della tecnologia e delle tante sfumature del mondo IT, ho partecipato, sin dai primi anni di università ad importanti progetti in ambito Internet proseguendo, negli anni, allo startup, sviluppo e direzione di diverse aziende; Nei primi anni di carriera ho lavorato come consulente nel mondo dell’IT italiano, partecipando attivamente a progetti nazionali ed internazionali per realtà quali Ericsson, Telecom, Tin.it, Accenture, Tiscali, CNR. Dal 2010 mi occupo di startup mediante una delle mie società techintouch S.r.l che grazie alla collaborazione con la Digital Magics SpA, di cui sono Partner la Campania, mi occupo di supportare ed accelerare aziende del territorio .
Attualmente ricopro le cariche di :
– CTO MareGroup
– CTO Innoida
– Co-CEO in Techintouch s.r.l.
– Board member in StepFund GP SA
Manager ed imprenditore dal 2000 sono stato,
CEO e founder di Eclettica S.r.l. , Società specializzata in sviluppo software e System Integration
Partner per la Campania di Digital Magics S.p.A.
CTO e co-founder di Nexsoft S.p.A, società specializzata nella Consulenza di Servizi in ambito Informatico e sviluppo di soluzioni di System Integration, CTO della ITsys S.r.l. Società specializzata nella gestione di sistemi IT per la quale ho partecipato attivamente alla fase di startup.
Sognatore da sempre, curioso di novità ed alla ricerca di “nuovi mondi da esplorare“.
Comments