Dataset di test per il Machine Learning

AI, INTELLIGENZA ARTIFICIALE

In questa pagina, in via di aggiornamento, sto raccogliendo e creando una  lista di possibili siti/fonti da  dove  poter scaricare  dataset  utilizzabili per i vostri esperimenti di Machine Learning.

Come primo elenco vi riporto un lista di fonti recensite anche su wikipedia  organizzati per categoria.

Di seguito una lista ulteriori fonti :

DATABASE DI IMMAGINI

  • Il dataset MNIST  è un db di 60.000 immagini di numeri scritti a mano utilizzabili per il training e mette a disposizione ulteriori  10.000  immagini per il test e la l validazione . È un sottoinsieme di un set più grande disponibile da NIST. Le immagini  dei numeri sono state normalizzate sono a dimensione fiisa 28X28 pixel in scala di grigi.
  • Fashion-MNIST è un set di  immagini degli articoli di Zalando, costituito  60.000 imagini per il training e 10.000 immagini per il test. Ogni esempio è un’immagine in scala di grigi 28×28, associata a un’etichetta di 10 classi.
  • Tiny Images Dataset : si tratta di uno archivio di quasi 80 milioni di immagini a colori 32×32 a cura della New York University e del MIT di Boston.
  • Face Recognition: una raccolta di link a molti database di immagini appositamente predisposte per il riconoscimento facciale. In alcuni casi sono corredate di misure biometriche, in altri riportano differenti espressioni facciali.
  • Amsterdam Library of Object Images (ALOI): una collezione di oltre 100 mila immagini a colori di oggetti fotografati da diverse angolazioni e condizioni di luce.
  • Open Image dataset  è  costituito da circa 9 milioni di immagini  annotate con label,
  • Coco Dataset è un dataset di immagini molto famoso costituito da più di 300.000  immagini suddivise per 80 categorie.
  • Cani e gatti – kaggle ,  nato originariamente come sfida, rivolta ai migliori professionisti del Machine Learning e AI di tutto il mondo per la la costruzione di un classificatore.
  • Dataset per il gioco della morra cinese : immagini di mani ( che indicano forbice, carta, pietra).Puoi scaricare il  training set qui, ed il  test set qui.

DATI STATISTICI NAZIONALI

  • Istat: l’Istituto di Statistica nazionale mette a disposizione di tutti i suoi ricchissimi database che fotografano l’Italia da ogni punto di vista. Si possono effettuare ricerche, creare dei grafici ed esportare i dati in vari formati quali Excel e CSV. A titolo esemplificativo si riporta la tabella relativa alla popolazione di 15-34 anni per titolo di studio.
  • UNdata: un mondo di informazioni che spazia dall’economia alla finanza, dalla salute all’industria. Con un click è possibile accedere ai servizi statistici messi a disposizione da qualunque Paese del mondo.
  • Data.gov.uk: il governo britannico ha pubblicato oltre 38000 dataset che spaziano dai trasporti, all’economia, all’istruzione, alla criminalità, al meteo ecc. Un comodissimo motore di ricerca permette di filtrare in base al tipo di licenza, al formato dei dati, alla categoria di appartenenza.

CLIMA

  • Global climate data: dati climatici di ogni nazione dal 1929 ad oggi provenienti da oltre 9000 stazioni meteo.

FISICA

  • CERN Open Data: l’enorme patrimonio di dati prodotti nel più grande laboratorio di fisica al mondo.

SPORTS

RACCOLTE

  • mldata.org: un repository di dataset per il machine learning costantemente aggiornato. In molti casi i dati sono disponibili in molteplici formati da csv ad arff fino ad octave e matlab. Chiunque può caricare il proprio dataset (previa registrazione al sito) e scaricare quelli disponibili che tra le altre cose presentano il numero di download effettuati, le visualizzazioni e il rating ottenuto. Sono presenti anche alcuni esempi di algoritmi sviluppati in occasione di esperimenti o gare.
  • Amazon Public Data
  • Google Public Data
  • Kaggle
  • Reddit r/dataset
Se vuoi farmi qualche richiesta o contattarmi per un aiuto riempi il seguente form

    Comments