Perché i dati sono importanti? Al giorno d’oggi i dati vengono considerati una risorsa sempre più utile e preziosa e ciò è particolarmente vero per l’intelligenza artificiale.

Sono infatti la qualità e la quantità dei propri dati i principali fattori da considerare quando ci si approccia ad un problema con metodi di machine learning.

La situazione più semplice da gestire è quella in cui si ha a disposizione un numero consistente di dati annotati.

Questi consistono in una serie di casi di esempio in cui si conosce già la risposta che si vuole ottenere, e che la macchina può “studiare” per capire come raggiungere la stessa soluzione, anche in casi nuovi mai visti prima.

Dati di esempio potrebbero essere un insieme di registrazioni con trascrizione per un riconoscitore vocale o delle foto con descrizione per un riconoscitore di immagini.

Più il problema è difficile, più è importante avere molti dati.

Perché i dati sono importanti? Sono fantastici ma bisogna sapere come sfruttarli

Questi possono essere raccolti facendo osservazioni dirette sul campo, oppure applicando un’altra intelligenza, di solito umana, allo stesso problema.

Se vengono forniti dati sufficientemente vari e completi, la macchina troverà il proprio particolare metodo di arrivare alla soluzione, forse diverso da come farebbe un umano, ma spesso con risultati altrettanto corretti e in tempi indubbiamente più rapidi.

Cosa fare se invece non abbiamo questi esempi di problemi con soluzione? Anche se disponiamo solo di dati non annotati c’è comunque molto da imparare.

Una cosa che può fare la macchina è individuare dei raggruppamenti (o cluster) di dati che presentano caratteristiche simili.

Per esempio, in un catalogo disordinato di foto si potrebbero raggruppare quelle che ritraggono soggetti simili, anche se la macchina non è da sola in grado di assegnare loro una descrizione.

Inoltre, questo può essere un ottimo modo per assistere le persone nel lavoro di raccolta e annotazione dei dati, che possono poi essere dati in input ad altri algoritmi per ulteriori analisi.

Questo è solo uno dei tanti motivi perché i dati sono importanti.