News and Blog

L’Apprendimento Non Supervisionato negli Algoritmi di Machine Learning

Giribone - settembre
Antiriciclaggio e ComplianceNews

L’Apprendimento Non Supervisionato negli Algoritmi di Machine Learning

A cura di Pier Giuseppe Giribone

Nell’articolo precedente di questa rubrica, abbiamo trattato i paradigmi di calcolo connessi con l’apprendimento supervisionato in un sistema di Machine Learning. Questo articolo prosegue la trattazione, continuando a illustrare i criteri di classificazione più diffusi basati sulle tipologie di apprendimento, focalizzandosi in particolare sull’apprendimento non supervisionato.

A differenza di un problema di Supervised Learning, il training dataset di un algoritmo di tipo Unsupervised Learning contiene solo gli input, senza la specifica degli output corretti.

Queste metodologie sono generalmente impiegate per investigare le caratteristiche dei dati e per la loro pre-elaborazione (preprocessing).

L’apprendimento non supervisionato può essere paragonato all’azione di uno studente che si limita ad organizzare i problemi in base alla loro struttura e attributi intrinseci, senza concettualizzare il metodo di risoluzione, non conoscendo gli output corretti.

Nell’Unsupervised Learning, il training dataset non possiede quindi etichette: il sistema cerca di apprendere senza un insegnante.

Per esempio, supponiamo di avere un gran numero di dati sui visitatori di un blog. Potremmo impiegare un algoritmo di raggruppamento (clustering) che cerca di individuare gruppi di visitatori simili, al fine di attribuire un nuovo visitatore a un gruppo esistente, costruendo connessioni all’interno dei dati senza ricorrere a supervisione.

Ad esempio, l’algoritmo potrebbe identificare che il 60% dei visitatori di un blog di auto d’epoca sono persone di età compresa tra i 40 e i 50 anni che tendono a fruire dei nuovi post nel tardo pomeriggio, mentre la rubrica dedicata alle moto da corsa è seguita principalmente da un pubblico più giovane, di età compresa tra i 15 e i 25 anni, che visita il sito nel primo pomeriggio, probabilmente dopo le lezioni scolastiche. Queste informazioni sono preziose per il webmaster, che può scegliere gli orari più opportuni per la pubblicazione dei post o il tipo di pubblicità da proporre a segmenti di visitatori con caratteristiche differenti.

Un esempio in ambiente bancario potrebbe essere quello legato alla segmentazione della clientela: l’analisi può basarsi su età, patrimonio, frequenza degli investimenti e altre variabili ritenute significative per individuare quali prodotti di investimento siano più interessanti per i diversi cluster. In base a queste preferenze, si possono proporre nuove offerte affini al medesimo target o prodotti già emessi a clienti con caratteristiche e abitudini simili.

Al clustering vengono spesso associati algoritmi di visualizzazione grafica dei risultati ottenuti. Questi vengono rappresentati in due o tre dimensioni e consentono una comprensione rapida ed intuitiva dell’organizzazione dei dati, con la possibilità di evidenziare pattern anomali.

Un altro compito gestibile con algoritmi non supervisionati è la riduzione della dimensionalità, il cui obiettivo è quello di semplificare i dati senza perdere troppe informazioni rilevanti. Un approccio è quello di combinare più caratteristiche correlate in una unica. Ad esempio, nel compito supervisionato della regressione dei prezzi delle auto, si potrebbe considerare che il chilometraggio sia fortemente correlato all’età del veicolo.

In ambito bancario, per valutare un immobile messo a garanzia di un prestito, il suo codice di avviamento postale è spesso fortemente correlato alla posizione geografica; quindi, il numero di variabili che influenzano il prezzo dell’immobile può essere ridotto in maniera ragionevole. Questo processo è noto come estrazione delle caratteristiche (feature extraction) e rientra nella pre-elaborazione dei dati prima che siano elaborati da un modello predittivo.

È spesso considerata una buona pratica cercare di ridurre le dimensioni dei dati di addestramento impiegando un algoritmo di questo tipo, prima di applicarne uno supervisionato di Machine Learning. Di conseguenza, si risparmia tempo di calcolo, i dati occupano meno memoria e spesso i risultati prodotti sono migliori.

Sempre in questa categoria di problemi risolvibili con un algoritmo di apprendimento automatico non supervisionato si cita l’anomaly detection, utile per scoprire transazioni anomale al fine di prevenire frodi, rilevare difetti nei prodotti industriali o, più in generale, rimuovere valori anomali (outlier) da un set di dati.

L’idea di base è che se durante la fase di apprendimento non supervisionato vengono presentate al sistema principalmente istanze normali, questo impara a riconoscerle; di conseguenza, quando si presenta una nuova istanza, il sistema può valutare se assomiglia a una normale o se presenta caratteristiche anomale.

Un compito affine è quello della novelty detection, il cui scopo è rilevare nuove istanze che appaiono differenti da tutte quelle utilizzate nel training set. Questo richiede un training set molto “pulito”, privo di qualsiasi istanza che si vorrebbe l’algoritmo rilevasse.

Infine, un altro compito non supervisionato comune è quello dell’association rule learning, nel quale l’obiettivo è esplorare grandi quantità di dati per trovare relazioni interessanti tra gli attributi. Per esempio, l’analisi dei log delle vendite di un negozio di bricolage potrebbe evidenziare che i clienti interessati all’acquisto di attrezzi per il giardinaggio (come le cesoie) acquistano frequentemente anche attrezzi di protezione (come i guanti). Il sistema di apprendimento automatico potrebbe quindi suggerire la convenienza di posizionare questi oggetti vicini, in quanto spesso acquistati insieme.

Analogamente, in un contesto bancario, un cliente che investe regolarmente in obbligazioni strutturate potrebbe essere anche potenzialmente interessato ai certificati di investimento, che combinano una componente obbligazionaria con una strategia di opzioni. Tale correlazione potrebbe essere sottolineata da un consulente finanziario in seguito a una segnalazione automatica di un algoritmo non supervisionato basato su regole di associazione.

Il prossimo articolo tratterà le ultime due principali categorie di algoritmi basati sull’apprendimento: il semi-supervised learning e il reinforcement learning.

Newsletter

Antiriciclaggio
& Compliance
Select the fields to be shown. Others will be hidden. Drag and drop to rearrange the order.
  • Image
  • SKU
  • Rating
  • Price
  • Stock
  • Availability
  • Add to cart
  • Description
  • Content
  • Weight
  • Dimensions
  • Additional information
  • Attributes
  • Custom attributes
  • Custom fields
Click outside to hide the comparison bar
Compare