L’interfaccia utente diventa naturale

Mario Malcangi - Selezione di Elettronica -

22 Maggio 2012

Le interfacce naturali utente o Nui (Natural User Interface) sono una tecnologia emergente di interfaccia uomo-macchina o Hmi (Human-Machine Interface) destinata a sostituire la tecnologia delle interfacce utente grafiche o Gui (Graphical User Interfaces) cui ormai ci siamo abituati da anni, ma che non rappresentano, per le persone, il modo naturale di comunicare. L’interazione uomo-macchina è iniziata con interfacce molto semplici, negli anni ’80, con l’introduzione dei primi mini e microcalcolatori. Queste interfacce erano di natura esclusivamente alfanumeriche e basate sulla cosiddetta “linea di comando”, la Cli (Command Line Interface), in cui l’utente dava comandi alla macchina tramite una linea di testo e riceveva risposte e informazioni dal sistema tramite una sequenza di linee di testo scorrevoli sul video. La Cli era una interfaccia uomo-macchina ben lontana dal “naturale”, in quanto mono dimensionale (si basava sulla riga di testo) e artificiale nella forma sintattica e semantica (molto vicina alla natura della macchina e molto lontana dalla natura dell’uomo). Il livello di interfaccia uomo-macchina Cli, evidentemente inadeguato alla natura della comunicazione umana, grazie all’introduzione dei display grafici e dei dispositivi di puntamento come i mouse, è stata presto sostituita dalle attuali interfacce utente grafiche, in cui la comunicazione verso il sistema è bidimensionale e consiste nel selezionare tasti virtuali e icone, con uso limitato di testo da tastiera, mentre quella verso l’utente è di natura mista grafica/testo completamente contenuta nella dimensione di visualizzazione del display. Anche l’interfaccia Gui non è naturale, in quanto basata su meccanismi di comunicazione (puntare e selezionare) non tipici della comunicazione umana. Anche la tecnologia touchscreeen non ha portato miglioramenti “naturali” all’interfaccia Gui in quanto, pur eliminando la tastiera e il mouse, il tocco con le dita, anche se di natura gestuale, non è un modo naturale di comunicare da parte dell’uomo. Un esempio emblematico è il cosiddetto “gorilla arm”, cioè l’effetto negativo dell’utilizzo dei dispositivi touchscreen verticali (soprattutto in ambito automotive), in cui il braccio dell’utilizzatore diventa rapidamente affaticato e instabile quando agisce sul display a causa della posizione orizzontale non sostenuta da un appoggio. Questo effetto negativo viene appositamente citato per evidenziare la mancanza di naturalezza nell’interfaccia utente, anche quando questa adotta soluzioni apparentemente naturali. Il passo successivo all’interfaccia Gui è l’interfaccia Nui. Questa, proprio perché naturale, deve essere invisibile all’utilizzatore in quanto basata su meccanismi di comunicazione naturali tipici degli esseri umani o comunque propri del mondo fisico. Ciò significa che l’utilizzatore non deve utilizzare dispositivi di comunicazione artificiosi come la tastiera o il mouse, ma comunicare direttamente con i suoi mezzi, come la voce, i gesti, il comportamento, ecc. L’apprendimento dal parte dell’utilizzatore di tale interfaccia è solo relativo al linguaggio di comunicazione, non al mezzo di comunicazione.

Voce, gesti, tocco, e altro per l’interfaccia naturale
Voce, tocco, gesti, movimenti e altre modalità di comunicazione umana sono alla base dell’emergente tecnologia della natural user interface. Ognuna di queste modalità ha le sue potenzialità nella realizzazione dell’interfaccia naturale ma non è esaustiva in quanto la comunicazione umana si avvale di queste e altre modalità per comunicare in modo naturale. La voce è una delle modalità di comunicazione più ricca di potenzialità rispetto alle altre modalità di comunicazione utilizzate dagli esseri umani. Innanzitutto non richiede attenzione diretta da parte dell’utilizzatore ed oltre a comunicare in forma semantica, consente di comunicare comportamenti, stati d’animo, posizione nello spazio, ecc. oltre a consentire l’identificazione biometrica. La combinazione di voce e gesti rappresenta un livello di interfaccia naturale abbastanza completo per soddisfare le esigenze di interazione uomo-macchina relativamente all’interfaccia naturale, in quanto consente sia di comunicare relativamente alla componente semantica, sia di comunicare relativamente alla componente spaziale, per esempio indicando l’oggetto con il gesto e specificando verbalmente l’azione riferita a tale oggetto: punta il dito alla posizione iniziale dell’oggetto … vocalizza “sposta questo da qui a li” … punta il dito alla posizione finale dell’oggetto. Questa è stata una delle prime esperienze di integrazione tra gesti e voce eseguita dall’Architecture Machine Group del Massachussets Institute of Technology che aveva sviluppato un sistema denominato “Put-That-There” (Metti-Quello-Li), il cui nome emblematico indica chiaramente un’azione congiunta e integrata di gesto e voce nell’interazione con la macchina (computer-based). Il sistema consentiva a un utilizzatore di dare a una macchina, dotata di un grande schermo grafico, in maniera naturale, comandi tramite l’uso contemporaneo della voce e del puntamento, in maniera economica e naturale. In tale sistema convergevano diverse tecnologie, come lo speech processing, il gesture processing e lo space sensing.

Kinect, integrazione tra gesti e audio
Kinect di Microsoft è un esempio di interfaccia Nui multimodale che integra la modalità gestuale con quella vocale. Kinect è una interfaccia naturale inizialmente pensata per la consolle di videogiochi Xbox 360 per far interagire il giocatore senza mani. Questa tecnologia di interfaccia naturale è ora disponibile anche per le piattaforme Pc con sistema operativo Windows 7. Kinect è fondamentalmente basato su un sensore video (telecamera Rgb) combinato con due sensori infrarosso per la rilevazione della posizione spaziale. Oltre a questa configurazione di cattura video/spaziale, Kinect dispone anche di una configurazione di cattura audio basata sulla tecnologia degli array microfonici. Questi servono a misurare e modellare l’ambiente in cui è immerso l’utilizzatore tramite tecniche basate sulla riflessione (direzione e attenuazione). Grazie a questi microfoni vengono implementate anche una serie di elaborazioni aggiuntive che migliorano l’efficacia e l’affidabilità dell’interfaccia, come per esempio la riduzione del rumore ambientale e di interferenza. I microfoni servono anche a catturate la voce per eseguire funzioni di riconoscimento vocale utili da combinare a quelli gestuali. L’obiettivo di questa interfaccia è quello di interagire con il gioco, o più in generale con il sistema, a mani libere, utilizzando come mezzo di comunicazione i movimenti del corpo e la voce per descrivere in maniera dettagliata la natura del comando o dell’azione che si vuole comunicare. L’array microfonico un insieme di microfoni (almeno quattro), distanti tra loro alcuni centimetri e distribuiti in linea o a L, e finalizzati migliorare la cattura dell’audio (il noise reduction e l’echo cancelation non è possibile con un solo microfono) e a implementare funzionalità sensoriali come la misura della direzionalità dell’audio e il tracking della sorgente audio. L’array microfonico di cui dispone Kinect consente anche di implementare in maniera molto efficiente e affidabile il riconoscimento vocale, che in tal modo diventa parte integrate dell’interfaccia naturale. Un Sdk rende disponibile quanto serve per gestire le applicazioni che utilizzano il sensore Kinect con le Api Microsoft Speech, un insieme di algoritmi che eseguono le funzionalità necessarie per il riconoscimento vocale. La combinazione di gesto e audio rappresenta dunque la forma di interfaccia utente naturale più completa e trasparente e inoltre è quella che più facilmente si adatta a dispositivi embedded, dotati questi in maniera nativa di microfoni, altoparlanti e telecamere.

Oltre la voce e il gesto
L’interfaccia utente naturale può essere basata su altre manifestazioni fisiologiche dell’utilizzatore, come l’attività elettrica muscolare, l’attività elettrica cerebrale, l’attività elettrica cardiaca, ecc. L’obiettivo è di eliminare nella comunicazione tra uomo e macchina dispositivi non naturali come la tastiera o il mouse, e fare in modo che le informazioni possano raggiungere la macchina (o dalla macchina possano raggiungere l’utente). Tale interfaccia è stata sperimentata da Microsoft in collaborazione con l’Università di Washington e l’Università di Toronto per realizzare la “muscle-computer interface”, che consente alle mani e alle dita di produrre input per il computer attraverso i gesti. Questi gesti vengono riconosciuti da un elettromiografo che riceve i segnali bioelettrici dal muscolo (del braccio) cui sono collegati i sensori. Questi segnali sono processati da un sistema inferenziale che consente di decodificare i movimenti del braccio, della mano e delle dita e li sottopone in forma codificata al computer come comandi da eseguire relativamente a una applicazione. Con un’interfaccia diretta tra parte del corpo umano e il computer si evita la mediazione fisica della trasduzione artificiosa come quella eseguita da dispositivei come le tastiere, il mouse e i dispositivi a tocco (touch). Nel caso della muscle-computer interface il movimento delle dita e della mano vengono decodificati dal segnale elettromiografico e trasmessi via radio al computer. In questo modo l’utente interagisce manualmente in maniera naturale così come interagirebbe con un oggetto fisico. Le possibilità applicative di questa interfaccia naturale vanno oltre quelle dell’interazione tra uomo e computer. Comandare interruttori, termostati, stereo, accessi e altro ancora è molto semplice con questo tipo di interfaccia grazie alla comunicazione wireless e alla possibilità che la decodifica delle informazioni da trasmettere al sistema possa avvenire a livello di sensore (sensore intelligente). Un altro tipo di interfaccia uomo-macchina si può ottenere modulando il campo magnetico ambientale. Tale campo magnetico è, oltre a quello naturale, la somma dei campi magnetici prodotti da fonti artificiali come per esempio i computer e la rete elettrica di una stanza e si manifesta in maniera “casuale”. Il corpo umano funziona come un’antenna e quindi riceve il campo magnetico ambientale e modula questo in funzione dei suoi movimenti, offrendo in tal modo la possibilità di eseguire il riconoscimento del suo movimento e la sua posizione nell’ambiente, oltre a riconoscere la natura dei suoi gesti. Usare il corpo come un’antenna che si muove in un campo magnetico è quindi un altro esempio di interfaccia naturale; l’utente non deve eseguire azioni artificiose come quella di digitare una tastiera o muovere un mouse, ma deve semplicemente comportarsi naturalmente, per esempio muovendosi nell’ambiente in cui vive normalmente. In un lavoro di ricerca, un gruppo congiunto della Microsoft e dell’Università di Washington, è stata dimostrata la fattibilità dell’uso del corpo come antenna ricevente in un campo magnetico ambientale per interagire con sistemi e dispositivi in maniera naturale, per esempio per comandare interruttori di accensione/spegnimento luci o di azionamento di elettrodomestici in ambito domestico, con una precisione dell’87%, e addirittura del 100% nel localizzare il muro che la persona sta toccando in un determinato momento. La peculiarità di questa soluzione di interfaccia naturale sta nel fatto che non è necessario modificare l’ambiente domestico per poter rendere operativo, tramite questa interfaccia, l’interazione tra utilizzatore e sistema in maniera trasparente.

Physiological Nui
L’interfaccia naturale è quella in cui l’interazione con la macchina non costringe l’utilizzatore a fare nulla di diverso da quello che fa normalmente per comunicare. Lo stato fisiologico, manifestato attraverso i segnali bioelettrici, porta molte delle informazioni con cui la persona comunica (per esempio le emozioni). Queste informazioni possono essere derivate dai segnali bioelettrici come l’elettroencefalogramma o l’elettrocardiogramma, e utilizzati come elementi di comunicazione verso i sistemi elettronici con cui la persona interagisce. Le interfacce cervello-computer (brain-computer interfaces) consentono di interfacciare l’utilizzatore al computer attraverso la sua attività cognitiva cerebrale. Questo tipo di interfaccia è comunque invasiva, in quanto prevede il collocamento di una serie di elettrodi sul capo del soggetto, finalizzati al prelievo dell’attività bioelettrica del cervello, prevalentemente a livello di cortecce cerebrale.
Un metodo più promettente è quello che deriva dal segnale elettrocardiografico che trasmette informazioni correlate allo stato fisiologico e psicologico del soggetto. In questo caso l’interfaccia può non essere invasiva oppure molto poco invasiva rispetto a quella richiesta dal segnale Eeg. Per esempio, il soggetto che svolge attività fisica con un attrezzo sportivo (per esempio la bicicletta), può trasferire in maniera trasparente il segnale Ecg al sistema di elaborazione semplicemente per contatto tramite le mani appoggiate sul manubrio su cui sono state predisposte opportune placche metalliche conduttive. Più in generale, il segnale Ecg può essere prelevato con elettrodi a contatto collocati in varie parti del corpo senza che risultino particolarmente invasive (cerotto elettronico).