Gesti e voce per le interfacce del futuro

Mario Malcangi - Selezione di Elettronica -

25 Marzo 2013

L'interfaccia uomo-macchina rappresenta uno dei più importanti elementi di innovazione dei sistemi basati su computer, in particolare quelli di natura embedded. L'importanza dell'interfaccia uomo-macchina è rapidamente cresciuta negli ultimi anni con la diffusione di sistemi embedded in tutti gli ambiti applicativi, sia di natura industriale, sia di natura consumer. In particolare il settore applicativo consumer ha agito da driver tecnologico, consentendo lo sviluppo di tecnologie microelettroniche importanti per l'interfaccia uomo-macchina, per esempio i dispositivi Mems e i dispositivi Nfc (Near field communication). Uno dei principali obiettivi è infatti quello di pervenire a un modello di interfaccia uomo-macchina in cui, tra l'utilizzatore e la macchina non vi è contatto. L'interfaccia uomo-macchina si è evoluta nel tempo, prima di tutto eliminando i dispositivi di natura meccanica, con l'introduzione per esempio dei tasti touch-sensitive. I display touchscreen hanno rappresentato in questo senso la soluzione che ha consentito di eliminare completamente la parte di interfaccia meccanica, sostituita da quella elettronica. I display inizialmente monotouch sono presto evoluti verso soluzioni multitouch per rendere più naturale l'interazione. L'interfaccia basata su touchscreen ha comunque una serie di limiti, come quello di richiedere il contatto fisico con l'utente, di essere limitata alla bidimensionalità e di evidenziare criticità nella precisione del tocco per dimensioni molto piccole dell'interfaccia. Questi limiti delle attuali interfacce uomo-macchina stanno per essere definitivamente superati grazie all'introduzione di nuove soluzioni tecnologiche di interfaccia altamente innovative, come quelle di 3D gesture e quelle di interazione audio-vocale.

Non-contact 3D gesture recognition
Il riconoscimento gestuale a livello di interfaccia uomo-macchina è da tempo proposto come una soluzione di interfaccia naturale. Questo tipo di interazione richiederebbe la ripresa video e una sofisticata procedura di elaborazione delle immagini che diventa particolarmente complessa e onerosa se in 3D. Una soluzione embedded per il 3D gesture recognition che non richiede la telecamera e che non impegna il processore host è stata recentemente sviluppata da Microchip. Si tratta dell'electrical-field-based 3D gesture controller MGC3130, un chip che sfrutta la tecnologia Rf di prossimità per realizzare l'interfaccia gestuale senza contatto. Basato sulla tecnologia GestIC, brevettata dalla stessa Microchip, il chip raccoglie comandi impartiti con le dita e con la mano utilizzando principi di natura “electrical nearfield sensing”. Il chip non si limita alla semplice cattura del movimento gestuale, ma implementa anche tutta la necessaria circuiteria mixed-signal, di condizionamento del segnale, di rimozione automatica del rumore e di elaborazione digitale del segnale per l'estrazione delle caratteristiche gestuali. Il chip ingloba anche la libreria Colibri di modelli gestuali che consente di interpretare e classificare i movimenti gestuali sulle base delle caratteristiche estratte dal Dsp e di fornirle già sotto forma di gesto riconosciuto e codificato all'host. Il chip MGC3130 è dunque un sistema intelligente di riconoscimento e tracking gestuale a tre dimensioni. GestIC di Microchip è un sensore 3D che utilizza un campo elettrico per il sensing di prossimità avanzato per rilevare, seguire e classificare i movimenti della mano in prossimità del sistema e in uno spazio completamente libero. A livello base il chip MGC3130 è in grado di campionare il movimento a 200 campioni/s con una risoluzione di 150 punti per pollice. L'area di prossimità è definita a livello piano dagli elettrodi x-y, mentre la terza dimensione z può estendersi fino a 15 cm sulla superfice sensoriale x-y. Si tratta dunque di un equivalente touchpad tridimensionale completamente privo di elementi di contatto. I vantaggi del sensing gestuale basato sul campo elettrico sono di ampia portata. Questa soluzione non risente di influenze ambientali come il suono o la luce che tipicamente creano grossi problemi agli altri sistemi di sensing gestuale 3D. È altamente immune al rumore, è ad elevata risoluzione e bassissimo tempo di risposta. Non provoca e non subisce effetti di interferenza elettromagnetica.

Comunicare con il corpo
I sistemi embedded stanno evolvendo in forme e funzionalità tali da non essere più compatibili con le modalità tradizionali di interfaccia uomo-macchina basata sulla visualizzazione e sulla immissione di dati simbolici. I sistemi embedded sono application-oriented e quindi ottimizzati sotto tutti gli aspetti, in particolare quelli relativi all'interfaccia. In particolare, i sistemi embedded indossabili, utilizzano la comunicazione fisiologica per interagire con l'utilizzatore, il quale a sua volta comunica con il sistema tramite il suo corpo. La tecnologia Mems a questo proposito è abilitante, soprattutto nella forma che integra più misure nello stesso sistema.
Il dispositivo iNemo di STMicroelectronics è un esempio di alta integrazione di dispositivi Mems che consentono di catturare informazioni di natura gestuale 360° e fino a 10 gradi di libertà. Questo è infatti un sistema che integra nello stesso modulo un accelerometro a 3 assi, un magnetometro a 3 assi e un giroscopio a 3 assi.
La peculiarità del modulo multiMems di ST sta soprattutto nella “intelligenza embedded”. Il modulo integra il microprocessore a 32 bit STM32 e una libreria di algoritmi per il data fusion che consente di sintetizzare in poche informazioni effettive le innumerevoli informazioni provenienti dai singoli sensori Mems. Il modulo iNemo è estremamente piccolo (3.8 x 4.2 cm) e quindi facilmente integrabile sia nel sistema embedded, sia sul corpo dell'utilizzatore che interagisce con il sistema embedded. L'integrazione di sensori di temperatura e di pressione conferiscono all'interfaccia un'ulteriore dimensione di interazione che consentono di fornire al sistema in maniera naturale (cioè tramite la misura fisica) informazioni di natura ambientale. Una di queste informazioni, particolarmente importante per interagire in maniera automatica con il sistema, è la pressione. Questa, elaborata in maniera intelligente consente al sistema di fornire i cosiddetti servizi basati sulla posizione o addirittura quelli di emergenza quando l'utilizzatore perde conoscenza.
Freescale ha realizzato un sensore di pressione, l'Xtrinsic MPL3115A2, caratterizzato da una elevatissima precisione e capace di fornire dati di natura altimetrica a frequenze di campionamento variabili fino a 128 Hz. Le sue caratteristiche di bassissimo consumo e di intelligenza embedded consentono di realizzare nei sistemi mobili, medicali e di sicurezza, un livello di interfaccia ambientale molto avanzato per l'implementazione di servizi utente di nuova generazione. L'intelligenza embedded nel sensore implica funzioni molto complesse che vengono svolte all'interno del dispositivo, come il processo di acquisizione, di autoattivazione, e di controllo automatico delle soglie minime e massime per l'attivazione dei processi host e della comunicazione. Lo stato dell'arte attuale della sensoristica Mems e della sua applicazione si basa su soluzioni a 10 dimensioni di misura (10 assi); 9 riguardano l'accelerometro, il giroscopio e il magnetometro, il decimo riguarda invece la pressione. Grazie a questa decima dimensione, applicazioni come il Gps possono dare informazioni precise relativamente alla posizione sulla terra, e quindi interagire in termini di movimento con l'utilizzatore. L'interfaccia utente sensoriale è una delle opzioni che caratterizzerà i sistemi embedded di nuova generazione per ottenere un livello di interazione indipendente dalla Cpu. Il sensore, interagendo con l'utente e con l'ambiente esterno, capisce autonomamente quando viene colpito o mosso e, solo se necessario, attiva la Cpu per fargli eseguire un servizio. La gestualità a livello utente diventerà quindi sempre più naturale, quindi più complessa da interpretare da parte della macchina, e necessariamente richiederà più intelligenza a livello periferico. Per esempio, se un sistema visualizza una mappa, quando il sistema si allontana dalla faccia dell'utilizzatore la mappa automaticamente si allarga (zoom out) e viceversa quando si allontana si stringe (zoom in). Questo modo di interagire è naturale, e l'interfaccia uomo-macchina è trasparente in quanto nascosta nello strato sensoriale intelligente che separa in maniera non percepibile l'utente dal sistema embedded. Questo livello di interfaccia uomo-macchina non può essere controllato direttamente dalla Cpu in quanto computazionalmente oneroso, ma anche funzionalmente complesso. I sensori intelligenti sono il fondamento di questa nuova interfaccia uomo-macchina naturale. Un accelerometro è efficiente nel rilevare uno spostamento da una posizione statica, ma fornisce dati confusi se il sistema è in movimento. Altri sensori come il magnetometro e il giroscopio danno altre utili informazioni che unite a quelle di natura ambientale come la pressione, la temperatura e il suono, grazie a un'elaborazione di fusione delle informazioni, porta a interpretare in maniera corretta dati gestuali e ambientali anche molto complessi.

L'intelligent contextual sensing
Il sensor fusion è la parte intelligente che rende un sistema multisensoriale un unico sensore equivalente che consente di prendere decisioni in un contesto di interazione con la persona e con l'ambiente. Questo è il sensing contestuale intelligente. Grazie ai sensori, l'interfaccia utente non solo consente di comunicare in termini di comandi, ma consente anche di comunicare in termini emotivi, comportamentali e ambientali. Per esempio, quando un ragazzo interagisce con un videogioco, questo impartisce comandi di controllo al videogioco, ma potrebbe per esempio sviluppare i sintomi che portano a crisi di natura epilettica. L'interfaccia in questo caso, oltre a riconoscere i gesti, può riconoscere anche lo stato emotivo e fisiologico del ragazzo dal contatto con l'interfaccia (temperatura corporea, tensione muscolare, parole e versi acustici, dinamica dei movimenti, ecc.). In questa maniera il videogioco può ridimensionare automaticamente il livello di tensione e di stress che conferisce al giocatore, prevenendo una possibile crisi epilettica. Alla base della tecnologia dell'intelligent contextual sensing c'è l'integrazione di un ampio portfolio di differenti tipologie di sensori in un unico dispositivo per ottenere il massimo livello possibile di estrazione di informazioni dall'ambiente e dalle entità di interazione. A questa integrazione sensoriale si affianca quella di elaborazione intelligente e aggregata dei dati sensoriali (sensor data fusion) che consente di operare al sistema come se fosse un supersensore intelligente. Aggiungendo l'analisi contestuale al sistema integrato di sensori, inclusi gli algoritmi che consentono di prendere decisioni, il sistema sensoriale diventa un sottosistema decisionale autonomo che abilita l'host all'esecuzione di funzionalità contestualizzate all'ambiente e alla persona.