Home » n. 34 marzo/aprile 2005

E-learning e Affective Computing

19 marzo 2005 | Stefano Scotti, Centro METID Maurizio Mauri, Università IULM Milano

Introduzione
Nell’ultimo ventennio sono stati fatti passi da giganti nel miglioramento delle interfacce uomo-macchina. Gli esperti della CHI (Computer Human Interaction) si sforzano ogni giorno sempre più nel progettare sistemi di interazione con l’uomo dotati di una serie di caratteristiche, quasi sempre definiti da terminologie anglosassoni, che difficilmente rendono immediata la comprensione di quanto sono in grado di fare. Vi sarà capitato di sentir parlare di interfacce haptic, tangible, touch screen, multimodal, oppure di un sistema definito come awareness; forse più frequentemente di accessibilità e usabilità di un’interfaccia. Non entreremo nel dettaglio di ognuna di queste singole caratteristiche, il lettore curioso troverà qualche particolare nella nota (1) ma, sostanzialmente, le interfacce definite da questi sostantivi e aggettivi hanno come unico scopo quello di semplificare la comunicazione tra l’uomo e la macchina, intesa nella sua accezione più ampia. Come può essere perseguito questo scopo? L’idea di base è quella di permettere all’uomo un’interazione con la macchina nella maniera più naturale possibile: quella essenzialmente utilizzata dagli essere umani nella vita di tutti i giorni attraverso i vari sensi che costituiscono il nostro ricco, preciso e multimodale sistema sensoriale. Probabilmente, se il computer scrivesse semplicemente dettando, saremmo meno frustrati e pigri all’idea di scrivere un documento, oppure se per spostare un documento dal desktop al cestino potessimo usare le mani invece del puntatore vivendo le stesse sensazioni di tatto, vista e udito dell’azione reale, probabilmente il desktop di tutti noi sarebbe più ordinato. Il tentativo della CHI è proprio quello di far interagire l’uomo con la macchina “da uomo”, ovvero usando tutte le potenzialità che la natura gli ha dato, evitando quindi come è stato per i primi decenni che sia l’uomo ad adeguarsi al contesto virtuale (come si può ricordare, ad esempio il sistema operativo DOS limitava l’accesso al calcolatore solo a coloro che avevano conoscenze molto vicine alla programmazione).

La ricerca
In questo contesto deve essere inquadrata la ricerca che stiamo portando avanti nell’ambito di un progetto di dottorato degli Autori di questo articolo che vede la collaborazione tra il Dipartimento di Bioingegneria, il Centro METID del Politecnico di Milano, l’Istituto di Scienze dell’Uomo e dell’Ambiente dell’Università IULM di Milano. Il fuoco della ricerca è su un tema specifico, l’affective computing ovvero la branca della CHI che si occupa delle relazioni tra emozioni umane e macchine. Il fatto che quest’ultime, computando alcuni dati biometrici, possano comprendere la situazione emotiva della persona che se ne sta servendo è qualcosa che oggi può sembrare prematuro dibattere, tuttavia fra qualche anno condizionerà la nostra interazione quotidiana con il virtuale.
Quali sono le ricadute di questa innovazione? Ce ne vengono in mente moltissime. Una la dibatteremo in seguito, in quanto costituisce il tema centrale di questo articolo; un paio le dichiariamo subito. Nell’uso quotidiano del vostro applicativo Microsoft, quante volte vi sarà capitato di “insultare” l’agente che improvvisamente appare nell’interfaccia e vi suggerisce qualcosa che nella maggior parte dei casi non risolve nulla? Chissà, in quel momento i vostri parametri fisiologici si saranno alterati: cambio di frequenza cardiaca, variazione della conduttanza cutanea (effetto di piccole variazione della sudorazione e quindi del sistema di termoregolazione: proprio come nella cosiddetta macchina della verità, lo stress psicologico è correlato ad un incremento della sudorazione della pelle), variazione della frequenza respiratoria, emissione magari di voce, etc.. Tutta una serie di cambiamenti più o meno grandi e più o meno soggettivi che potrebbero servire al calcolatore per comprendere che per il vostro stato psicoemotivo in futuro forse sarà meglio che quell’agente esca solo su richiesta dell’utente, non in maniera automatica. Altro esempio è la posta elettronica: quante volte leggendo una email non siamo riusciti a capirne il senso. Non tutti usano infatti punti esclamativi e/o emoticons nella comunicazione per mail e, spesso, anche questi non sono convincenti, perché lasciano spazio a svariate interpretazioni. Se il calcolatore dotato della capacità di leggere le emozioni arricchisse il messaggio email con una serie di indicatori che trasmettano informazioni sulla positività o negatività emotiva del mittente, sicuramente tutte le incomprensioni che scaturiscono dalle mail ne trarrebbero beneficio. Lo stesso meccanismo potrebbe essere pensato nella comunicazione sincrona, arricchendo notevolmente una comunicazione via chat, che oggi è solo di tipo testuale.
Qualcuno starà pensando quanto uno strumento del genere possa essere intrusivo nella privacy, ma anche qui possiamo trovare delle risposte e delle modalità di utilizzo come nel caso di un altro strumento altrettanto invasivo, quale per esempio il telefonino. Un sistema ben progettato sarà controllato dall’utente che deciderà o meno di abilitarlo, che vuole essere raggiunto o meno, che accende o spegne oppure non risponde alle telefonate. Una tecnologia non ha sviluppo se non ha senso, cioè se gli utenti per cui è stata sviluppata non la utilizzano. E’ facilmente prevedibile, nel caso dell’affective computing di massa, che all’inizio gli utenti preferiranno confrontarsi con la sola macchina, in seguito le applicazioni cresceranno gradualmente sino ad essere condivisibili on line. Quanti oggi usano la carta di credito per transazioni on line rispetto a quanti la utilizzavano all’uscita dei primi servizi? Grazie anche ai protocolli certificati di sicurezza che criptano le informazioni, è nata una cultura di fiducia in grado di porre il rischio temuto dall’utente alla stessa stregua di quello percepito in altri contesti, ad esempio in un ristorante quando si deve pagare il conto; se da un lato c’è infatti il rischio che la carta venga clonata da qualcuno che lavora all’interno del ristorante, dall’altro ciò non ne ha impedito il largo uso e la diffusione globale.
Ma veniamo alla ricerca che stiamo conducendo. L’oggetto di studio è lo studente che apprende on line, ovvero partecipa ad un percorso di e-learning fruendo di Learning Objects, interagendo con la comunità virtuale, eseguendo le valutazioni on line e partecipando alle classi virtuali. Purtroppo, il tutor, con gli strumenti oggi disponibili, accede alla piattaforma di e-learning (LMS: Learning Management System) avendo informazioni relativamente all’utente legate solo al tempo di fruizione di quella lezione, alla data, al punteggio conseguito nel test che era obbligatorio fare a fine di quella lezione; oppure, in contesti di interazione sincrona, ottenendo informazioni inerenti esclusivamente all’interazione diretta audio e video, nella migliore delle ipotesi. Chiaramente, tutta l’informazione emotiva deducibile dal docente durante la formazione in presenza, viene persa e così il tutor a distanza non ha la percezione di quanto le cose che sta per dire sono chiare o meno, se la classe è annoiata, stressata dal suo modo di procedere nella didattica.
Ed ecco che interviene l’indicatore-semaforo, associato ad ogni utente o ad ogni attività fruita che dichiara con un verde se la situazione emotiva è positiva, con un rosso se è negativa oppure con un giallo se è intermedia. Di seguito viene raffigurata una simile interfaccia in grado di indicare al tutor la situazione emotiva degli studenti on line:

Fig.1 Studentessa monitorata durante la fase sperimentale nelle varie fasi del protocollo, che prevedono stimoli stressori di rilassamento e di coinvolgimento emotivo.
Questo indicatore-semaforo viene costruito a partire da una serie di segnali di carattere fisiologico acquisiti dal calcolatore ed elaborati opportunamente, al fine di ottenere una funzione emotiva quale output di un processo capace di interpretare lo stato emotivo dello studente. I segnali oggetto di studio sono l’HRV (Heart Rate Variability) ovvero la variabilità cardiaca acquisita a partire dall’ECG (Elettrocardiogramma), il GSR (Galvanic Skin Response – risposta galvanica della pelle), cioè la conducibilità della pelle, e infine l’EEG (Elettroencefalogramma), con cui in particolare viene monitorata l’area frontale del cervello, che fornisce indicazioni sull’attenzione e la concentrazione. Qui sotto riportiamo il laboratorio in cui è stato approntato il pre-test pilota:

Fig.2 Laboratorio: a sinistra il laboratorio con lo studente (in primo piano) e il ricercatore (sullo sfondo). A destra i monitor osservati dal ricercatore: nel monitor chiaro l’interfaccia studente in quello scuro i segnali acquisiti.
Attualmente la ricerca ha definito un protocollo sperimentale caratterizzato sia dalla costruzione di una serie di stimoli di e-learning per indurre certe emozioni, sia di validazione psicologica. E’ stata svolta una fase pilota su dieci soggetti che ha portato ad una serie di risultati interessanti, ovvero ad una significativa correlazione tra la parte validata psicologica e i risultati quantitativi ottenuti dalle elaborazione dei segnali fisiologici. La fase conclusiva della ricerca verrà estesa ad una cinquantina di studenti del Politecnico di Milano, che volontariamente si sottoporranno al protocollo. Maggiori energie in questa fase saranno spese nella elaborazione dei segnali, al fine di far emergere più indicazioni di correlazione tra i risultati della psicologia e quelli ottenuti dalle elaborazione dei segnali fisiologici, affinché l’indice automatico che conduce alla quantificazione emotiva di stress, relax ed engagement dello stato psicologico dell’utente poggi sull’analisi multimodale dei vari segnali di ingresso a disposizione.

Conclusioni
L’obiettivo a breve termine per l’applicazione dell’indice derivato dalla ricerca è quello dell’integrazione dello stesso nella didattica a distanza sincrona a asincrona. Nel caso della didattica sincrona, un semaforo indicherà lo stato emotivo di ogni partecipante alla classe virtuale. Ciò fornirà al tutor una indicazione sull’andamento emotivo generale della classe rispetto ai contenuti trattati, fornendo la possibilità di correggere il percorso didattico in corso d’opera. Nel caso della didattica asincrona, la reportistica associata a ciascun studente potrà dare indicazioni emotive relative alla fruizione dei Learning Objects, la quale potrà essere estesa a livello globale di classe o di comunità virtuale. Infine, affinché queste tecnologie siano di fatto utilizzabili all’interno di progetti di formazione a distanza, sarà necessario produrre sistemi di tipo input device, in grado cioè di trasmettere al calcolatore (meglio se in modo wireless) i dati fisiologici senza richiedere un enorme dispendio di tempo e di denaro all’utente. La prospettiva, in un futuro che non crediamo lontano, è quella di avere una tecnologia sempre più vicina alla comprensione delle esigenze umane: questo, da un lato, per facilitare i processi di interazione con sistemi virtuali; dall’altro, per arricchire e migliorare lo scambio di informazioni e la comunicazione delle comunità attraverso la rete.

Note
(1) Le interfacce haptic e tangible sono interfacce che consentono all’utente di interagire con un mondo virtuale utilizzando sistemi di input in grado di raccogliere dati dall’ambiente circostante e trasmettere sensazioni tattili attraverso il sistema di input stesso arricchito di trasduttori di forza e posizione (un guanto speciale può caratterizzare una haptic interface, oppure un oggetto spostabile all’interno di un’area e tracciabile da un sistema può rappresentare una tangibile interface). I touch screen consentono l’immissione di input in un sistema attraverso il controllo fisico dell’interfaccia da parte dell’utente, che esercita le pressioni sullo schermo. Sistemi multimodali sono sistemi in grado di gestire contemporaneamente diversi tipologie di input, attraverso un puntatore, un touch screen, la voce, i movimenti etc..


<< Indietro Avanti >>