Home » n. 27 maggio 2004

Strumenti per un approccio quantitativo allo studio delle interazioni. Il software Net Miner e i Log File

27 maggio 2004 | Elvis Mazzoni mazzoni@psice.unibo.it Università di Bologna - Facoltà di Psicologia (sede di cesena)

Introduzione

Possiamo immaginare il log file come uno schedario che registra determinati parametri relativi alla frequentazione e al tempo passato dagli utenti sulle pagine Web. Partendo da dati raccolti in modo automatico dal server di rete, l’analisi del log file (Log File Analysis) permette di “osservare i comportamenti” intrapresi dagli utenti durante la navigazione all’interno di un sito Web, nonché le risposte date dal server Web (sistema di gestione del sito) alle singole richieste effettuate dai browser utenti (software di navigazione dei visitatori). E’ un metodo di raccolta dati non invasivo (Faulkner, 2000) in quanto, nella maggioranza dei casi, l’utente non è consapevole di questa registrazione (aspetto che propone importanti problematiche dal punto di vista etico, morale e legislativo) e permette di raccogliere dati su un numero potenzialmente infinito di soggetti, in modo automatico.
In ambito psicologico, questo registro elettronico può essere visto come una sintesi fra due metodi classici della psicologia: osservazione e raccolta di tracce. Al pari della raccolta di tracce permette di analizzare strumenti o risorse utilizzati da un determinato soggetto o gruppi di soggetti; allo stesso modo dell’osservazione, consente di analizzare momento, durata e, volendo, luogo di utilizzo di tali strumenti e risorse. I dati, in formato testuale, possono essere facilmente elaborati con i comuni programmi di calcolo (ad esempio Excel) e con i programmi statistici (ad esempio SPSS).
Grazie ai log file è anche possibile ottenere una descrizione quantitativa delle interazioni avvenute (scambio e lettura dei messaggi) all’interno di comunità virtuale, permettendo di analizzare l’utilizzo in generale dello strumento di interazione adottato (forum chat, ecc.), nonché l’attività dei singoli studenti all’interno della comunità considerata.
Considerando un forum di discussione in rete, questo strumento propone il vantaggio di tenere traccia delle interazioni avvenute all’interno di un database, nel quale sono contenuti anche i messaggi inviati ai membri della comunità. Partendo da dati quantitativi circa gli scambi avvenuti (ad es. messaggi inviati, messaggi ricevuti, risposte ai messaggi, ecc.), è possibile costruire una matrice che permette di rappresentare graficamente la rete sociale di una comunità virtuale. L’analisi della rete sociale instaurata all’interno di una comunità (reale e virtuale) si concentra sulle relazioni fra le persone, anziché focalizzarsi sulle caratteristiche dei singoli individui. Per questo tipo di analisi, è certamente utile avvalersi di alcuni software che rapidamente consentono la visualizzazione del grafo (rappresentazione grafica) di una rete sociale, fra i quali ricordiamo Cyram NetMiner (http://www.netminer.com/). Questi software non sono specifici per le comunità virtuali e possono essere applicati per l’analisi delle reti sociali di svariate situazioni, reali e virtuali.
Grazie all’analisi delle reti sociali, si possono ottenere varie dimensioni che descrivono l’interazione all’interno di una comunità virtuale, fra le quali ricordiamo:
- inclusività (numero dei punti che sono inclusi nelle varie parti collegate del grafo);
- densità (livello generale dei legami fra i punti di un grafo);
- connettività (vulnerabilità, capacità di una rete di “funzionare insieme”);
- centralizzazione (l’insieme di punti intorno a cui il grafo è organizzato).

1. Il tracciamento delle attività on-line tramite log file
Il tracciamento delle attività on-line svolte dai discenti è attualmente considerato anche all’interno del recente Decreto 17 aprile 2003 (GU n. 98 del 29-4-2003) sull’Università a Distanza emanato dal Governo Italiano. L’Allegato Tecnico di tale decreto, ai commi 1.2 e 2.1 individua nel tracciamento automatico delle attività formative un’importante caratteristica delle piattaforme di erogazione della formazione on-line per analizzare e valutare l’attività formativa svolta dallo studente.
Il tracciamento dei dati sulla navigazione degli utenti, propone alcuni importanti quesiti ai quali occorre rispondere prima di effettuare la raccolta dei dati, per non trovarsi poi in difficoltà durante le fasi di interpretazione e valutazione:
- Come leggere i dati tracciati?
- Come organizzarli?
- Come analizzarli?
Normalmente il tracciamento della navigazione avviene tramite il log file del Server Web, nonché nella progettazione e gestione di siti Web per individuare l’utilizzo ed il gradimento del sistema di rete costruito. Le piattaforme utilizzate per la formazione in rete, al pari del server Web, tracciano la navigazione degli studenti in quello che potremmo definire un log file interno delle attività in esse svolte.

1.1 Come funziona il log file
Bastien, Leulier e Scapin (1998) definiscono il log file come “… uno schedario creato e mantenuto da un programma specifico installato su un sistema informatico in rete. Questo programma è concepito per registrare (…) un certo numero di parametri, relativi alla frequentazione e al tempo passato sulle pagine Web, durante le connessioni al server. … Non si tratta dunque di un metodo di valutazione, bensì di un metodo di raccolta di dati sulla frequentazione di un sito”.
Quando lo studente accede ad una pagina Web, il browser di navigazione utilizzato inoltra una richiesta di risorse al server Web, il sistema di allocazione e gestione del sito Web da cui proviene la pagina richiamata. Le risorse richieste possono consistere di file Web (.html, .php, .asp, ecc.), file immagine o grafici, file audio, file video, nonché particolari applicazioni (ad esempio in Java). Il server Web accede alle risorse e le invia al browser dello studente, che così può visualizzarle sullo schermo. Quest’attività di scambio fra browser dello studente e server Web viene registrata all’interno del log file, una sorta di “cronologia” delle richieste rivolte al server dai browser dei vari utenti (Carugati, Mazzoni, 2002).
Le informazioni contenute nel Log File normalmente sono registrate nel formato noto come Common Log File Format:

62.98.76.76 – - [14/Apr/2001:14:43:14 +0200]
“GET /didattica/sviluppo_rete.htm HTTP/1.0″ 200 49164

In questo formato il log file si presenta come un file di testo, (ASCII) in cui ogni richiesta effettuata dal browser al server web corrisponde ad una, o più stringhe (hits).
L’esempio che riportiamo si riferisce alla richiesta effettuata in data 14 Aprile 2001, alle ore 14.43, concernente la pagina sviluppo_rete.htm di 49164 byte. Nel log file non sono registrate le sole pagine web richieste, ma anche le risorse ad esse associate, come file audio, file grafici, ecc..

62.98.76.76 – - [14/Apr/2001:14:43:14 +0200]
“GET /didattica/sviluppo_rete.htm HTTP/1.0″ 200 49164
62.98.76.76 – - [14/Apr/2001:14:43:18 +0200]
“GET /immagini/sviluppo_rete.gif HTTP/1.0″ 200 6986
62.98.76.76 – - [14/Apr/2001:14:43:21 +0200]
“GET /immagini/sviluppo_rete_scheda.gif HTTP/1.0″ 200 1031

Nell’esempio, l’apertura della pagina web sviluppo_rete.htm implica la contemporanea richiesta di due risorse ad essa associate (due file con immagini in formato gif).

1.2 Aspetti critici del log file
I dati tracciati dal log file sono ricchi di informazioni (fra cui ricordiamo l’indirizzo del computer dell’utente, l’ordine cronologico delle pagine Web visitate e, eventualmente, il browser e il sistema operativo utilizzati per la navigazione) ma, senza opportuni accorgimenti, non riportano una documentazione completa della navigazione effettuata. Ciò solleva alcuni dubbi sulla possibilità di interpretare e valutare adeguatamente le attività on-line svolte dagli studenti partendo dai dati grezzi del tracciamento (Carugati, Mazzoni, 2002). Le problematiche principali legate ai dati contenuti nel log file sono le seguenti:
- Identifica l’indirizzo IP (Internet Protocol) del computer che si connette ad un sito Web, ma non permette di identificare lo studente o gli studenti che si connettono tramite quel computer. Se pensiamo ai computer di un’aula informatica all’interno di una facoltà universitaria, possiamo immaginare che uno stesso computer possa essere utilizzato, consecutivamente, da vari studenti, seppure nel log file del server essi siano sempre identificati con il medesimo indirizzo IP. Ne deriva una difficoltà nel separare le differenti navigazioni effettuate dai singoli studenti che hanno utilizzato quel computer.
- Il tempo di connessione ad una pagina Web non corrisponde al tempo reale di utilizzo, in quanto occorre considerare anche il tempo di caricamento della pagina (nonché delle risorse ad esse associate) ed il tempo in cui lo studente resta connesso, sebbene non utilizzi la pagina visualizzata (ad esempio perché sta effettuando una telefonata).
- Il log file non riporta integralmente la navigazione dello studente (Carugati, Mazzoni, 2002). Ogni computer ha vari sistemi di memoria al suo interno, fra cui le cache memory che memorizzano le risorse inviate dal server Web al browser. Il browser dello studente, prima di richiedere risorse al server Web, controlla che tali risorse non siano già allocate nella cache memory interna del computer, diminuendo così sensibilmente i tempi di apertura e visualizzazione delle pagine Web. In tal modo, però, non avviene alcuna comunicazione fra browser e server Web, con conseguente mancato tracciamento non è registrata alcuna traccia dello scambio avvenuto (1).

1.2 Come ovviare agli aspetti critici del log file
Il problema dell’identificazione dei singoli studenti (in modo da associare ad ognuno di essi le tracce della navigazione effettuata e delle risorse utilizzate) può essere risolto richiedendo l’inserimento di numero di matricola e password personali per l’accesso alle pagine Web del sito che si intende tracciare. All’interno del log file, il numero di matricola dello studente viene registrato unitamente alle singole pagine Web visitate, permettendo così di associare ad ogni studente tutte le risorse del sito visitate. Restano, però, due interrogativi ai quali dare una risposta:
Per quanto riguarda il problema del tracciamento completo della navigazione effettuata dagli studenti, tramite un apposito codice inserito all’interno del linguaggio di implementazione delle pagine Web (2), è possibile “obbligare” il browser utilizzato dagli studenti ad inviare sempre la richiesta al server Web di allocazione e gestione del sito, aggirando così la cache memory interna del computer. Così facendo, si ottengono dati completi ed attendibili delle navigazioni di ogni studente che si è connesso al sito Web.

1.3 Quantità e qualità delle attività in rete
Grazie a questi accorgimenti, abbiamo effettuato una ricerca della durata di due anni sull’utilizzo del sito Web di Psicologia dello Sviluppo da parte degli studenti dell’omonimo corso. Tale sito è stato offerto a supporto del classico corso in presenza e presentava varie risorse in rete per offrire informazioni sul corso e materiali didattici (ad es. gli appunti ed i lucidi del corso). I dati sono stati raccolti ed organizzati all’interno dei due distinti database, consentendo una facile e rapida trasformazione in fogli elettronici SPSS dai quali è stato possibile ottenere un insieme di informazioni relativamente a frequenza, tempi e modi di utilizzo di ogni singola pagina e risorsa presente all’interno del Corso On-line, rispecchiando fedelmente il percorso effettuato da ogni singolo studente. Partendo da questi dati, è stato possibile effettuare un’analisi quantitativa relativamente all’utilizzo delle risorse utilizzate ed un’analisi qualitativa centrata sulle attività svolte all’interno delle singole risorse.
Per quanto riguarda l’analisi quantitativa, facendo opportune elaborazioni sui dati raccolti all’interno del database, abbiamo ottenuto dei dati che descrivono l’utilizzo delle risorse di rete in generale, nonché l’utilizzo delle risorse da parte di ogni singolo studente. Per quanto riguarda, ad esempio, l’utilizzo in generale del Corso On-line (parte del sito Web di Psicologia dello Sviluppo ad accesso dei soli studenti), abbiamo ottenuto i seguenti dati:
- totale degli studenti che hanno visitato il Corso On-Line;
- totale delle connessioni al Corso On-Line;
- numero delle connessioni effettuate per ogni giorno;
- numero degli studenti che hanno visitato il sito per ogni giorno;
- confronto fra numero delle connessioni e numero degli studenti per ogni giorno;
- numero delle visite effettuate ad ogni pagina e risorsa del Corso On-Line.
Per quanto riguarda, invece, la navigazione dei singoli studenti all’interno della sezione Corso On-line, abbiamo dati concernenti:
- totale degli accessi ad ognuna delle pagine e risorse;
- totale dei giorni di accesso;
- totale delle connessioni effettuate;
- totale delle pagine visitate;
- totale delle singole pagine visitate;
- tempo totale di connessione (in secondi).
Per analizzare la qualità della navigazione effettuata dagli studenti e, quindi, le modalità di utilizzo delle singole risorse, abbiamo proceduto a differenziare le singole pagine che compongono il Corso On-line, sulla base delle risorse alle quali le pagine sono associate. Le risorse di rete presenti sono cinque: Appunti delle Lezioni, BiblioWeb, OndaSviluppo, Una domanda al Prof, ScriWeb. Selezionando, ad esempio, le varie pagine che compongono ScriWeb, il forum di discussione, otteniamo i seguenti dati su ciò che hanno fatto gli studenti all’interno di questa risorsa (fig. 1):

I dati indicano quanto segue:
- accessi alla risorsa ScriWeb (scrwtab);
- accessi alla pagina scrivi messaggio (scrwscr);
- accessi alla pagina rispondi a messaggio (scrwris);
- accessi alla pagina leggi messaggio (scrwleg);
- utilizzo “attivo” della risorsa ScriWeb (scrwoper);
- utilizzo totale della risorsa ScriWeb (scrwtot = scrwleg + scrwoper).
Guardando la figura si può notare, ad esempio, che lo studente evidenziato ha effettuato l’accesso al forum 43 volte e si è iscritto per poter partecipare alle discussioni. Ha inviato un solo messaggio (scrwscr), non ha risposto ad alcun messaggio (scrwris) ed ha letto 37 messaggi (scrwleg).
In questo modo è possibile effettuare un’analisi ed una valutazione dell’attività svolta dallo studente durante la sua navigazione in rete, sulla base delle risorse proposte per la sua formazione.

2. NetMiner e l’analisi delle reti sociali
Oltre ai dati precedentemente presentati sull’utilizzo del forum di discussione ScriWeb, all’interno dei database per il tracciamento abbiamo raccolto i dati sulle interazioni avvenute fra gli studenti iscritti al forum:
- Mittenti dei messaggi;
- Mittenti delle risposte ai messaggi;
- Destinatari dei messaggi;
- Destinatari delle risposte ai messaggi.
Questi dati possono essere elaborati tramite il software NetMiner per analizzare la rete sociale che si è instaurata fra gli studenti iscritti al forum. Innanzitutto occorre costruire la matrice dei dati sugli scambi avvenuti (fig. 2). In tale matrice, nelle righe sono presenti i soggetti che hanno inviato messaggi o hanno risposto ai messaggi, mentre le colonne rappresentano i destinatari di messaggi o risposte.

Fig. 2: Matrice dei dati sugli scambi avvenuti
all’interno di una comunità (reale e/o virtuale)

Basandosi su questa matrice di dati, NetMiner costruisce il grafo (rappresentazione grafica) di una rete sociale. Nella figura che segue (fig. 3), sono rappresentati i grafi orientati (indicanti il senso della relazione che lega due punti o nodi) delle interazioni avvenute nei due anni di utilizzo del forum ScriWeb.

Fig. 3: Grafi orientati e con pesi sulle interazioni avvenute nei due anni di ScriWeb

Dai grafi e dalle statistiche che NetMiner offre all’interno dei Report sui grafi, è possibile evidenziare le differenze nelle due reti sociali presentate. Nella Teoria dei Grafi, la densità descrive il livello generale dei legami fra i punti in un grafo, mentre l’inclusività rappresenta il numero totale dei punti di un grafo meno il numero di punti isolati (punti non comunicanti), espresso come proporzione del numero totale dei punti (Scott, 1997) La rappresentazione grafica ed i dati del report evidenziano una maggiore interazione fra i membri del forum 2000-2001, nonché una maggiore densità ed inclusività.
NetMiner permette di analizzare anche la Connettività di una rete sociale, ovvero la vulnerabilità dei collegamenti fra i nodi in una rete. Questo dato offre una misura della capacità di una rete di “funzionare insieme” (fig. 4) e permette di osservare i collegamenti all’interno di una rete secondo due aspetti:
- a livello grafico, proponendo la visualizzazione del percorso che lega un nodo specifico ad un altro nodo della stessa rete;
- analizzando la presenza dei “ponti” (bridge). I ponti rappresentano quelle linee di un grafo (e quindi quelle interazioni di una rete sociale) che, qualora eliminate insieme ai loro nodi incidenti, aumenterebbero il numero delle componenti collegate.

Fig. 4: Connettività dei grafi nei due anni di ScriWeb

I grafi evidenziano una più marcata vulnerabilità per la rete sociale dell’anno 2001-2002, nel quale l’eliminazione dei ponti determinerebbe la distruzione pressoché completa della rete, a differenza di quanto si può invece notare nella rete dell’anno 2000-2001.
Vediamo infine l’analisi della centralizzazione di un grafo (fig. 5), che esprime quanto strettamente il grafo è organizzato intorno al suo punto più centrale (Freeman, 1979).

Fig. 5: Centralizzazione dei due grafi relativi a ScriWeb

Il grafo del forum 2000-2001 mostra più punti centrali attorno ai quali si sono sviluppate le interazioni, mentre il grafo dell’anno 2001-2002 evidenzia un solo punto veramente centrale. Questo dato è confermato dai report con i dati statistici sulla centralizzazione.

Note
(1) Il caso tipico è l’azione torna indietro (back) resa possibile dall’apposita freccetta posta nella barra degli strumenti del browser di navigazione. Ritornando ad una pagina Web già visitata, il browser non richiederà tale risorsa al server Web, rintracciandola immediatamente nella cache memory.
(2) Accorgimento da noi adottato nelle ricerce effettuate presso la Facoltà di Psicologia dell’Università di Bologna.

Bibliografia
Bastien, J.M.C., Leulier, C., Scapin, D.L. (1998). L’ergonomie des sites web. In Créer et maintenir un service web – Collection Sciences de l’information, Série Etudes et techniques. ADBS Editions, Paris.
Carugati, F. e Mazzoni, E. (2002). “Navigare” all’università: una proposta di studio dell’uso di un sito web da parte degli studenti. In pubbl. Ricerche di Psicologia (Numero speciale) – “Computer e Apprendimento” (a cura di A. Antonietti e R.A. Fabio).
Freeman, L.C. (1979). Centrality in Social Networks: I. Conceptual Classification. In “Social Networks”, I.
Mazzoni, E. (2003). Studenti nella rete: il dire, il fare e il pensare dei comportamenti on-line. Tesi di dottorato in Psicologia Sociale, dello Sviluppo e delle Organizzazioni discussa in data 16 aprile 2003 presso il Dipartimento di Scienze dell’Educazione dell’Università degli Studi di Bologna.
Scott, J. (1997). L’Analisi delle Reti Sociali. NIS, Roma.
Università a distanza, Decreto 17 aprile 2003 (GU n. 98 del 29-4-2003). In rete all’indirizzo http://www.governo.it/GovernoInforma/Dossier/universita_distanza/art8.html


<< Indietro Avanti >>