Scopri gli articoli di Geeks Academy su: Blockchain, Coding, Cybersecurity, Cloud, Big Data, Artificial Intelligence, Gaming, Digital Innovation
Qualche tempo fa il fatto di poter parlare con un dispositivo, una macchina, sembrava un sogno e invece oggi è realtà, la realtà sempre più vicina dell'interfaccia vocale. Infatti, il grande mondo delle interfacce vocali si basa su un concetto molto più grande degli agent stessi: la comunicazione verbale tra l'uomo e una macchina.
Siamo in molti oggi ad interagire con le interfacce vocali. Ci serviamo di questi agent ad esempio quando stiamo guidando e dobbiamo fare una ricerca o ogni volta che abbiamo bisogno di cercare qualcosa ma non riusciamo a utilizzare le mani: il comando vocale sopperisce alla nostra mancanza permettendoci di fare una ricerca vocale. La nostra voce diventa un mouse, un dito, una tastiera vocale che ci permette la dettatura e la scrittura vocale.
Prende il nome di interfaccia vocale un dispositivo in grado di poter interagire con l'utente attraverso la sua voce. Quindi un'interfaccia vocale è in grado di mettere in atto due processi:
RICONOSCIMENTO VOCALE – comprendere la voce dell'utente
Conosciuto anche come ASR (Automatic Speech Recognition), è la capacità di un dispositivo di interpretare l'ascolto di un comando vocale. I sistemi di riconoscimento vocale sono stati introdotti per la prima volta negli anni Settanta da centri di ricerca universitari importanti come il MIT (Massachussetts Institute of Technology) e vengono classificati a seconda del tipo di parlato che riconoscono:
- Parole isolate o parlato continuo: quando percepiscono solo una parola per volta o un'intera frase formata in modo naturale e semplice.
- Indipendenti o dipendenti dal parlatore: possono riconoscere la voce di qualsiasi persona o della persona che li ha creati.
- Indipendenti o dipendenti dal contesto: possono comprendere qualunque tipo di domanda o solo le richieste in un contesto preciso e chiaro.
SINTESI VOCALE – parlare con l'utente
Conosciuto anche come TTS (Text to speech), è la conversione di un testo scritto in una voce artificiale prodotta da un computer. Un segnale vocale che riproduce a voce un testo.
Le tecniche per generare la voce artificialmente sono:
- I sistemi di sintesi articolatoria: riproducono il funzionamento dell'apparato fonatorio.
- La sintesi per formanti: filtri matematici gestiscono i parametri acustici del segnale artificiale.
- La sintesi concatenativa o per frammenti: è la composizione di messaggi partendo da frammenti acustici prelevati dalla voce naturale. Una volta estratti, i frammenti vengono archiviati in una base dati, selezionati e infine ricomposti per dare vita ad un suono che corrisponda alle lettere scritte.
Sistemi di riconoscimento vocale: dal cinema al mondo smart
Dalla serie Supercar del 1982, in cui KITT è un'automobile completamente automatizzata e gestita totalmente da un'intelligenza artificiale che la fa anche parlare, a Her del 2013 in cui un computer entra totalmente nella vita di una persona per mezzo di un sistema operativo controllato dall'intelligenza artificiale in grado di emanare anche emozioni.
In Her, il protagonista Theodore acquista il sistema “OS 1” che una volta installato assume le “sembianze” di una figura femminile: Samantha. Tra Theodore e Samantha si instaurerà un legame che va oltre il rapporto uomo – tecnologia. Il protagonista, ammaliato dalla capacità di questo sistema di apprendere ed elaborare concetti e sensazioni , instaurerà un rapporto strettissimo con Samantha arrivando ad affrontare temi "umani" come la vita e l'amore.
Da un'indagine svolta nel 2016 da TechPinions è emerso che su 1300 intervistati il 13,86% possedeva un Amazon Echo, l'altoparlante intelligente, e lo utilizzava in casa e nel soggiorno. È emerso anche che Amazon Echo si usa soprattutto per la riproduzione di un brano musicale ma anche per il controllo delle luci e per i timer di casa. Mentre, tra le interfacce vocali più utilizzate in assoluto ci sono Siri e la sintesi vocale Google che vengono utilizzati proprio come strumenti di ricerca vocale in auto (51%) e a casa (39%).
Tra gli agent più usati, non dimentichiamo anche Alexa e Cortana.
Il futuro degli agent, tutti questi strumenti di cui stiamo parlando, è nella loro stretta connessione ai concetti di smarthome e smartcity, un futuro sempre più vicino.
Smarthome e smartcity sono posti in cui l'intelligenza artificiale e una connessione di qualità fanno sì che le interfacce vocali possano diventare strumenti di ricerca nei grandi archivi dei big data che abbiamo oggi a disposizione.
Come si progetta un'interazione vocale
Come scrive Carlo Frinolli - Experience Designer, Creative Director e CEO presso Nois3 nonché docente presso la Geeks Academy - nel suo blog, a proposito della progettazione di un'interazione vocale, il designer si trova di fronte ad un primo problema che è poi la principale differenza con il classico processo di design digitale: si trova a progettare su un medium che non è lo stesso su cui si sperimenta e testa.
Per progettare questo tipo di interazioni si parte da un diagramma di flusso che va testato attraverso la voce o l'interazione scritta che la macchina trascriverà in bit.
Per progettare un flusso dialogico il designer deve essere in grado di rispondere all'esigenza dell'utente capendo e prevedendo tutte le infinite possibilità di interazione e i bisogni che un utente può manifestare al dispositivo.
Bisogna considerare che per quanto un'interfaccia capisca la richiesta è sempre difficile che riesca a capire il contesto del discorso a 360°: limiti su cui l'Artificial Intelligence non può arrivare ma a cui si può avvicinare, come sta facendo, sempre di più.
Riconoscimento vocale Google
Prendiamo come esempio il riconoscimento vocale di Google. È dal 2009 che Google ha iniziato a prevedere i servizi vocali usando il modello acustico Gaussian Mixture Model (GMM) unito ad altre tecniche.
Dal 2012 ha iniziato ad usare altre architetture come la LSTM RNNS (Long Short.term Memory Recurrent Neural Networks): l'architettura che funziona attraverso “discriminative training” che differenzia le unità fonetiche invece di modellarle in modo indipendente.
Data la difficoltà della costruzione di questi strumenti, Google ha chiesto e raccolto posta vocale, voice mail, acquisendo dati utili per testare il riconoscimento vocale.
Dal 2016 Google ha introdotto un nuovo sistema di traduzione automatica fondato su reti neurali, che sembra vengano usate da Google già dal 2012, e sostituendo, per l'inglese e il cinese mandarino, il vecchio sistema basato sui dati statistici.
Google incorpora i servizi di riconoscimento nei suoi prodotti e li commercializza con le Google Cloud Speech API.
Le interfacce vocali e la figura dello UX Designer
Sono strumenti che usa bene chi li conosce bene, ma sono sicuramente elementi utili che fanno sperare in risultati sempre migliori. Speranza riposta in settori come l'architettura dell'informazione conversazionale. L'architettura dell'informazione conversazionale è l'architettura che si occupa di esaminare e organizzare tutte le informazioni che ascoltiamo e che emettiamo vocalmente attraverso mezzi acustici. Tutti i suoni che derivano dall'interazione tra l'uomo e il dispositivo.
Infatti, le interfacce vocali sono un elemento della user experience per applicazioni mobili in cui l'elemento che prevale è proprio l'esperienza dell'utente nell'uso dell'Internet delle Cose (Internet of Things). Lo UX Designer è la figura che si occupa di questi elementi perché lo User Experience Designer è in grado di gestire i cambiamenti soddisfacendo e superando le aspettative di chi utilizza questi strumenti vocali. Cambiamenti repentini dati dal fatto che il modello delle interfacce è un modello che pone domande ed effettua azioni attraverso l'uso dei comandi vocali rompendo il confine delle singole interazioni consentendo l'interazione di più utenti con una sola applicazione. Spesso l'utente “umano” non comprende i limiti della macchina andando oltre con le richieste.
Ad oggi lo UX Designer è una figura di fondamentale importanza perché è il responsabile dell'esperienza dell'utente nella relazione uomo – macchina, dai siti alle applicazioni.
Se l'articolo ti ha incuriosito e ti affascina la figura dello UX Designer, scopri i corsi dell'area UX Design proposti dalla Geeks Academy e il corso User Experience Design Professional in partenza il prossimo marzo.