Sprechen Sie mit mir Computer: Sprachsteuerung ist aus

Wenn unerwartete Pakete an Ihrer Tür erscheinen, möchten Sie vielleicht ein Wort mit einem Ihrer Smartgeräte haben.

Anfang dieses Monats fragte eine Sechsjährige in Dallas bei ihrer Familie Amazon Echo intelligenter Lautsprecher für ein Puppenhaus. Und Alexa, Amazons Siri-artiger artifizieller Assistent, prompt bestellte einen zu ihrem Haus.

Eine TV-Nachrichtensendung in San Diego griff die Geschichte auf und wiederholte sie versehentlich, als einer der Nachrichtenanker sagte: "Ich liebe das kleine Mädchen und sagt 'Alexa bestelle mir ein Puppenhaus'." Hör das mit mehreren anderen Amazon-Geräten in den Wohnungen San Diego versuchte, mehr Puppenhäuser zu kaufen.

CW6 San Diego Nachrichten berichten über den Kauf von Accola Puppenhaus.

{youtube}oI2KLIULjXc{/youtube}

Die Geschichte klingt für jeden, der versucht hat, sich mit Apples Siri oder Microsofts Cortana zu unterhalten, reumütig vertraut. Unsere Geräte sind uns gut zuhören, aber das bedeutet nicht immer, dass sie es verstehen.

Microsoft-Forscher haben dies kürzlich als ein potenzielles Problem mit den heutigen sprechenden Interfaces identifiziert: Sie werden als "intelligente" Assistenten vermarktet, mit klugen Witzen und weltlichem Wissen, doch frustrieren sie uns oft mit ihrem fehlenden gesunden Menschenverstand.


Innerself-Abonnieren-Grafik


In einer kleines StudiumDie Forscher fanden heraus, dass die Leute, die im Laufe der Zeit mit ihren digitalen Assistenten sprachen, diejenigen waren, die mit den niedrigsten Erwartungen begonnen hatten.

Was macht eine Sprachschnittstelle eigentlich?

Wenn Sie mit einer Sprachschnittstelle sprechen, muss es:

  • "Höre" den Klang deiner Stimme und unterscheide ihn von Hintergrundgeräuschen
  • finde heraus, wo jedes Wort anfängt und endet, ignoriere deine "umms" und "ahhs"
  • passe den Ton jedes Wortes an ein Wort im Wörterbuch an und wähle den richtigen aus dem Kontext aus, falls vorhanden Homophone
  • richtig interpretieren die Bedeutung des ganzen Satzes
  • generieren Sie eine sinnvolle und nützliche Antwort, die Ihrer Anfrage entspricht.

Jede dieser Aufgaben ist eine komplexe technische Herausforderung, und verschiedene Technologieunternehmen haben in verschiedenen Bereichen Fortschritte erzielt.

Google Now ist gut darin, relevante Antworten auf eine Vielzahl von Anfragen zu geben, da es von den Google-Daten über das Internet und Ihre persönlichen Aktivitäten profitiert, wenn Sie Google-Dienste nutzen.

Amazon Echo ist besonders gut in der Lage, Ihre Anforderungen in einem lauten Raum dank eines geräuschunterdrückenden Fernfeldmikrofons zu hören. Natürlich ist es auch gut, Einkäufe über Amazon zu tätigen.

In den letzten Jahren haben Sprachschnittstellen die alltägliche oder "natürliche" Sprache viel besser verstanden als nur gestelzte und sorgfältig formulierte Befehle. Sie sind immer noch besser im Umgang mit einfachen Suchanfragen wie "Wer spielt in den Australian Open?", Und neigen dazu, mit komplizierteren Anfragen zu kämpfen, wie "Wer spielt dieses Jahr zum ersten Mal in den Australian Open?" Und Follow-up Fragen, wie "Wird es im Finale regnen?".

Bei anderen Sprachen als Englisch ist die Situation noch uneinheitlicher: Während Siri mehr als 40-Sprachen und Dialekte unterstützt, ist Alexa bisher nur in Englisch und Deutsch verfügbar. All diese Funktionen verbessern sich jedoch stetig.

Wo Sprachinterfaces stottern

So werden Voice-Interfaces bald unsere gesamte Technologie übernehmen, wie im Film vorhergesagt Die von ihr verfassten Bücher? Gartner, ein Technologieforschungsunternehmen, hat vorhergesagt bis zum nächsten Jahr werden 30% unserer Interaktionen mit Technologie Gespräche mit sprachfähigen Schnittstellen sein.

Sprachschnittstellen haben jedoch Einschränkungen, und nicht alle können durch eine bessere Technologie gelöst werden.

In Spike Jonzes Film Her ist Voice ein zentrales Mittel, sich mit der Technologie zu verbinden.

{youtube}ne6p6MfLBxc{/youtube}

Lärmbelästigung ist eine große Hürde. Kann Ihr Gerät das, was Sie sagen, von den Hintergrundgeräuschen in Ihrer Umgebung unterscheiden? Technologie kann dabei helfen, einschließlich Geräuschreduzierung, personalisierte Spracherkennung und Lippenlesen.

Aber was ist mit dem Hintergrundgeräusch, das Sie für andere erzeugen, wenn Sie mit Ihrem Smart-Gerät sprechen? Stellen Sie sich eine Person vor, die neben Ihnen im Büro oder in einem Flugzeug sitzt und mit Siri plaudert, während Sie versuchen zu lesen, und Sie können sehen, warum Sprachschnittstellen möglicherweise nicht immer sozial akzeptabel sind.

Eine weitere Reihe von Problemen kommt von den mentalen Anforderungen von Sprachschnittstellen. Die Verwendung eines sprachbasierten Systems kann schwierig sein, insbesondere wenn kein Bildschirm wie bei Amazon Echo vorhanden ist.

Wenn Sie jemals eine Bank oder eine Telefongesellschaft angerufen haben, kennen Sie die elende Kombination aus Konzentration und Langeweile, die aus dem Hören einer synthetisierten Stimme resultiert, indem Sie alle Ihre Optionen auflisten und versuchen, sie nicht zu mischen oben. Herkömmliche grafische Benutzeroberflächen vermeiden dieses Problem, indem sie Ihnen die verfügbaren Optionen zeigen und Sie schnell auf Ihre Auswahl tippen lassen.

Nachdem Sie Sprachbefehle gelernt haben, kann die Verwendung von ihnen ablenken. Forscher haben diese Sprachbefehle gefunden entgleisen Sie Ihren Gedankengang mehr als eine Maus und Tastatur.

Dies ist besonders gefährlich für In-Car Voice-Interfaces: Ein paar Studien der University of Utah fanden heraus, dass es Treiber waren abgelenkt für bis zu 27 Sekunden nach der Verwendung von Sprachbefehlen.

University of Utah / AAA-Stiftung für Verkehrssicherheit Forschung zur Fahrerdistraktion.

{vimeo} 108281698 {/ vimeo}

Seine Stimme finden?

Sprachschnittstellen werden wahrscheinlich nicht vollständig übernommen, aber sie werden nützliche Nischen in unserem Leben finden. Sie sind bereits in Autos üblich, wo sie hoffentlich weniger ablenken werden, wenn sich die Technologie verbessert.

In der Küche kannst du Alexa bitten, dir ein Rezept zu erklären oder deine Einkaufsliste zu aktualisieren, während deine Hände damit beschäftigt sind, zu kochen. In der virtuellen und erweiterten Realität können Sie mit Sprachschnittstellen das System steuern, wenn Sie Ihre Hände überhaupt nicht sehen können.

Beim Sprachenlernen können sie zum Üben der Aussprache verwendet werden. Am wichtigsten ist, dass Sprachschnittstellen Benutzern mit motorischen Beeinträchtigungen, RSI oder Dyslexie helfen, ihre Behinderungen zu überwinden.

Sprachschnittstellen sind eine lang erwartete Technologie, und es gibt gute Gründe zu glauben, dass ihre Zeit endlich gekommen ist. Denken Sie daran, dass sie vielleicht noch nicht so schlau sind wie sie klingen. Vielleicht möchten Sie einen PIN-Code für Sprachkäufe anlegen, wenn Kinder in der Nähe sind.

Das Gespräch

Über den Autor

Fraser Allison, Doktorand in Mensch-Computer-Interaktion, University of Melbourne

Dieser Artikel wurde ursprünglich veröffentlicht am Das Gespräch.. Lies das Original Artikel.

Verwandte Artikel

{amazonWS:searchindex=KindleStore;keywords=AmazonEcho" target="_blank" rel="nofollow noopener">InnerSelf Market und Amazon