Voice-Assistant Extended

Conducted in Swiss-German

00:00 p1 Als du jetzt abgeschlossen hast, hattest du da auch Interviews geführt?

00:05 p2 Ich habe insgesamt fünf Interviews geführt.

00:09 p1 Mit Fokus auf den alltäglichen Gebrauch…

00:10 p2 Ja, alltäglicher Gebrauch

00:12 p1 …kommerzieller Gebrauch?

00:14 p2 Ich hatte Interviews mit jenen Menschen geführt, welche Ziel-Kund:innen von Google und Amazon sind. Also Menschen, welche solche Geräte aus lauter Neugierde kaufen oder weil sie zum Beispiel für das Smarthome interessieren. Dass sie über so ein Gerät die Musik steuern können, die Musikanlage, den Beamer oder das Licht zum Beispiel. Das waren so die ersten paar Interviews.

00:44 p1 Also schon recht viel weiter in der Technik dann, als der Standard-Bürger

00:49 p2 Ich hatte ein sehr spannendes Interview mit einem älteren Herr gemacht, welcher schon in Rente war. Bei diesem habe ich viel eher gemerkt, dass ist ein Mensch, welcher einen ganz anderen Bezug zu dieser Technologie hat. Weil er schon aufgrund seines Alters Bewegungseinschränkungen hat und auch nicht mehr so gut sieht. Ich habe dann gemerkt, eigentlich ist so eine Tastatur und ein Trackpad oder ein Maus und ein Bildschirm, dass ist ein typisches Design-Problem. Das sind Dinge die geschaffen wurden von Menschen wo able-bodied und neuro-typisch sind. Welche einen durchschnittlichen Zugang zu Technologie haben.

01:45 p2 Zu Beginn wäre es sicherlich interessant zu wissen, was deine Schnittstellen und Bedienelemente sind welche du in deinem Alltag brauchst.

02:00 p1 Bezüglich Spracherkennung?

02:01 p2 Mal ganz im Allgmeinen, vor allem in Bezug auf elektronische und digitale Geräte.

02:12 p1 Grundsätzlich brauche ich mein iPhone. Ich hatte ein MacBook, welches ich durch ein Microsoft Surface ersetzen musste wegem dem Spracherkennungsprogramm. Weil dieses für Mac nicht mehr entwickelt wurde. Was brauch ich noch? Böxli, Boombox, solche Sachen in Bezug auf Technik. Einige Sachen wurde mir noch angeboten, aufgrund meiner Einschränkungen hätte es noch andere Dinge gehabt, welche ich aber jetzt nicht brauche, weil ich zum Beispiel diesen Lichtschalter selbst bedienen kann, Storen selber betätigen kann, etc. Es wäre dann auch darauf heraus gelaufen, dass ich diese sprachlich bedienen kann.

03:04 p2 Darf ich rasch nachfragen, diese Software für den Surface, was ist das für eine Software?

03:08 p1 Dragon

03:09 p2 Das ist schon recht alt, respektive gibt es schon sehr lange.

03:14 p1 Das gibt es schon länger und seit 2018 wird es für Mac nicht mehr entwickelt.

03:21 p2 Für was brauchst du das Dragon in der Regel?

03:26 p1 Das Dragon brauche ich hauptsächlich auf dem Laptop, sonst hab ich es gar nirgends installiert. Um Mails zu schreiben, alles schriftliche. Ich kann aber grundstätzlich den ganzen Computer steuern mit dieser Software. Am besten funktioniert das mit Microsoft Produkten. Also Word, Excel und das kennt es alles. Natürlich musste ich lernen wie das alles heisst, wie das in der Software abgespeichert ist. Wie das programmier ist, und dann kann ich eigentlich alles ansteuern. Das brauch ich teilweise, mittlerweile, weil das schneller geht als wenn ich es mit der Hand versuche. Ich kann es einfach rasch sagen und dann ist er schon dort. Oder Programme öffnen mach ich dann mit Spracherkennung und gehe es nicht anklicken. Früher hätte ich es einfach angeklickt.

04:18 p2 Interessant, das müsstest du mir fast einmal zeigen, das wäre noch spannend reinzusehen.

04:22 p1 Darum habe ich es auch mitgenommen.

04:25 p2 Würdest du es mir rasch zeigen? Das fände ich jetzt noch spannend.

04:27 p1 Wenn du jetzt willst können wir das schon machen.

An dieser Stelle führt mit der Partizipant Dragon Dictate vor, welches er für die Steuerung des Computers sowie zur Diktation von Texten braucht. Ich transkribiere einzelne Sätze, welche ich als relevant ansehe und lasse andere Dinge weg.

05:12 p1 Was ich noch habe sind Tischmikrofone und Headsets, welche ich bekommen habe für die Spracherkennung.

05:33 Geh schlafen. (Befehl an die Software, sich in den Standby zu versetzen)

05:40 Da darf halt jetzt niemand reinreden. Das sind wichtige Punkte, welche ich nachher noch ausführen kann. Das sind wichtige Sachen welche auf die Lebenswelt Einfluss haben. Ich kann nicht in öffentlichen Räumen… Das Headset ist schon abgeschottet von anderen Dingen, aber grundsätzlich geht es nicht mehr. Ich kann mich nicht unterhalten und gleichzeitig hier weiter machen. Ich muss zuerst sagen: Geh schlafen, und kann mich erst dann mit anderen Menschen unterhalten.

06:16 Wach auf.

06:20 Neues Dokument.

06:24 Dokument öffnen.

06:28 Datei öffnen.

06:39 Neues Dokument öffnen.

06:45 Unterstreichen.

Es kommen noch eine Vielzahl von Befehlen um in einem Dokument Text zu diktieren und zu formatieren, sowie den Computer zu bedienen.

08:47 p1 Es braucht ein wenig Übung und du musst genau wissen wie du welche Befehe abzuwenden hast.

08:58 p2 Das war für mich jetzt sehr spannend, weil ich jetzt nicht erwartet hatte, dass das auf Deutsch funktioniert. Wie war für dich dieser Lernprozess mit diesem Dragon Dictate?

09:18 p1 Nun gut, da bin ich immer noch dran. Ich hatte es wärend der Reha ausprobiert auf Windows. Das ging eigentlich recht ok. Ich konnte relativ einfach Mails diktieren. Das war eine Umgewöhnung. Dass ich nicht irgendwie schreiben und gleichzeitg laut denken und dann Pause machen. Du musst wirklich sagen, geh schlafen, und dann kannst du nochmals überlegen.

09:59 p2 Ich hatte jetzt auch gesehen, dass der zeitliche Ablauf auch sehr interessant ist. Du musst immer auch verifizieren, dass das passiert ist was du wolltest.

10:10 p1 Das ist so, ja. Ich denke, dass wird aber mit der Zeit auch klarer. Manchmal kann ich Dinge sagen und auch wenn es noch nicht ausgeführt wurde, weiss ich, dass er mich da versteht. Dragon ist auch so, dass es eigentlich relativ lernfähig ist. Ich kann Dokumente einlesen lassen, dann liest er daraus alle Wörter die er kennt. Dann kann ich sagen, ok, lerne diese. Er versteht mich dann, wenn ich diese Wörter brauche. Er ist auch auf meine Stimme, meine Ausdrucksweise… Ich musste am Anfang einen Text vorlesen. Danach kannte er meien Stimme, dann weiss er wie ich intoniere, Zwischentöne, wie ich Pause mache, die Höhe.

11:15 p1 Aber es ist schon. Ich muss sehen, hat er mich verstanden, und wenn er es nicht verstanden hatte, dann muss ich alles rückgängig machen.

11:22 p2 Vor allem wenn auch ein wenig die Aktionen wechselst. Wenn du zum Beispiel nur am diktieren bist, dann kommst du vielleicht ein wenig rein. Aber vielleicht wirst du unterbrochen und musst etwas anderes machen und dann stockt es.

11:44 p2 Das heisst, dieses Dragon ist im Moment dein wichtigstes Tool für dich?

11:58 p1 Von der Technologie her auf jeden Fall. Das ist elementar. Für das Studium, um Mails zu schreiben. Beim iPhone habe ich die Spracherkennung selbst drauf. Dort erkennts es eigentlich sehr gut. Um SMS zu schreiben oder Mails zu schreiben ist das eigentlich auch gut. Ist eigentlich keine Steuerung, keine Sprachsteuern, aber eine Spracherkennung. Texte schreiben. Ich kann zum Beispiel jetzt keine Dinge markieren oder so, das geht nicht. Cursor hinter “dass” setzten oder Cursor hinter “Kopf” setzen, dass geht nicht auf dem Telefon. Hier, bei Dragon, ist die Navigation natürlich viel besser möglich.

12:45 p2 Machen wir doch gleich beim Smartphone weiter. Brauchst du dort auch andere Funtkionalitäten welche Sprachbasiert sind? Brauchst du zum Beispiel Siri.

13:02 p1 Nein die brauch ich nicht.

13:09 p2 Was mich sehr interessiert hätte, wäre der Unterschied zwischen einfacher Spracherkennung und Conversation-based. Das interessante an den Sprachassistenten ist ja, dass du mit ihnen sprechen kannst. Oder zumindest die Illusion hast, mit etwasem zu sprechen.

13:26 p1 Da ist das hier halt schon sehr mechanisch, das Dragon Program, sehr funktionell.

13:31 p2 Ich habe auch wie das Gefühl es muss ja auch nicht umbedingt ein gesprochenes Feedback kommen, sondern du gibst ja wirklich Instruktionen, dass etwas ausgeführt werden soll. Dann eine weitere Frage. Wie empfindest du… Also mit dieser Spracherkennung, mit diesem Dragon steuerst du einen Bildschirm, einen Mauszeiger steuern, ohne dass du die Maus bewegst. Was macht das mit dir? Es ist für mich wie ein hacky Umgang mit einem Input welcher für ein anderes Gerät hergestellt wurde.

14:21 p1 Spezifisch auf die Mausbewegung? Grundsätzlich ist es manchmal einfach mühsam. Weil es nicht so schnell, so einfach geht. Und nicht dorthin geht wo ich eigentlich will. Das hat einerseits mit der Übung zu tun und andererseits ich nicht flüssend sagen kann, wo er sich hinbewegen soll. Ich muss ihm sagen wohin er muss, das ist ein ganz anderes Denken das mir abverlangt wird, denk ich, für das Ziel dass man erreichen will. Sonst habe ich vielleicht auch eine bildliche Vorstellung, aber das Bild alleine reicht mir nicht in der Vorstellung, um es der Spracherkennung mitzuteilen. Wenn ich die Maus mit der Hand steuern könnte, reicht das natürlich. Dann muss ich nicht wissen, wie das heisst.

15:34 p2 Wirst du in diesem Prozess eigentlich unterstützt von der Reha oder nachträglich von anderen Institutionen?

15:43 p1 Ich hätte jetzt Unterstützung, ja, für das Program hier spezifisch. Aber ich möchte sie nicht.

15:50 p2 Was würden sie dir genau supporten.

15:57 p1 Tipps bei Steuerung, Erkennung, wie kann ich was machen, wie kann es etwas lernen. Wie kann ich das Program lernen, was kann ich ihm beibringen. Was sage ich am besten, wo sind die Grenzen. Was gebe ich am besten doch von Hand ein.

16:17 p2 Darf ich fragen, warum du die Hilfe nicht möchtest?

16:19 p1 Ich glaube, dass kann ich selber lernen.

16:22 p2 Das versteh ich gut. Das versteh ich sogar sehr gut.

16:32 p2 Ich hab mir mal noch folgende Frage aufgeschrieben. Inwiefern ist für dich die Mitbestimmung in der Ausgestaltung von Form und Funktion einer solchen Technologie wichtig? Respektive, wie empfindest du die Machtverhältnisse rund um die Gestaltung und Produktion von solchen Technologien?

16:57 p1 Für die zweite Frage, der Machtverhältnisse, kann ich nicht sehr viel aussagen. Ich bin froh musste ich hier nicht mithelfen um es zu entwickeln, dass es schon existiert. Das es schon vorhanden ist, und ich jetzt damit arbeiten kann. Aber Mitgestaltung von der Ausgestaltung, von der Form und von den Funktionen die es dann hat und wie ich damit umgehen kann finde ich sehr wichtig. Also dass das Program zum Beispiel hier ist um zu lernen mit mir zu arbeiten, dass es auf mich individuell fixiert ist. Das es lernt mit mir umzugehen und mich zu verstehen, und wie ich intoniere zwischen den Sätzen und wie ich Punkte setze. Das ist sehr wichtig, dass es lernt. Das es meine Stimme erkennt, dass es meinen Wortschatz kennt. Zum Beispiel auch Fachsprache. Es gibt auch extra Dragon für die Medizin, welches dann ein Fachvokabular schon drinnen hat. Das meine individuelle Ausdrucksweise und meine sprachlichen Eigenschaften erkennen und lernen kann. Das ist ein Zusammenarbeiten, dass das immer wie besser funktioniert und ich immer wie schneller und genauer. Das ich mich nicht korrigieren oder verstellen muss, damit es ankommt. Damit ich eigentlich normal sprechen kann und es kommt an.

18:37 p2 Aber das hat natürlich von dir auch Arbeit abverlangt, dass du dir diese Zeit genommen und investiert hast?

18:43 p1 Auf jeden Fall, ich muss Wörter, ich muss ihn lernen, muss ihn trainieren. Dateien einlesen, welche er lernt. Ich muss Mikrophone ausprobieren, wo stelle ich sie hin. Das hat für mich… Was für dich vielleicht noch interessant ist, vielleicht zweierlei. Einerseits habe ich keinen komerziellen Umgang mit dem hier. Ich habe einen spezifischen, ich muss etwas produzieren. Ich habe eine Einschränkung, für mich ist es nützlich. Ich habe nicht so Nebenbei-Umgang damit. Weil, wenn das hier so individuell lernt von mir, ist es schön auf mich abgestummen und dann bestätigt es mich eigentlich, meine Welt. Es kennt eigentlich keine andere Welt, es kann mich nicht kritisieren, quasi. Das geht dann nicht mehr. Im Komerziellen ist das sehr gefährlich, weil dann bestätigt es einfach die Welt und die ist dann so und die lebt man dann so. Aber hier, wenn man dann so auf spezifisches und auf Einschränkungen, Disabilities, usgrichtet isch, glaube ich ist man bewusster mit diesem Umgang. Klar muss es lernen, und klar muss es genau auf deine Bedürfnis ausgerichtet sein. Aber ich glaube diese Bedürfnisse sind dann viel bewusster gelebt, weil ich brauch das. Sonst komm ich nirgendwo hin. Aber im Komerziellen macht man ja im Alltag vielleicht nebenbei und dann hat das einen anderen Einfluss. Das ist also sicher noch zu unterscheiden von spezifischer Anwendung und disabilities oder spezifische Funktionen zu erfüllen und zwecksmässig oder einfach im Alltag integrierte Spracherkennung.

20:34 p1 Der Umgang ist einfach bewusster, mit der Welt die es dir aufzeigt. Mit dieser, quasi, den Suchsachen die es dir anzeigt. Dann zeigt es dir genau dass an, was du selbst auch finden konntest. Ich bin dann froh, wenn gewisse Sachen doch auch schon erkannt werden, weil ich sonst komplett umschalten müsste. Das Problem bleibt das gleiche, es widerspiegelt mich. Es ist ein Spiegel von mir in diesem Sinne.

21:31 p2 Ich persönlich verfolge auch viel eher ein Model, natürlich mit Abstufungen, in welchen Technologie nicht einfach etwas ist, was wir als Ding produzieren, was dann von uns unabhängig existiert. Es ist immer eine sehr verwobene Angelegenheit. Das wir aus bestimmten Gründen Technologie produzieren, und dass dann auch immer wieder ein Feedback auf uns hat und uns dann wieder verändert als Mensch. Ich seh das auch viel verwobener das Ganze.

22:14 p1 Da kann ich vielleicht auch noch etwas dazu sagen. Für mich hat diese Technologie, auf meine Lebenswelt, auf die umfassenden verwobene Lebenswelt, mit allen Sphären und allen Ebenen, welche wir uns hier vorstellen können… was für einen Einfluss dass das gehabt hatte ist extrem. Zum Beispiel vom Raum her, bin darauf angewiesen dass es ein geschlossener Raum ist, das mir niemand drein redet. Das heisst, dass meine Lebenswelt, wenn ich einen Text schreiben oder irgendetwas produzieren möchte, hört im geschlossenen Raum auf. Das ist dann mein Raum. Aussert ich habe die Türe offen und dann läuft einfach jemand rein und dann habe ich auch eine andere Lebenswelt.

22:57 p1 Dann sage ich Geh schlafen und dann ruft jemand und fragt warum ich schlafen gehe. Nein, nicht ich, er! Es hat einfach einen grossen Einfluss auf Kommunikation, was dann der andere Punkt ist, auf die Interaktion. Wie gehe ich damit um? Vom Raum her, ich kann nicht, unterwegs überall SMS schreiben. Weil mich alle hören. Ich kann nicht in einem Raum in welchem wir am warten sind und dann fange ich an SMS zu schreiben. Erstens können alle mithören. Das will ich vielleicht nicht, vielleicht stört mich das. Oder sie verstehen mich falsch. Da ist ja auch diese Irritation von Menschen mit Kopfhörern welche telefonieren, da ist man ja auch irritiert. Hier ist es einfach nochmals eine Stufe weiter, weil man SMS schreibt.

23:57 p1 Das andere ist dann die Interaktion. Ich muss die Türe schliessen, damit ich nicht mit anderen interagiere. Auf diese Lebenswelt hat es einen Einfluss. Ein grosser Punkt ist auch der Habitus an sich. Das Denken, die Emotionen, die Wahrnehmung. Da denke ich vor allem daran, wenn ich am Texte produzieren bin muss ich… Ich kann nicht laut denken und gleichzeitig schreiben. Ich muss es sagen, ich muss es aussprechen. Das ist eine ganz andere Denkform die hier benötigt wird um Themen zu erschliessen. Das ist eine andere Art und Weise wie heir vorgegangen werden muss. Das ist schon einschneidend, ich spüre diese Veränderung. Ich habe vorhin anders funktioniert. Ich habe anders Texte geschrieben.

25:15 p2 Das wäre auch eine Frage gewesen, wie sich alles so ein wenig verändert hatte für dich. Eine weitere Frage. Wie empfindest du das, dass du jetzt viel mehr auch mit diesem Objekt sprichst? Was ja eigentlich etwas ist, was zwischen Menschn geschieht. Das du jetzt viel mehr auch mit diesem Gerät sprichst, wo du ja keine Mimik hast.

25:57 p1 Für mich ist das halt schon sehr funktioniell.

26:01 p2 Dann ist es auch sehr klar, abgegliedert von zum Beispiel einer sozialen Interaktion.

26:10 p1 Weil es halt auch sehr technisch aufgebaut ist. Sehr mechanisch-technisch. Ich muss klar vorgehen mit Schritten, es ist sehr komplex. Ich muss nicht einfach das Licht anmachen oder abmachen. Es redet ja nicht mit mir, es interagiert in diesem Sinne nicht mit mir. Dann ist es für mich auch ein wenig schwerer vorstellbar eine Beziehung zu einem Gerät zu haben, weil es in diesem Sinne nicht direkt mit mir interagiert. Vielleicht passiv, weil es das macht, oder nicht macht, was sagen. In diesem Sinne habe ich keine wirkliche Beziehung dazu. Sondern es ist eher technisch und funktioniell.

26:48 p2 Das ist auch ein interessanter Aspekt. Es gibt verschiedene Schärfegrade. In der Regel muss mit einem Computer sehr präzise gearbeitet werden. Es muss genau das Knöpfchen getroffen werden, oder man muss ihm genau sagen, wohin er mit dem Mauszeiger gehen soll. Es gibt dann einen Prozess der Unschärfe. Als Beispiel gibt es bei Sprachassistenten die Möglichkeit Dinge sehr unscharf auszudrücken. Du kannst zum Beispiel die Satzstruktur verändern und das System versteht dich trotzdem noch. Es spielt auch keine Rolle ob du Grammatikalisch oder Rechschreibefehler machst. Dein Input funktioniert trotzdem. Aber der Output kann dann dafür genau so unscharf sein.

Ich erzähle dazu eine Anekdote und der Partizipand geht zum Schluss noch auf eigene Notizen ein.

28:59 p1 Das sind für mich essentiell die drei Ebenen: Habitus, Interaktion und vom Raum, bei welchen sich klar Veränderungen ergeben haben. Beziehung zum Gerät eigentlich nicht, sondern mein Verhalten. Mein Habitus, mein Denken, Agitation, Wahrnehmung, Emotionen.

29:25 p2 Da markt man dann auch, dass so ein Gerät nicht für sich alleine steht, sondern auch in einer Umgebung eingebettet ist oder in einer Lebenswelt.

29:31 p1 Und auch gewissen Wahrnehmungsstrukturen generiert. Oder ermöglicht oder im Wegen steht. Das ist auf jeden Fall, das hat sich stark verändert. Da merke ich, wie stark dass das einen Einfluss hat. Darum finde ich dass auch so wichtig, dass Thema, dass du das so angehst. Weil das immer auch so unterschätzt wird, man separiert es. Die Naturwissenschaften sind auch immer so separiert. Das habe doch keinen Einfluss auf unser soziales Leben, das hat ja nichts mit dem sozialen zu tun. Wenn du aber von Bias und Algorithem und Reproduktion des Bias sprichst. Die lernen das ja nicht, die haben keinen Gerechtigkeitssinn.

30:16 p2 Ein Computer macht und sagt in der Regel genau das, was du von ihm willst. Manchmal ist es einfach ein wenig komplexer, bis man merkt, dass man etwas falsch gemacht hat.

30:28 p1 Adorno dreht sich im Grab!