Voice Assistant Basics

Conducted in Swiss-German


00:00 I: Ab jetzt nehmen wir auf. Und es spielt auch keine Rolle wenn jemand rein redet. Das ist wirklich nur, damit ich nachher reinhören kann.

00:06 O1: Schönen Abend.

alle Anwesenden verabschieden sich von O1

00:09 I: Gut, der erste Begriff den ich dir gebe ist Nachhaltigkeit.

00:14 P: Da soll ich Assoziationen dazu machen, oder?

00:16 I: Du darfst, also wirklich, was dir dazu einfällt.

00:21 P: Ist sehr positiv besetzt. Find ich cool, ist auch modern. Neue Techniken, Features, anders machen als vorher. Ja, für mich ist alles was mich interessiert momentan, fällt mit Nachhaltigkeit zusammen. Mit Tesla zum Beispiel, ich bin eben auch ein wenig mehr online, mehr Homeoffice, mehr ja, digital alles. (sustainability as positive, corona lockdown, sustainability is future)

00:44 I: Dann ist Nachhaltig bei dir auch, wenn ich das richtig heraus gehört habe, ein wenig mit Innovation verbunden?

00:48 P: Definitiv ja.

00:51 I: Nächster Begriff, das wird dir gefallen, Unterhaltungselektronik.

00:55 P: lacht Das ist für mich eigentlich negativ besetzt. Weil, das ist für mich eigentlich so Fernseh und Videorecorder. Also, genau. Für mich, der Begriff, weil das ist so ein alter Begriff. Der ist so richtig, ok, das ist so ein Audio-Elektronik-Fachgeschäft. Voll. Genau, aber das ist für mich etwas anderes zeigt auf seine Technik, so. VR (virtual reality) und so… (entertainment electronics as negative, entertainment electronics are past)

01:16 I: Du darfst auch rein rufen meint O2

alle lachen

01:17 O2: Unterhaltungselektronik, come on zeigt ebenfalls auf Technik. (what are consumer electronics)

01:20 P: Aber der Begriff ist so altmodisch.

01:21 O2: Come on!

01:22 P: Der ist so altmodisch!

01:23 I: Vielleicht wurde er von mir ja auch falsch gewählt, das muss natürlich auch gesagt sein.

01:25 P: Gut, ja genau, aber sonst natürlich, ich meine…

01:30 I: Weisst du, es gibt ja diese Übersetzung. Es gibt consumer electronics

01:33 O2: Ja, das ist wenn…

01:35 P: Dann denk ich aber fast noch an einen smarten Kühlschrank oder so. (what are consumer electronics)

01:39 O2: Ja, das stimmt, ja

01:40 P: Für mich ist so, irgendwie, ich möchte ja keine Unterhaltung. Ich möchte eigentlich Technik, welche mich… ein iPad ist für mich keine Unterhaltung. Das ist ein Werkzeug, für mich mit welchem ich arbeite und tu. Ja, auch eine VR-Brille ist nicht nur, einfach nur Unterhaltung. Es ist irgendwie neue Sachen ausprobieren und nicht nur einfach Entertainment. Es ist viel zu passiv dann. (what are consumer electronics, entertainment is passive)

01:59 I: Hättest du ein Wort, welches besser passt für das, was du hier in deinem Zuhause machst?

02:05 P: Ja gut, das heisst ja Smart-Home oder, so Zeugs irgendwie… (smart is not entertainment)

02:09 O2: Gaming

02:10 P: Ja aber ich game ja fast nie, wenn dann spiel ich eher, ich schaue, wenn ich kann…

02:15 O2: Du spielst doch, das stimmt doch nicht.

02:15 P: Aber ich probiere es nur aus, ich spiele nicht wirklich durch. Ich hab noch nie ein Spiel fertig gespielt eigentlich. Praktisch fast nie. Ich probiere nur aus. (testing games is not gaming, entertainment is not smart)

02:23 O2: Das geht auch unter spielen

02:24 P: Es ist eher Bewusstseinserweiterung, um zu sehen in welche Welt kannst du noch eintauchen. Und darum ist VR cool. Darum ist ein grosser Fernseher cool. Ja so was. (discussing conciousness, expanding conciousness)

02:36 I: Jetzt kommt ein schwieriger Begriff, und zwar Beziehung.

02:41 P: Mit Geräten oder mit Personen?

02:44 I: Wie du möchtest.

02:47 P: Ja Beziehungen, ja.

02:48 O2: Beides

02:49 P: Hast du zu allem irgendwie und die kann positiv, negativ, fest, wenig fest, kann alles mögliche sein. Die ist ja, die gibt es. Die kannst du ändern, ja.  (relationships are omnipresent)

03:04 I: Also, das war perfekt, herzlichen Dank. Das sind Rahmungsfragen. Basics, und zwar kannst du hier ziemlich ausholen. Und zwar, wie und wann hast du deine ganzen Geräte erworben.

03:24 P: Vor allem halt, als wir in dieses Haus eingezogen sind. Da haben wir wirklich gedacht, wir hatten hier alte Lampen, Glühbirnen und so, Halogenspots, welche Strom gebraucht haben. Da haben wir gesagt, was tun wir da rein, gerade Smartbulbs, halt haben wir gesagt Ikea hat ein super Tradfri System. Das ist günstig und flexibel. Da haben wir gleich überall die reingemacht. Jetzt haben wir glaube ich 140 Ikea Draht-free Devices. Und das ist ein Problem, weil ich bin glaube ich einer der eines der grösste Netze hat und darum gibt es überall Probleme an allen Ecken und Enden. Weil es nicht für das ausgelegt ist. Philipps (Philipps Hue) ist auf 50 Geräte ausgelegt. Das heisst, ich müsste scho drei Hubs haben um dieses zu integrieren. Und dann eben, wie steuerst du diese? Du sieht da so hässliche Remote-Schalter, weil die originalen Schalter kannst du nicht brauchen für das. Darum haben wir einfach den hinteren Schalter abgehängt und direkt den Remote hingemacht und um diese zu steuern kannst du auch die Alexa brauchen oder das Handy oder irgendwas. Und jetzt versuche ich halt überall ein wenig zu integrieren. Geräte zum steuern, Geräte um Sachen damit zu machen. (home automation as optimizing, problems with software ecosystem, ugly devices, home automation integration, home automation statistics, automated light)

04:25 I: Und dann hast du diese, hast du die Alexas, gleich alle, also die Echos, gleich alle zusammen gekauft.

04:30 P: Nein, ich hab mal eine zum probieren. Und die eine ist super, hat super funktioniert. Genial gewesen, wirklich. Konntest du in der Küche flüstern nach hinten “Alexa, Küche ein”. Ist gegangen, und dann habe ich mal zwei, drei mehr gekauft. Und dann wurde es immer schlechter und letzten Herbst hatte es angefangen zu stocken. Und dann hatte ich auch im Netz gelesen, dass andere gesagt haben, auf einmal hatte es angefangen dumm zu tun. Jetzt musst du wirklich zum Teil, nein, muss ich schreien. Muss ich zwei Meter vor der Alexa stehen und sie anschreien, das sie hört. Irgendetwas ist kaputt gegangen, und ja, weiss noch nicht was. Es funktioniert so halb aber es ist viel schlechter jetzt als vorher. (assistant was great, user must scream, assistant cant hear, exchanging information on assistant)

04:59 I: Meinst du das liegt an gewissen Software Updates?

05:03 P: Wahrscheinlich. Weil, das läuft ja alles über den Alexa Server. Da hast du keinen Einblick. Weisst du nicht, was jetzt geändert wurde oder so. Kannst du nicht drauf gehen, auf die Versionen. Ja eben, stehst du vor einer Alexa und die drei Zimmer weiter sagt, ja was war. So Zeugs, genau. Jetzt ist halt, wenn du mehrere hast, geht es gleich nicht mehr so gut. (device simply part of larger system, missing insight inner workings, assistant cant hear, problems in scaling)

05:19 I: Ja, das ist, das wäre sicher mal spannend um in das System rein zu sehen. Was da genau passiert.

05:24 P: Genau.

05:27 I: Die nächste Frage wäre, wieso genau diese Geräte und nicht Konkurrenz.

05:38 P: Genau, also bei den Lampen zum Beispiel, Hue, wollte ich eigentlich Hue. Aber das wäre zu teuer geworden. Jetzt haben wir 2500.- Franken ausgegeben, nur für die Lampen, für die Birnen. Und mit Hue wäre es etwa 5000 - 6000.- Franken gewesen. Ja jetzt ok, die können das gleiche und warum, bringt einfach nichts. Und eben die Limitierung war noch, von die Ikea könnte eigentlich mehr als Philipps aber ich hätte halt gerne Philipps gehabt. Alexa einfach, Google Home hab ich jetzt auch einen zum testen, und der kann nicht mal integrieren mit diesen Lampen die ich jetzt habe oder so. Da musst du noch Zwischen-Dinger brauchen. Wär glaube ich besser beim Zuhören ein wenig noch. Wär noch ein wenig gescheiter. Aber, zum Steuern der Smarthome-Sachen ist er ein wenig schlechter. Und Siri kannst du komplett vergessen. lacht (home automation statistics, automated light, problems with software ecosystem, problems with hardware systems)

06:21 I: Schnell eine in-between-Frage. Und zwar, Alexa ist ja kein Problem wenn mehrere Leute sprechen, also verschiedene Stimmen. Und weisst du ob das bei Google Home…

06:33 P: Du kannst bei allen auf die Stimme trainieren. Also Alexa kannst du jetzt auch sagen, er soll sich die Stimme merken. Google auch und Siri hatte es glaube ich auch gehabt. Genau, aber ich glaube die haben beide jetzt nachgerüstet. Also könntest du sagen, söll einfach die Stimme erkennen. Du kannst immer noch mit einer anderen Stimme sprechen, aber dann erkennt er dich einfach automatisch. (recognition of person)

06:50  I: Also kannst du den User daran binden

06:51 P: Ja genau

06:55 I: Dann, die nächste Frage wäre, wie oft sind diese Geräte bei euch im Gebrauch?

07:01 P: Alle Smarthome-Sachen oder nur die Alexas und so.

07:03 I: Nur die Alexas.

07:04 P: Nur die Alexas, ok. Die Alexas haben wir, wie oft, also ich lass die Läden dreimal runter am Tag, rauf und runter. Dort. Dann, wenn wir Fernseh schauen, brauchen wir es sicher fünf, sechs Mal um das Licht ein und aus zu schalten, heller machen, dünkler machen. Immer sobald wir raus in den Garten gehen brauchen wir es. Wenn ich in der Kamera sehe, dass meine Mutter vor der Türe steht, mach ich die Türe auf mit dieser. Ah, wenn die Waschmaschine fertig ist sagt Alexa das auch immer. (usage frequency, home automation as security, controlling the light, informed on the state of the home)

07:28 O3: Ja, stimmt

07:29 P: Nur als Ausgabe. Oder der 3D-Drucker ist fertig. Oder die Sauna ist heiss, dann sagt Alexa auch, die Saune ist bereit. Sozusagen, ich würde jetzt sagen 20 bis 30 Interaktionen am Tag. Sowas. (informed on the state of the home, controlling the home, controlling the sauna)

Gemurmel im Off

07:45 I: Und sind diese Interaktionen vor allem funktioneller Art und Weise, oder auch gesellschaftlicher? Also wenn du jetzt zum Beispiel Gäste hast und man hat ein wenig getrunken. Weisst du, wird dann ein wenig mit Alexa gespielt?

07:59 P: Ja, klar, also aber nur von den Gästen. Ich meine, die Gäste kommen hier her und sagen “Alexa, Timer 4 Uhr morgens”. Solche Sachen machen sie dann. (joking with, through or about assistant, setting a timer, misuse of assistant)

lachen, Gemurmel im off

08:08 P: Wir brauchen sie eigentlich nicht für das, genau.

08:12 I: Alexa, zeig mir alle Timers… Dann die nächste Frage wäre, was sind Hindernisse im täglichen Gebrauch von diesem Gerät.

08:24 P: Ja, halt wirklich das Alexa extrem schlecht zuhört, dumm ist, nichts lernt. Wirklich idiotisch ist zum Teil. Ich habe die Lampe “Auffahrt-Beleuchtung” dort hinten. Das hatte lange funktioniert, und plötzlich ist es nicht mehr gegangen. “Ich kenn kein Gerät namens Auffahrt-Beleuchtung”. Ah, sie kennt nur noch “Auffahrts-Beleuchtung”, mit S. Ernsthaft, musste ich die Lampe umbenennen, danach ist es wieder gegangen. Solcher Scheiss, oder. Oder ich musste jetzt, die Rollläden, musste ich mehrere Szenen machen, “Rollläden hoch” und “Rollladen hoch”. Weil er hat immer das andere verstanden. Und dann “Ich kenn kein Gerät namens Rollladen”. Ja, musste ich einfach beide machen. So Zeugs, also es ist wirklich halt, sie lernt nichts dazu. Du kannst 100 Mal “Rollläden hoch” sagen und beim nächsten Mal sagt sie “Ich kenne kein Gerät namens Rollläden”. (assistant cant hear, assistant is stupid, assistant doesnt learn, controlling the window blinds, assistant forgets], setting up home automation, feeling frustration, assistant misunderstands, unintended changes in settings. assistant was better)

09:05 O2: Also ist nicht wie Siri? 

09:08 P: Sie ist noch schlechter. Sie kann viel schlechter.

09:13 I: Aber, ist das, denkst du, ist das eine rein sprachliche Barriere? Ich meine jetzt im Bezug auf Dialekt.

09:24 O2: Ja, das habe ich mich auch schon gefragt.

09:25 P: Aber hier nicht. Also eben, Auffahrts-Beleuchtung, Auffahrt-Beleuchtung. So geht es aber nicht. Und vorher ist es mal gegangen und nachher nicht mehr. So Zeugs. Oder, ich meine, wenn du irgendwie sagst, ja, “Flutlicht ein”. Und dann “Ich kein Gerät namens Flutnicht” (mit n). Ja, aber das findest du doch selbst heraus, was das nächst näherliegende ist, oder? lachen (assistant misunderstands, commands worked before, controlling the light, assistant should know better)

09:47 I: Also keine Fehlertoleranz.

09:48 P: Ja, voll nicht, genau.

09:53 I: Gut, die letzte der Basic-Fragen wäre noch, wie fühlt sich die Interaktion an?

09:59 P: Wie mit einem dummen Hund, der nicht hören will was ich sage. Manchmal ist es cool wenn es macht, und dann denkst du wow super, er hat es geschafft! Brav, brave Alexa. Und sonst, ich sag oftmals einfach mal “Alexa, du Nutte”. Einfach so, einfach zum ein wenig, ah du dummes Ding. Genau. (stupid as a dog, assistant is stupid, sexism towards assistant, insulting the assistant)

10:21 I: Ja, als ich kam hatte ich etwas gesehen und zwar. Wie heisst deine Partnerin?
10:27 P: Rahel.

10:28 I: Rahel. Sie hatte gesagt “Alexa, we’re watching television”. Aber, ihr habt kein television, es ist nicht Fernseh geschaut worden. Ist das einfach eine Szene, sozusagen? (misuse of assistant, conditioning the behaviour of user, issued commando)

10:38 P: Ja, genau, ist eine Szene genau. Da haben wir einfach eine Lampe dort hinten eingeschalten, hier abgeschalten. Da nur zwei Lampen um auf die Toilette gehen zu können. So, dass einfach ein wenig Abendstimmung. (home automation scenes, controlling the light, controlling the home, scenes and routines)

10:47 I: Das ist noch spannend. Weisst du, so als Code für… Eigentlich möchtest du ja nicht Fernseh schauen, sondern…

10:52 P: Genau! Aber wir haben es für das gebraucht. Für das ist es super. Ja genau. Und das ist eine Routine und ich lasse sie jeweils noch “Viel Spass” sagen, am Schluss, oder. Dann sagt sie “Viel Spass”. Oder du kannst fragen “Alexa, wer ist die schönste im ganzen Land”, dann sagt sie “Natürlich du Rahel”. Das ist auch eine Routine, welche du anlegen kannst. (making interaction pleasant, assistant as magic mirror, scenes and routines)

11:08 I: Ok, gut. Narration. Ich kann dir das ein wenig erzählen. Vielleicht ist es auch völlig langweilig. Die erste Bitte an dich wäre, das du versucht, in eigenen Worten dieses Gerät zu beschreiben. Welche Aspekte dir davon in den Sinn kommen, dass überlasse ich dir. 

11:34 P: Beschreiben etwas unverständlich oder?

11:36 I: Nein, wie du dieses Gerät empfindest, was das für dich ist, wie es aussieht, wie es sich anfühlt.

11:43 P: Also eigentlich finde ich, es wäre von der Idee her, wäre es so etwas wie der Computer bei der Enterprise, bei dem du irgendetwas fragen kannst und sagen… Das wäre so die Wunschvorstellung. Und da ist es schon sehr weit weg, eigentlich, davon. Und ich brauche es wirklich eigentlich für Convenience. Das ist nicht irgendwo hin laufen muss um an der Wand einen Schalter zu drücken, sondern halt sitzen bleiben oder irgendwo und rufen. Für mich ist es einfach wirklich ein besserer Schalter und noch ein Lautsprecher für Commandos welche ich ausgeben möchte. Sozusagen. Ich brauche sie sonst eigentlich gar nicht. Also hätte ich das ganze auch gerne nicht Cloud-gebunden, sondern nur lokal. Weil das ist so ein wenig das, was ein doofes Kribbeln verursacht. Denkst du, hey, warum geht das alles immer raus und warum kann ich nicht alles lokal behalten. unverständlich Und eben zum Teil sind es wirklich, blanker Hass, wenn du einfach denkst, verdammt, wieso begreifst du das jetzt immer noch nicht? Warum hörst du mich jetzt nicht? Warum die andere und nicht diese? Und, ah, mach endlich! Ja, genau. (interaction should be scifi, convenience through automation, being able to be lazy, device as microphone, privacy issues with cloud, feeling hate, feeling frustration)

12:37 I: Ich seh schon, das weckt Emotionen

12:39 P: Ja, ja voll. 

12:42 I: Bezüglich Cloud, hast du dir da mal mycroft angesehen?

12:45 P: Nein

12:46 I: mycroft ist ein Open Source Voice Assistant. Sie haben zwei recht popplige Geräte. Aber du kannst, also es ist ein ganzes Ökosystem. Du kannst es zum Beispiel auf einem Raspberry Pi installieren.

12:57 P: Ok, ja!

12:58 I: Und dann so wie Skills. Du kannst es via Python programmieren und du kannst zum Beispiel Skills installieren, wie zum Beispiel das Wetter. Also das Wetter ist ein Skill.

13:06 O2: Oh, und wie heisst das?

13:07 I: mycroft

kurzes Durcheinander beim Buchstabieren

13:17 I: Und ich hatte diesen Sommer ein wenig damit experimentiert. Das war recht witzig. Weil du kannst zum Beispiel… Der hat nachher so ein Voice Model. Und das kannst du dann auch wieder trainieren, via GPT2. unverständlich Da kannst du Literatur reinwerfen und dann redet halt dein Assistent according zu der Literatur welche du reingeworfen hast. Und halt nicht cloud-based, sondern ist dann alles auf dem Gerät und ist glaube ich ein recht cooles Projekt.

13:52 P: Denk ich ist voll geil. Nur ist es dann wieder ein Projekt mehr. Ich habe noch ganz viele Devices hier welche ich auf andere Open Source Firmware umflashen will, wozu ich immer noch nicht gekommen bin. Und da musst du nachher, jetzt hab ich wirklich Skills von allen Schaltern. Da kannst du sagen, da verknüpfen mit Alexa und nachher funktionieren sie. Wahrscheinlich ist es, bis das wieder läuft ist ewig. Da kommst. (home automation is work, problems with software ecosystem)

14:08 I: Ja, ja. Es ist mega cool zum rumnerden, aber es ist nicht produktiv. 

14:14 P: Ich suche noch jemand der Smart-Home, solche Sachen administrieren und aufsetzen und so kann. Weil, immer alles selber machen ist langsam ein wenig streng. 
14:21 I: Voila, musst du jemand anstellen.

14:22 P: Ja eben.

14:24 I: Heutzutage stellst du nicht mehr eine Putze an, sondern …

14:26 P: Ja genau, Smart-Home-unverständlich

14:29 I: Der kommt dann für 20%

14:34 I: Gut, hast du ein richtig bleibendes Erlebnis mit diesen Geräten gehabt?

14:41 P: Hmm… Ich habe sie mal gekickt, weil sie so genervt hat. Das ist das einzig bleibende Erlebnis. Aber ist eine 3D gedruckte Halterung welche ich selber flicken konnte. (doing violence to device)

14:53 I: Das ist lustig, weil die Partizipandin gestern hat erzählt, dass sie sie aus Versehen mal fallen lies

15:00 P: lacht ich kicke sie extra! (doing violence on purpose)

15:04 I: Und du hast sie gekickt. Wäre das auch etwas was du anderen Menschen erzählen würdest, wenn sie dich zu Alexa fragen?

15:11 P: Ja, ja klar. Wär schön wenn es wirklich eine Reaktion, ich meine, ich sage so oft “Alexa, du Arsch”. Und es gibt einfach keine Reaktion. unverständlich Da muss doch gleich ein Bug Report losgehen und sagen hey, da ist doch wirklich ein Scheiss passiert. Aber es passiert nichts. Und das ist frustrierend. Du kannst sie zusammen scheissen wie du möchtest, es passiert nichts. (artificial communication, expecting different reaction, expecting human reaction feeling frustration, insulting the assistant)

15:27 O3: Hat sie nicht früher gesagt “Das ist aber nicht nett”

15:30 P: Bei Nutte. Aber nicht bei du Arsch. (insulting the assistant)

unverständlich

15:34 P: Ja genau. Aber es passiert nichts. Aber es muss, so ein Gerät muss auf so etwas reagieren. Oder auch, eben wenn du sie kickst muss eine Reaktion kommen. (expecting different reaction, expecting human reaction)

15:43 I: Ja. Also, es hat ja keinen Gyroskop drin. 

15:50 P: Kost ja nichts. 

15:53 I: Letzte Frage, letzte Frage, wie sieht eure Zukunft aus?

lachen

16:00 P: Willst du jetzt die ganze Utopie von der Welt mit Klimawandel und Bürgerkrieg wissen oder?

16:04 I: Nein, nur zwischen dir und den Geräten.

16:07 P: Und der Alexa. Also momentan sind es halt wirklich nur bessere Schalter. Ich hoffe, dass wird irgendwann noch ein wenig anders. Vielleicht kommt etwas neues, etwas besseres oder so oder diese Geräte werden sinnvoller. (convenience through automation)

16:22 I: Eine offene Zukunft sozusagen.

16:24 P: Ja, ja aber eben. Leider geht es sogar zurück. Ist mir besser gegangen als jetzt.

16:32 I: Ja, weil ich bin eben noch in so einem Forum aktiv, mit Echo-Nerds. Die haben so 10 bis 20 Geräte zuhause. Und das ist sehr spannend mit diesen auch ein wenig zu diskutieren. Weil diese sind auch sehr auf Funktionalität. Und da gibt es auch einen, der sehr viel Einblick in die Software hatte und ich hoffe, dass ich noch an diesen rankomme. 

16:53 P: Ja, weil eben, es wäre sehr cool, du siehst, du suchst in einem Forum und es sagen andere, ja, auf einmal hat es nicht mehr gut reagiert. Und es gibt kein Feedback.

17:03 I: Gut, merci. That was it.