Alexa est installée sur plus de 100 millions d'appareils dans le monde entier, acquérant ainsi des milliards de requêtes d'utilisateurs. Comme tous les assistants numériques, Alexa s'appuie sur des modèles de données pour offrir de meilleures réponses, mais il semblerait qu'Amazon ait également donné un coup de main à l'assistant numérique sous la forme de critiques humaines. Une enquête menée par Bloomberg a révélé qu'Amazon avait une équipe mondiale qui transcrivait et annonçait des enregistrements d'Alexa afin de "supprimer les lacunes dans la compréhension d'Alexa du langage humain" et permettre à l'assistant de mieux répondre à vos questions.
La publication a révélé qu'Amazon emploie des milliers de personnes dans le monde, sous-traitants et employés à temps plein, pour examiner les enregistrements Alexa, avec des équipes dispersées à Boston, au Costa Rica, en Inde et en Roumanie. Selon une source non nommée, chaque relecteur analyse plus de 1 000 clips audio sur une période de neuf heures, les annote et les renvoie au système afin d'améliorer les réponses d'Alexa. De Bloomberg:
Un travailleur à Boston a déclaré avoir extrait des données vocales accumulées pour des énoncés spécifiques tels que "Taylor Swift" et les annoter pour indiquer que le chercheur désignait l'artiste musical.
De temps en temps, les auditeurs ramassent des choses que les propriétaires d’Écho préféreraient probablement garder confidentielles: une femme qui chante mal sous la douche, par exemple, ou un enfant qui crie au secours. Les équipes utilisent des salles de discussion internes pour partager des fichiers lorsqu'elles ont besoin d'aide pour analyser un mot confus ou qu'elles trouvent un enregistrement amusant.
La publication a également révélé que les employés rencontraient des enregistrements de nature troublante:
Parfois, ils entendent des enregistrements qu'ils trouvent troublants, voire criminels. Deux des travailleurs ont déclaré avoir pris ce qu'ils croyaient être une agression sexuelle. Lorsque quelque chose comme cela se produit, ils peuvent partager l'expérience dans la salle de discussion interne afin de réduire le stress.
Amazon déclare avoir mis en place des procédures que les travailleurs doivent suivre lorsqu'ils entendent quelque chose de pénible, mais deux employés basés en Roumanie ont déclaré qu'après avoir demandé des conseils dans de tels cas, on leur avait dit que ce n'était pas à Amazon d'intervenir.
Les enregistrements ne comportent pas le nom complet ou l'adresse de l'utilisateur, mais ils incluent le prénom de l'utilisateur, un numéro de compte et le numéro de série du périphérique. Amazon a précédemment indiqué qu'elle utilisait le traitement du langage naturel pour former Alexa, mais elle a admis à Bloomberg qu'elle utilisait un élément humain pour annoter un "petit échantillon d'enregistrements vocaux Alexa:"
Nous prenons au sérieux la sécurité et la confidentialité des informations personnelles de nos clients. Nous n'annotons qu'un très petit échantillon d'enregistrements vocaux Alexa afin d'améliorer l'expérience client. Par exemple, ces informations nous aident à former nos systèmes de reconnaissance de la parole et de compréhension du langage naturel, ce qui permet à Alexa de mieux comprendre vos demandes et de veiller à ce que le service fonctionne pour tout le monde.
Nous appliquons des mesures de protection techniques et opérationnelles strictes et appliquons une politique de tolérance zéro en cas d’abus de notre système. Les employés n’ont pas directement accès aux informations permettant d’identifier la personne ou le compte dans le cadre de ce flux de travail. Toutes les informations sont traitées avec une grande confidentialité et nous utilisons une authentification multi-facteurs pour limiter l'accès, le cryptage des services et des audits de notre environnement de contrôle pour le protéger.
Ce n’est pas seulement Amazon qui se tourne vers des assistants humains pour développer son assistant numérique. Bloomberg a découvert qu'Apple avait également une équipe humaine qui vérifiait si l'interprétation des demandes par Siri correspondait à celle demandée par les utilisateurs. Google a des relecteurs qui forment l'Assistant, mais les clips ne contiennent aucune information personnellement identifiable et le son lui-même est déformé pour empêcher toute identification.