Más o menos he respondido a esto aquí: ¿Será Alexa capaz de «recordar» todo lo que le he dicho a «ella»? (¿Guarda Amazon registros de audio a los que una Alexa más evolucionada podría acceder y «aprender» de ellos?) y aquí: ¿Debería preocuparme que Amazon Alexa grabe y guarde las peticiones de mi familia, incluidos mis hijos?
Se hace mucho ruido con esto. Y eso es bueno, esto debería preocuparte. Creo que en estas preguntas hay unas cuantas suposiciones que hacen los profanos, es decir, la gente que no está tan familiarizada con el funcionamiento de este tipo de tecnología, que no son realmente ciertas. La principal es la idea de que Amazon o Google podrían escuchar todo a través de estos dispositivos sin que nadie lo supiera, y la segunda es que podrían hacer que esa información fuera útil. En el estado actual de desarrollo de la tecnología comercial, la primera hipótesis no podría ser cierta y la segunda es muy improbable. (Facebook en el teléfono es otro ejemplo, aunque esto se debe a su eficacia en la recopilación de datos y la búsqueda de probabilidades estadísticas entre las poblaciones con el fin de inferir eficazmente los intereses y la superficie de los anuncios, combinado con el sesgo de confirmación)
En cuanto a la recopilación de toda esta información, no hay una forma razonable de hacerlo sin: causar un aumento notable en el uso de la CPU en el dispositivo o el uso de ancho de banda en la red. En el caso de Echo sabemos lo que hay en el dispositivo, y no tiene suficiente potencia para realizar una conversión precisa de voz a texto en todos los casos, es una de las razones por las que los datos se envían a los servidores de la nube para su comprensión. Así que tendría que enviar los datos de audio a través de la red, lo que puede ser fácilmente supervisado. Si estuviera enviando todo lo que dices, enviaría datos por la red todo el tiempo. Esto es fácilmente observable y expertos independientes lo han probado y han confirmado que no es así. Puede comprobarlo usted mismo con herramientas de software gratuitas en su propia red. El dispositivo está programado para detectar la palabra de despertador y sólo envía el audio que se dijo alrededor de la palabra de despertador.
En cuanto a hacerlo útil, no puedo ni imaginarlo. Teóricamente podría haber suficiente capacidad de procesamiento total para hacerlo, pero es difícil imaginarlo a escala. Hay una razón por la que pusieron una palabra de despertador en primer lugar, y aunque parte de eso puede ser la privacidad, la razón principal es simplemente la necesidad. También creo que estas empresas tienen pocos incentivos para espiar así en la mayoría de los casos. Podría ver el espionaje selectivo en nombre de un gobierno o tal vez la piratería informática (aunque espero que esto sea excesivamente difícil fuera de las situaciones en las que la red local o el espacio físico no estén ya comprometidos de todos modos).
Hacer esto movería MUCHOS datos a la nube que tendrían que procesar para hacerlos útiles. Por ejemplo, sería difícil que el dispositivo escuchara mientras la música se transmite a través de él y no recibiera también la música. Digamos que se puede pasar de voz a texto para poder analizarlo, ¿y luego qué? ¿Buscar palabras clave para poner anuncios? La mayoría de la gente ya les da estos datos legalmente a través de aplicaciones y sitios web, ¿por qué arriesgarse a una acusación de fraude electrónico y a la mala voluntad mundial? Amazon perdería la mitad de su base de clientes de la noche a la mañana. Es demasiado arriesgado y no creo que el incentivo esté ahí de todos modos, incluso si la capacidad de manejar esta escala de información está disponible. Por no hablar del talento de programación para utilizarla. El aprendizaje automático no es una inteligencia general, es una forma de tomar decisiones en un espacio estrecho con un conjunto estrecho de criterios. En el fondo, fuera de la función NLP/NLU, la mayoría de las habilidades y funciones de Alexa son simplemente código de procedimiento escrito por un humano. Tendrías que hacer que todos estos datos fueran útiles, la máquina no lo hace por ti.
Si eres un espía internacional o un jefe de la mafia, claro, sé paranoico, pero el ciudadano de a pie no tiene de qué preocuparse y hay vigilantes por ahí que harán sonar la alarma en cuanto lo hagas.
Dicho esto, es como muchas tecnologías. Es un intercambio. Si no es para ti, si no añade valor a tu vida, ¿por qué comprarlo? Si crees que lo hará, pruébalo, yo digo que no te preocupes tanto por si te están espiando o invaden tu privacidad. Siempre puedes desconectarlo si necesitas hablar de dónde están enterrados los cadáveres.
Oy esta desinformación tiene que parar.
En primer lugar lo que pienso como desarrollador web con un gran interés en la tecnología y los gadgets, ya que eso es básicamente la verdadera pregunta. Google home y amazon echo son fabulosos. Tanto Google como Amazon han creado productos que equilibran bastante bien la privacidad y la funcionalidad.
Ahora para ayudarte a quitarte el sombrero de papel de aluminio que te ha proporcionado info wars:
Tanto google home como amazon echo funcionan de la siguiente manera – El dispositivo graba continuamente el audio, utilizando un software en el dispositivo para detectar la frase de activación, si la frase de activación no se detecta la grabación se borra. Esto ocurre continuamente hasta que se detecta la frase. Una vez detectada la frase, el dispositivo continúa grabando hasta que está seguro de que la fuente de la frase de activación deja de hablar – ese clip de audio se envía a los servidores de la empresa.
Para facilitar la explicación, digamos que el usuario pregunta «qué tiempo hará mañana».
En el lado del servidor esto es lo que sucede (esto es una simplificación intencional):
El audio se transcribe a texto utilizando un algoritmo de aprendizaje automático.
El texto transcrito se envía a un programa de aprendizaje automático que intenta discernir la intención del usuario a partir de lo que se ha dicho, buscando las palabras clave que suelen transmitir la intención
«qué» el usuario está haciendo una pregunta
«El tiempo» el usuario quiere un informe meteorológico
«Mañana», el usuario pregunta por el día de mañana.
Si se juntan las intenciones, se sabe que la mayoría de las veces el usuario quiere una respuesta relacionada con el tiempo.
La transcripción y/o las intenciones se envían a un programa de ML centrado en el tiempo, que las toma y sabe estadísticamente que el usuario quiere un informe meteorológico general para mañana cuando se utilizan «tiempo» y «mañana». El programa extrae esos datos de la api de información meteorológica de la empresa, y pasa al siguiente algoritmo una cadena de texto generada a partir de los datos meteorológicos recibidos por la api: «Mañana hará sol todo el día con una máxima de 70 y una mínima de 60».
El siguiente programa ML convierte el texto en audio, comúnmente conocido como programa de texto a voz.
El archivo de audio se envía al dispositivo y se reproduce al usuario.
Volvemos a la cuestión de la escucha permanente. El micrófono del dispositivo actúa como una oreja desconectada del cerebro, siempre está captando el audio pero si no detecta la frase o algo que suena lo suficientemente cerca, no envía la señal a su cerebro (el servidor).
Hay algunas buenas razones para ello: si todos los millones de dispositivos grabaran constantemente y enviaran el audio a los servidores, éstos se verían rápidamente desbordados por los enormes archivos de audio que tendrían que procesar y, en su mayor parte, tirar a la basura porque el usuario no estaba intentando hacer nada, el internet de todos los hogares sería rediculamente lento ya que estos dispositivos estarían subiendo terabytes de datos al día. La capacidad de la empresa para responder a las solicitudes de los usuarios reales sería demasiado lenta para ser considerada útil por los usuarios.
Ahora, podrías pensar que no se envían al servidor las grabaciones no solicitadas por el usuario, pero que aún así podrían almacenarse en el dispositivo. Los dispositivos tienen un factor de forma pequeño y no tienen una cantidad significativa de espacio de almacenamiento más allá de lo que el firmware y las actualizaciones necesitan. Estaría lleno en un día si nunca se borrara. Causando que el dispositivo funcione mal por falta de espacio de almacenamiento.
¿Cómo podemos probar que no está enviando datos?
Entra en el panel de control de tu router, deberías ver una lista de todos tus dispositivos conectados y las estadísticas de carga y descarga de cada uno. Viendo tu google home o echo, observa como cambian las estadísticas cuando le haces una pregunta. Verás un pico de subida temporal y luego un pico de descarga y luego casi nada. Continúa observando sin activar el dispositivo, sólo verás pequeños picos periódicos de unos pocos kb de datos, esto es el dispositivo preguntando al servidor «¿tienes alguna actualización? estoy aquí» el servidor la mayoría de las veces responderá «no hay actualizaciones»
Cuando haya una actualización verás un pico de descarga sin un pico de subida significativo.
Si tu dispositivo estuviera siempre enviando datos de audio, verías grandes subidas cada minuto o dos. Pero eso no es lo que ocurre porque no es así.
Ahora bien, si te sientes paranoico hay un interruptor de hardware para desactivar el micrófono. Este interruptor no utiliza software para funcionar, sino que literalmente desactiva la capacidad de los micrófonos para enviar audio a cualquier lugar. Esto significa que incluso si se hackea maliciosamente, ese dispositivo no puede ser forzado a seguir escuchándote.
Ya puedes quitarte el sombrero. Recomiendo no escuchar a infowars ellos literalmente hacen su dinero vendiendo productos basura y suplementos y no tienen ninguna razón para intentar ser creíbles porque la locura sensacionalista vende mejor sus productos.