Privacidad: ¿qué herramienta IA escoger?

P. Me preocupa la inteligencia artificial y la privacidad. ¿Existen datos fiables sobre si una herramienta determinada utilizará o no mis instrucciones y textos para entrenar su modelo, y si mis datos se harán públicos?

R. Es una preocupación justificada.

Los datos

He recopilado toda la información en un NotebookLM que puedes consultar aquí. En forma de tabla, se presentan así:

Plataforma Puntos fuertes Puntos débiles y riesgos de privacidad
ChatGPT (OpenAI) Muy potente, versátil y líder del mercado. Las cuentas Enterprise y Team no usan datos para entrenar por defecto y ofrecen gestión de claves de cifrado corporativas (EKM). La versión para consumidores usa los chats para entrenamiento por defecto. El agente «Operator» guarda capturas de pantalla de tu navegador hasta por 90 días. Presenta riesgos de «datos zombis» debido a órdenes judiciales que impiden el borrado de datos (como la demanda del NYT).
Claude (Anthropic) Destaca por su IA «ética» y capacidad en programación. Para usuarios de Enterprise, Team y de la API, los datos no se utilizan para entrenamiento por defecto. Cambió su política para consumidores: ahora tus chats (incluyendo código) se usan para entrenamiento por defecto a menos que pidas la exclusión (opt-out). Si permites el entrenamiento, los datos pueden conservarse hasta 5 años.
Google Gemini (& NotebookLM) Integración perfecta con Google Workspace. Las cuentas empresariales y educativas no entrenan los modelos con tus datos ni son revisadas por humanos. NotebookLM es un asistente seguro que solo razona sobre las fuentes que tú subes sin usarlas para entrenar modelos. La versión para consumidores usa los chats para entrenamiento y revisión humana; estas conversaciones revisadas se pueden conservar hasta por 3 años incluso si borras tu actividad. Gemini puede recopilar ubicación precisa y muchos datos del ecosistema Google.
Perplexity AI Excelente para investigación por sus citas transparentes. La versión Enterprise Pro nunca usa tus datos para entrenamiento y elimina los archivos subidos tras 7 días. Las versiones gratuita y Pro usan tus datos para entrenamiento por defecto a menos que lo desactives en la configuración. Comparte un alto porcentaje de datos con terceros para analíticas y publicidad.
Microsoft Copilot La versión empresarial (Microsoft 365 Copilot) ofrece protección de datos donde la información no sale del entorno de la empresa (tenant) y no entrena los modelos base. La versión para consumidores sí utiliza datos para entrenamiento. En empresas, existe un riesgo de «sobrecompartir» internamente si los permisos de los empleados no están estrictamente configurados.
Mistral AI Es una empresa con sede en la UE (Francia), lo cual favorece el cumplimiento del GDPR. En sus planes Le Chat Team, Le Chat Entreprise y la suscripción de pago de Mistral AI Studio, tus datos de entrada y salida no se utilizan para entrenar sus modelos por defecto. La versión gratuita para consumidores sí utiliza tus datos y chats para entrenar sus modelos de IA por defecto (requiere hacer opt-out manualmente). Depende en gran medida de infraestructuras en la nube de fuera de la UE (Microsoft y Google). Además, las consultas realizadas a través de su API se conservan durante 30 días adicionales para fines de moderación.
Aleph Alpha Empresa alemana enfocada en la soberanía de los datos. No usa tus datos para entrenamiento y cumple estrictamente con el GDPR, siendo ideal para gobiernos. Orientada casi exclusivamente a grandes empresas (Enterprise), haciéndola inaccesible para usuarios individuales. Sus modelos pueden ser menos potentes que los de OpenAI o Anthropic.
Grok (xAI) Modelos potentes y rápidos. Política de privacidad muy deficiente: utiliza de forma agresiva tus chats y publicaciones de X (Twitter) para entrenar sus modelos. Carece de censura, lo que puede generar resultados dañinos.
DeepSeek & Qwen Modelos de origen chino que son técnicamente muy avanzados y capaces. Todo el uso directo envía datos a servidores en China, sometiéndolos a las leyes de vigilancia estatal del país. Representan un grave riesgo de seguridad y privacidad fuera de China.
CamoCopy (Alternativa de Privacidad) Solución basada 100% en la UE. Cumple con el GDPR, procesa en servidores europeos y garantiza privacidad por defecto sin usar datos para entrenamiento. Al ser una plataforma que utiliza modelos de código abierto de terceros (como versiones de Llama, Gemma o Mistral), puedes estar limitado a las capacidades específicas de esos modelos implementados.

Conclusiones

  • Algunas herramientas son mucho más respetuosas con la privacidad que otras.
  • Los mejores son Copilot Pro y soluciones puntuales como CampoCopy o por ejemplo Mistral.
  • Manténgase siempre alerta. Por ejemplo: anonimice los textos que proporcione a la IA, de modo que los datos de ese texto nunca puedan vincularse a una persona.
  • Evite los peores