¿Sabemos dónde viven los datos y quién puede verlos?

Hace un tiempo, en la empresa donde trabajo se habilitó un ambiente de producción para los proyectos de IA que necesitan trabajar con datos reales. Hasta entonces, todos los proyectos vivían en un laboratorio aislado, con datos inventados. En ese marco, las preguntas sobre dónde viven los datos y quién puede verlos eran fáciles de esquivar. En producción ya no.

Soy espectador del proceso, no quien lo diseña. En la organización tenemos especialistas que se encargan de la arquitectura. Mi rol es escuchar, entender lo suficiente para ser un buen interlocutor, y trasladar lo que veo a otros líderes que se cruzan con las mismas preguntas.

Estas son las que más se repiten, y lo que voy escuchando en las conversaciones con quienes sí toman las decisiones técnicas.


¿Si tengo licencia paga, mis datos están seguros?

La distinción que más vale la pena hacer no es “paga vs gratis”, es consumer vs API / enterprise.

Las APIs de los grandes proveedores (OpenAI, Anthropic, Google) y los planes enterprise de las suites integradas (tipo Microsoft 365 Copilot, Workspace con Gemini) por default no usan los datos para entrenar el modelo. La mayoría tampoco los almacena más allá de unos días para detección de abuso. Eso es contractual y aplica universalmente: con API o plan enterprise, hay garantías firmadas.

Las versiones consumer (los chats gratuitos o las suscripciones individuales) son otra historia. Algunas usan los datos para entrenamiento por default — con opt-out disponible, pero por default. Acá las garantías cambian proveedor por proveedor.

Para uso corporativo serio, la conclusión es directa: ir por API o enterprise, no por consumer.


¿Puedo subir información confidencial?

La pregunta correcta no es “puedo” sino “qué pasa después de subirla”. Y eso depende del canal: a una herramienta consumer, mejor que no. A una solución enterprise donde los datos no salen del tenant, sí — siempre que esté autorizado y registrado.

Una distinción concreta que cuesta ver hasta que pasa: subir un PDF, un Excel o una captura al chat es subir el contenido, no solo el archivo. Lo que no mandarías por mail a un proveedor externo, no lo mandes al modelo sin una capa intermedia.


On-premise vs cloud: ¿qué cambia?

On-premise — modelo abierto en infraestructura propia — da el máximo control: los datos no salen de la red. El costo es performance (los modelos abiertos están un escalón abajo de los frontier models en muchas tareas), hardware, mantenimiento y la responsabilidad técnica de operarlo en serio.

Probé Ollama unas semanas para entender hasta dónde llegaban los modelos locales. Lo descarté para mi caso, pero lo dejé como opción mental para escenarios de máxima sensibilidad.

Cloud da los mejores modelos disponibles hoy, pero obliga a confiar en los términos de uso, las certificaciones (SOC 2, ISO 27001, HIPAA si aplica), la residencia de datos y los acuerdos de procesamiento.

Hay un punto intermedio que para muchos casos corporativos es el sweet spot: los modelos enterprise alojados en la propia nube del cliente (Azure OpenAI, Bedrock, Vertex). Modelos frontier, sin que los datos salgan del tenant que vos controlás.


¿Cómo se arma el datalake para prevenir vulnerabilidades conocidas?

Las respuestas dependen mucho del contexto de cada organización, pero hay piezas que se repiten en lo que voy escuchando:

  • Separar capas: datos crudos, embeddings, prompts y respuestas son cosas distintas y necesitan controles distintos.
  • Filtros DLP (Data Loss Prevention) a la entrada del prompt: detectar y bloquear datos sensibles antes de que salgan al modelo.
  • Pseudonimización: enviar identificadores en lugar de nombres y datos personales cuando sea posible.
  • Acceso por roles: no todo el mundo necesita ver los logs de los prompts.
  • Logs y auditoría: saber qué se mandó al modelo, cuándo y por quién no es opcional si hay regulaciones o auditorías internas en juego.
  • Capacitación de los colaboradores: probablemente la pieza más subestimada. La mejor arquitectura no protege de un usuario que pega información confidencial en un chat consumer.

Ninguna de estas piezas es nueva en seguridad de datos. Lo nuevo es que los agentes — con su autonomía y proactividad — aumentan enormemente la superficie de ataque, igual que los colaboradores que no reciben capacitación sobre cómo usar correctamente estas herramientas.


El costo de no gobernar el uso de los datos.

Cuando este nivel de control no existe, los riesgos no son hipotéticos. Algunos casos públicos de los últimos años:

  • Filtración de propiedad intelectual. En 2023, ingenieros de Samsung pegaron código fuente propietario en ChatGPT consumer para resolver un problema técnico. La empresa prohibió el uso interno de herramientas de IA generativa poco después. El dato subido a una herramienta consumer no se “desinfla” — queda en los logs del proveedor, sujeto a sus políticas y a sus eventuales fallas.

  • Filtraciones por errores del proveedor. En enero de 2025 se descubrió que DeepSeek había dejado expuesta públicamente una base de datos con historial de chats y claves de API. La filtración fue por una mala configuración interna, no por un ataque externo. Los proveedores también fallan.

  • Riesgo regulatorio. Italia bloqueó ChatGPT en marzo de 2023 por incumplir el GDPR. Las regulaciones europea, brasileña (LGPD), uruguaya y argentina toman cada vez más en serio el uso de datos personales por terceros — incluidos los modelos. Una empresa que opera en estas jurisdicciones y no controla qué datos van al modelo está acumulando deuda regulatoria.

  • Shadow IA. Cuando la empresa no provee herramientas adecuadas, los colaboradores usan las suyas. Resultado: el control de qué datos salen y por qué canal queda fuera de la organización. Es el riesgo más silencioso, porque no aparece en los logs corporativos.

  • Prompt injection en agentes. Un agente con acceso a información sensible y conectado a entradas externas (mails, documentos web, mensajes) es vulnerable a inyecciones — instrucciones ocultas en esos textos que cambian su comportamiento. La autonomía que los hace útiles es la que les abre la superficie de ataque.

No son escenarios catastróficos: son cosas que ya pasaron y siguen pasando. La ausencia de gobierno no detiene el uso de la herramienta. Solo hace que las consecuencias se acumulen sin que nadie las vea hasta que es tarde.


Lo que me queda como espectador.

Mirando este proceso desde afuera, lo que más me sirvió fue dejar de tratar “¿es seguro?” como una pregunta cerrada. La pregunta útil tiene cuatro variables: qué proveedor, qué plan, qué dato, qué jurisdicción. Cualquier respuesta que no las cubra es incompleta.

Quien diseña la arquitectura ya trabaja con ese nivel de detalle. Lo que cambió para mí es entender que el resto de los líderes — los que empujamos adopción desde nuestras áreas — necesitamos entrar al menos a la superficie de esa conversación. Para tener conciencia de lo que implica cada decisión.

Comentarios