Las grandes tecnológicas quieren que los agentes de IA ejecuten nuestros flujos de trabajo, redacten nuestros informes y hablen con nuestros clientes.
La verdadera pregunta es: ¿podemos confiar en ellos?
Amazon Web Services cree que la respuesta ahora es «sí, bajo condiciones estrictas». En su conferencia re:Invent en Las Vegas, el gigante de la nube detalló cómo su plataforma AgentCore permite ahora a las empresas desplegar agentes de IA autónomos manteniendo un control firme, mediante barandillas de seguridad, supervisión en tiempo real y una memoria sorprendentemente similar a la humana.
De la fantasía de ciencia ficción a la autonomía controlada
Los agentes de IA autónomos prometen hacer algo más que conversar. Pueden activar reembolsos, modificar bases de datos, reservar viajes o ajustar infraestructuras en la nube por su cuenta. Ese grado de libertad también crea el escenario de pesadilla: un bot demasiado entusiasta emitiendo reembolsos masivos, eliminando recursos equivocados o filtrando datos sensibles sin humanos en el circuito.
AgentCore, una plataforma abierta ya descargada más de dos millones de veces en cinco meses, apunta precisamente a ese miedo. AWS la presenta como una sala de control para agentes de IA: las empresas definen qué pueden hacer los agentes, en qué condiciones y cómo se evaluará su comportamiento a lo largo del tiempo.
AgentCore trata cada acción del agente como una decisión de políticas primero y una decisión de IA después, lo que reduce de forma radical el riesgo de comportamientos «desbocados».
Este posicionamiento importa porque muchas empresas hoy mantienen la IA generativa en «modo juguete»: pilotos limitados, bots de demostración y asistentes internos que nunca tocan sistemas reales. AWS quiere llevarlas a producción, pero con una red de seguridad que consejos de administración y reguladores puedan aceptar.
Cómo los controles preventivos de Amazon mantienen a los agentes con la correa corta
La idea central del modelo de seguridad de AgentCore es sencilla: los agentes de IA no actúan directamente, sino que solicitan acciones. Un motor de políticas comprueba esas solicitudes, en tiempo real, frente a un conjunto de reglas antes de que ocurra nada.
Policy in AgentCore: el portero digital de la IA
AWS denomina a esta capacidad «Policy in AgentCore». Cada vez que un agente intenta realizar una acción, la plataforma la evalúa frente a reglas redactadas en lenguaje natural o usando Cedar, el lenguaje de políticas de código abierto de Amazon.
- Las acciones se comprueban antes de ejecutarse, no después de que se produzcan errores.
- Las reglas pueden usar contexto de negocio como el rol del usuario, el importe de la transacción o la ubicación geográfica.
- Las políticas permanecen independientes del modelo de IA, de modo que las barandillas no cambian cuando se actualiza el modelo.
Tomemos como ejemplo un agente de reembolsos. Un equipo puede definir que el agente:
- solo puede tramitar reembolsos por debajo de 200 dólares;
- debe comprobar que el usuario autenticado tiene el rol
refund-agent; - debe registrar cada decisión con justificación y marca temporal.
Si alguna de esas condiciones falla, la acción no se ejecuta. El agente puede entonces pedir a un humano que revise el caso o derivar la tarea a un flujo de trabajo de mayor confianza.
Al separar «lo que la IA quiere hacer» de «lo que la organización permite», Policy in AgentCore convierte una confianza difusa en reglas concretas y comprobables.
Despliegues reales: comercio minorista y medios deportivos
El distribuidor brasileño Grupo Elfa ya gestiona operaciones de ventas con agentes de IA bajo estas restricciones. Sus equipos tramitan miles de presupuestos al día, permitiendo que los agentes propongan precios y condiciones mientras la capa de políticas impone límites a descuentos, márgenes y flujos de aprobación.
Con un registro estricto integrado en cada acción, la empresa informa de trazabilidad total de las decisiones y una reducción de aproximadamente el 50% del tiempo dedicado a resolver incidencias. El equipo de ventas gana velocidad; finanzas mantiene el control.
La organización deportiva PGA TOUR utiliza un patrón distinto: un sistema multiagente para redactar coberturas de eventos de golf. Algunos agentes resumen estadísticas, otros generan narrativa, mientras una capa de políticas controla los límites de contenido y las directrices de tono. AWS afirma que esta configuración multiplica por diez la velocidad de producción de artículos y reduce los costes en torno a un 95% frente a los flujos de trabajo tradicionales.
Evaluaciones: puntuar a los agentes como atletas de élite
Las barandillas evitan acciones prohibidas, pero no garantizan buenas respuestas. Para abordar esa parte de la fiabilidad, AWS introdujo «AgentCore Evaluations», un sistema de supervisión que puntúa a los agentes en varias dimensiones durante el uso real.
Verificación de hechos, relevancia y seguridad en piloto automático
En lugar de limitarse a contar cuántos prompts gestiona un agente, Evaluations se centra en la calidad. Puede evaluar:
- exactitud factual de las respuestas frente a fuentes internas de datos;
- relevancia de las respuestas respecto a la intención real del usuario;
- presencia de contenido dañino, sesgado o no conforme;
- tasas de éxito de finalización de tareas en flujos de trabajo de negocio.
Los equipos también pueden definir sus propias métricas. Por ejemplo, un agente de atención al cliente podría calificarse por tiempo de resolución, idoneidad del reembolso y cumplimiento del lenguaje regulatorio.
Las empresas pueden fijar umbrales y alertas. Un patrón común sería: «Si la exactitud factual cae más de un 10% durante un periodo de ocho horas, genera una alerta y revierte automáticamente a una versión anterior del modelo». Eso convierte el riesgo de IA en algo más parecido a la ingeniería de fiabilidad del sitio (SRE) que a una conjetura.
Evaluar agentes en producción, de forma continua, traslada la IA de «esperemos que funcione» a «medir, comparar y ajustar como cualquier otro sistema crítico».
Memoria episódica: cuando los agentes empiezan a actuar como asistentes reales
Otra pieza del puzle se sitúa en el extremo opuesto: no la seguridad, sino la comodidad. AWS está dotando a AgentCore de lo que llama «memoria episódica», una forma de que los agentes recuerden interacciones individuales y patrones con el tiempo.
De respuestas aisladas a relaciones continuas
Imagina un agente de reserva de viajes que detecta que siempre retrasas tu vuelo de vuelta cuando las reuniones con clientes se alargan. Después de unos cuantos viajes, entra en juego la memoria episódica. La próxima vez que pidas vuelos vinculados a una visita de trabajo, el agente propone de forma proactiva billetes flexibles o te avisa cuando estás a punto de elegir una opción no reembolsable.
Esto va más allá de un simple perfil de usuario. El agente puede almacenar secuencias de eventos, decisiones pasadas y sus resultados, y luego incorporar ese historial a la planificación de tareas futuras. Así, las interacciones se sienten mucho menos genéricas.
Workday, que ofrece herramientas en la nube para RR. HH. y planificación financiera, utiliza este tipo de agentes para análisis financiero. Su agente de planificación automatiza partes del reporting rutinario y comprobaciones de desviaciones. AWS informa de que esto ahorra alrededor del 30% del tiempo dedicado a análisis repetitivos, liberando unas 100 horas al mes para que un equipo financiero típico se centre en excepciones y estrategia.
Conversaciones en streaming que de verdad se sienten como hablar
Las interacciones por voz también reciben una mejora significativa. AgentCore ahora admite streaming bidireccional de audio, lo que significa que humanos y agentes pueden solaparse al hablar y el sistema se adapta sobre la marcha.
En lugar del viejo «pregunta y luego espera en silencio un largo monólogo», los usuarios pueden interrumpir a mitad de frase, cambiar de rumbo o pedir aclaraciones. El agente actualiza su respuesta en tiempo real, más cerca de cómo conversan de forma natural dos personas. Esto importa para centros de llamadas, herramientas de accesibilidad y cualquier escenario donde la latencia y el flujo natural afecten a la confianza del usuario.
El streaming en tiempo real convierte la IA de una máquina de dar discursos en un interlocutor conversacional, sin renunciar al control estricto de políticas por debajo.
Qué significa este cambio para las empresas que apuestan por agentes
En conjunto, estas piezas señalan un cambio más amplio en cómo las empresas abordarán los agentes de IA en los próximos años.
| Generación anterior | Agentes al estilo AgentCore |
|---|---|
| Chatbots limitados a preguntas y respuestas | Agentes que pueden actuar sobre sistemas y flujos de trabajo |
| Controles puntuales manuales de calidad | Evaluación continua con alertas y métricas |
| Prompts estáticos y solo memoria de sesión | Memoria episódica entre sesiones y tareas |
| Respuestas de voz unidireccionales | Streaming interactivo, se permiten interrupciones |
| Controles de acceso toscos | Comprobaciones de políticas granulares antes de cada acción |
Los sectores en los que los errores implican costes regulatorios o financieros -banca, sanidad, seguros, utilities- han frenado la adopción de agentes realmente autónomos. Con una estructura en la que cada acción pasa por una política auditable y el rendimiento se rastrea como el uptime, esos sectores obtienen un perfil de riesgo más aceptable para la automatización.
Riesgos y puntos ciegos que siguen existiendo
Incluso con barandillas sólidas, los agentes de IA siguen teniendo límites. Los sistemas de políticas solo cubren los escenarios que los equipos se plantean codificar. Casos límite, regulaciones ambiguas o nuevos daños sociales pueden colarse si las reglas no los contemplan. La dependencia excesiva de la memoria episódica también plantea cuestiones de privacidad y protección de datos, especialmente en Europa.
También existe el peligro de la «complacencia por automatización». Una vez que los paneles muestran métricas en verde, los equipos pueden confiar demasiado en los agentes y reducir la supervisión humana con demasiada rapidez. Ese riesgo crece cuando los ahorros de costes parecen atractivos sobre el papel, como sugieren las cifras de la PGA TOUR.
Para contrarrestarlo, las organizaciones necesitarán prácticas de gobernanza para los agentes: auditorías periódicas de las reglas de políticas, ejercicios de red team en los que el personal intente deliberadamente hacer fallar a los agentes y vías claras de escalado cuando Evaluations detecte una deriva en el comportamiento.
Cómo pueden empezar a experimentar los equipos de forma segura
Para empresas que empiezan con agentes autónomos, un enfoque por fases suele funcionar mejor. Muchas comienzan con «modo sombra»: el agente propone acciones, pero los humanos siguen pulsando el botón final. Después, los equipos comparan decisiones del agente con decisiones humanas y ajustan políticas antes de pasar a la automatización total.
Otra táctica práctica es acotar el alcance: dar autonomía total solo en acciones de bajo riesgo, como redactar correos internos, marcar transacciones sospechosas para revisión o resumir tickets de soporte. A medida que mejoran la confianza y las métricas, pueden pasar a flujos de trabajo de mayor impacto, como reembolsos limitados, compras de pequeño presupuesto o gestión rutinaria de accesos.
Conceptos como las políticas Cedar y la memoria episódica pueden sonar técnicos, pero se corresponden con controles de negocio familiares: permisos, reglas de excepción, cadenas de aprobación e historial del cliente. La diferencia es que ahora se sitúan directamente en la pila de IA, en lugar de añadirse después del despliegue.
A medida que más proveedores sigan a AWS en esta dirección, la verdadera ventaja competitiva quizá ya no provenga de quién tiene el modelo más vistoso, sino de quién consiga combinar autonomía, barandillas y una interacción a nivel humano en algo que los líderes empresariales realmente se atrevan a activar en producción.
Comentarios (0)
Aún no hay comentarios. ¡Sé el primero!
Dejar un comentario