Saltar al contenido principal
Flowker recopila automáticamente datos de telemetría en todas las ejecuciones de workflows. Esta guía explica qué puedes monitorear, cómo interpretar lo que ves y cuándo involucrar a tu equipo de ingeniería.

Qué monitorea Flowker automáticamente


No se necesita instrumentación manual. Tan pronto como Flowker está en ejecución, rastrea:
  • Ejecuciones de workflows — cada ejecución, desde el disparo hasta la finalización
  • Progreso paso a paso — qué nodos fueron procesados y en qué orden
  • Resultados de ejecución — completados o fallidos
  • Estado del servicio — si Flowker y su base de datos están disponibles y aceptando tráfico
  • Volumen de solicitudes y tiempos de respuesta — cuántas llamadas a la API se están realizando y qué tan rápido se completan
Estos datos fluyen automáticamente a tu stack de observabilidad (Grafana), donde pueden ser consultados, visualizados y configurados con alertas.

Cómo verificar si Flowker está saludable


Flowker expone sondas de liveness y readiness compatibles con Kubernetes que la plataforma utiliza para rastrear la disponibilidad del servicio. Normalmente no necesitas consultarlas directamente — la degradación se refleja en los dashboards y alertas de Grafana. Si Flowker está en ejecución pero no puede procesar solicitudes, generalmente es un problema de conectividad con la base de datos; contacta a tu equipo de ingeniería.

Qué verás en Grafana


Los dashboards preconfigurados de Lerian te dan una vista a nivel de negocio del comportamiento de Flowker en tiempo real.

Volumen de solicitudes

Cuántas llamadas a la API está recibiendo Flowker por segundo, desglosadas por ruta (por ejemplo, ejecución de workflow, lista de workflows, salud). Útil para detectar picos de tráfico o caídas inesperadas en la actividad.

Tiempo de respuesta (latencia P95)

El tiempo que Flowker tarda en responder al 95% de las solicitudes. Un P95 en aumento puede indicar que las ejecuciones están tardando más de lo esperado — útil como alerta temprana antes de una degradación completa.

Tasa de errores

La proporción de solicitudes que devolvieron un error del servidor (HTTP 5xx). Una tasa de errores distinta de cero significa que algo está fallando dentro de Flowker. Los picos aquí justifican una investigación inmediata.

Ejecuciones activas

Cuántos workflows se están ejecutando actualmente. Útil para entender patrones de carga y si las ejecuciones se están completando como se espera.

Cómo interpretar el estado de ejecución


Cada ejecución de workflow en Flowker tiene un estado que te indica en qué punto se encuentra.
EstadoSignificadoQué hacer
pendingLa ejecución está en cola esperando para iniciarNormal — pasará a running en breve
runningLa ejecución está en progresoNormal — monitorear hasta que se complete
completedTodos los pasos finalizaron exitosamenteNo se requiere acción
failedAl menos un paso fallóRevisar los detalles de ejecución para ver el mensaje de error
Si ves una cantidad significativa de ejecuciones failed en un período corto, revisa el dashboard de tasa de errores y notifícalo a ingeniería. Una falla individual es a menudo esperada; un patrón es una señal.

Cuándo involucrar a ingeniería


Puedes resolver la mayoría de las verificaciones de estado por tu cuenta a través de Grafana. Escala a ingeniería cuando:
  • Flowker aparece como no disponible en la vista de salud de la plataforma (típicamente un problema de conectividad con la base de datos)
  • El dashboard de tasa de errores muestra un pico sostenido (no un evento aislado)
  • La latencia P95 está consistentemente por encima de la línea base de tus workflows
  • Una gran cantidad de ejecuciones están en estado failed sin un disparador claro
  • Flowker no está procesando nuevas ejecuciones a pesar de estar marcado como healthy
En estos casos, comparte el enlace del dashboard de Grafana o una captura de pantalla con el equipo de ingeniería junto con el período de tiempo — esto acelera significativamente el diagnóstico.