MLOps Engineer
serem. Consultoría empresarial
Madrid · Community of Madrid · Spain
Full-time
5-10
1d ago
77%
Strong
Job description
En serem buscamos un/a perfil MLOps Engineer.
Tareas
Definir la pila de referencia de MLOps para la Plataforma con Agentes: patrones de CI/CD y promoción de entornos con aprobaciones topologías de servicio (Databricks Serverless frente a Kubernetes/Seldon) con registros de decisiones evaluación y monitorización de desviaciones con MLflow/Mosaic y operaciones de ejecución basadas en SLO.
Integrar el linaje y las políticas de Unity Catalog en los pipelines para que los equipos cumplan con los requisitos de gobernanza sin problemas y faciliten la expansión de Run.
Responsabilidades
Gestionar los estándares de CI/CD y la promoción del entorno para modelos y agentes: pipelines, aprobaciones, procedencia de artefactos, versiones inmutables y patrones de reversión/canary.
Estandarizar las topologías de servicio: Databricks sin servidor frente a Kubernetes/Seldon, con registros de decisiones claros, SLO (latencia/fiabilidad) y límites de coste/rendimiento.
Implementar la evaluación y el monitoreo: evaluación offline/online basada en MLflow, comprobaciones de desviaciones/calidad y paneles de telemetría de extremo a extremo para el comportamiento y los costes de los modelos y agentes, teniendo en cuenta todos los aspectos básicos de seguridad y cumplimiento.
Integrar la gobernanza desde el diseño: aplicar el linaje y las políticas de Unity Catalog y capturar las aprobaciones y la evidencia en los pipelines para facilitar las auditorías y la preparación para el mercado. Operar la plataforma Agentic para cumplir con los SLO: respuesta a incidentes/guardia, planificación de capacidad, optimización de costos, análisis post mortem y mejora continua de las rutas óptimas.
Tecnologías: Databricks (flujos de trabajo, Model/Agent Serving, Mosaic, Vector Search) MLflow (registro/evaluación) Unity Catalog (políticas/linaje) Azure y AWS (redes/identidad) Kubernetes + Seldon (casos específicos) CI/CD (Azure DevOps/GitHub) (IaC) observabilidad con herramientas compatibles con OpenTelemetry gestión de secretos/claves.
Habilidades requeridas: Más de 5 años de experiencia en MLOps/SRE o ingeniería de plataformas con cargas de trabajo de ML/IA en producción se valora especialmente la experiencia con Databricks MLflow y CI/CD empresarial.
Diseño/operación de lanzamientos en múltiples entornos (desarrollo pruebas producción) con aprobaciones, secretos e identidad. IaC (Terraform/CrossPlane) y redes en la nube en Azure y/o AWS.
Experiencia práctica en evaluación y monitorización de modelos y agentes familiaridad con los SLO, la respuesta a incidentes y la gestión de capacidad y costes.
Conocimiento de herramientas como ArgoCD, Crossplane, Istio, Knative, Opensearch, Prometheus y Grafana.
Nivel de inglés avanzado.
Requisitos Deseables
Experiencia en la operación de Kubernetes/Seldon para la implementación de modelos y la migración a Databricks Mosaic cuando sea apropiado.
Familiaridad con los patrones de evaluación de IA con agentes (éxito de tareas, fiabilidad de herramientas) y la observabilidad RAG (estado de Vector Search).
Experiencia en operaciones multinube y gestión de latencia entre regiones.
Conocimiento práctico del linaje y las políticas de Unity Catalog y su integración con los pipelines y catálogos de entrega capacidad para generar evidencia lista para auditoría.
Aclaraciones
Se requiere experiencia en DevOps, en la parte de integración y despliegue continuo.
Necesaria experiencia en Azure, ya que es su nube principal, aunque también se valora AWS.
Inglés: nivel mínimo B2
Modelo de trabajo: Teletrabajo 100 .
MLOps, Databricks, Azure, AWS, Kubernetes