Buscamos un ingeniero de Devops, arquitecto MLOps para la definición, configuración, mantenimiento, despliegue y soporte de toda nuestra estructura IA y SaaS
Será el responsable de la infraestructura para servicios SaaS con IA
Funciones Fundamentales del Puesto.
- Gestión de Infraestructura Base y Hardware:
- Despliegue, configuración y mantenimiento de servidores bare metal (ej. HPE ProLiant) con Ubuntu Server LTS.
- Administración avanzada de GPUs (NVIDIA A100/H100/L4), incluyendo particionamiento (MIG) y optimización de recursos compartidos.
- Administración de Kubernetes y Orquestación:
- Instalación y administración de clusters Kubernetes orientados a producción y alta seguridad (RKE2).
- Implementación de prácticas GitOps para el despliegue continuo y versionado de la infraestructura.
- Despliegue de la Plataforma MLOps y Datos:
- Configuración de la capa de almacenamiento distribuido (Data Lakehouse) y bases de datos relacionales.
- Integración de pipelines de datos (ETL/CDC) y herramientas de tracking de experimentos ML y registro de modelos.
- Inferencia y Despliegue de Modelos (Serving):
- Configuración de motores de inferencia para servir modelos open source (LLMs, PyTorch, TensorFlow) de manera escalable y eficiente.
- Despliegue de bases de datos vectoriales para habilitar arquitecturas RAG (Retrieval-Augmented Generation).
- Seguridad, Aislamiento y Multi-tenancy:
- Diseño e implementación de arquitecturas seguras para múltiples clientes: separación por
namespaces
, políticas de red estrictas, y gestión de identidades (SSO/IAM).
- Gestión segura de secretos, certificados y cifrado de datos en reposo y en tránsito.
- Observabilidad y Monitorización:
- Despliegue de un stack completo de monitorización para la infraestructura (CPU, RAM, red), métricas específicas de GPU, y observabilidad del rendimiento de los modelos de IA (latencia, errores,
data drift
).
💻 Stack Tecnológico Fundamental (Requisitos Técnicos)
1. Infraestructura y Contenedores (Core):
- OS:
Linux (Ubuntu Server LTS).
- Orquestación:
Kubernetes (específicamente RKE2) y gestión de red/Ingress (Cilium/Calico, MetalLB, NGINX/Traefik).
- Hardware/GPU:
NVIDIA GPU Operator, CUDA, NVIDIA MIG (Multi-Instance GPU).
2. DevOps y Seguridad:
- GitOps & CI/CD:
Argo CD, Harbor (Registry privado).
- Identidad y Secretos:
Keycloak (IAM/OIDC), Vault o External Secrets, cert-manager.
3. Datos y Almacenamiento:
- Storage S3:
MinIO.
- Bases de Datos:
PostgreSQL.
- Orquestación de Datos:
Apache Airflow.
4. Ecosistema IA / MLOps:
- Tracking & Registry:
MLflow.
- Serving (Inferencia):
KServe, NVIDIA Triton Inference Server, vLLM.
- Bases Vectoriales (RAG):
Qdrant (y conocimiento de pgvector).
5. Observabilidad:
- Stack de Monitorización:
Prometheus, Grafana, Loki.
- Métricas GPU:
DCGM Exporter.
- Trazabilidad:
OpenTelemetry.
🚀 Tecnologías Valorable
- Data Lakehouse & Ingesta:
Airbyte, Apache NiFi, Debezium, Kafka, Apache Iceberg, dbt.
- Serving & MLOps Avanzado:
Kubeflow, Ray Serve / KubeRay, BentoML.
- Bases Vectoriales a gran escala:
Milvus.
💡 Perfil Ideal
Ingeniero DevOps/SysAdmin que ha evolucionado hacia el ecosistema de IA
. Debe tener una mentalidad orientada a producto y a la prestación de servicios B2B, entendiendo que la seguridad, el aislamiento de datos entre distintos clientes y la alta disponibilidad son tan importantes como el propio rendimiento de los modelos.
Ofrecemos incorporacion a importante proyecto en fase inicial con gran potencialidad de crecimiento.