Enigma is hiring: Machine Learning Engineer | Python | Pytorch | Distributed Tra

Enigma, San Jose, CA, United States

Title: Machine Learning Engineer

Location: San Jose, CA

Responsibilities:

Productize and optimize models from Research into reliable, performant, and cost-efficient services with clear SLOs (latency, availability, cost).
Scale training across nodes/GPUs (DDP/FSDP/ZeRO, pipeline/tensor parallelism) and own throughput/time-to-train using profiling and optimization.
Implement model-efficiency techniques (quantization, distillation, pruning, KV-cache, Flash Attention) for training and inference without materially degrading quality.
Build and maintain model-serving systems (vLLM/Triton/TGI/ONNX/TensorRT/AITemplate) with batching, streaming, caching, and memory management.
Integrate with vector/feature stores and data pipelines (FAISS/Milvus/Pinecone/pgvector; Parquet/Delta) as needed for production.
Define and track performance and cost KPIs; run continuous improvement loops and capacity planning.
Partner with ML Ops on CI/CD, telemetry/observability, model registries; partner with Scientists on reproducible handoffs and evaluations.

Educational Qualifications:

Bachelors in computer science, Electrical/Computer Engineering, or a related field required; Master’s preferred (or equivalent industry experience).
Strong systems/ML engineering with exposure to distributed training and inference optimization.

Industry Experience:

3–5 years in ML/AI engineering roles owning training and/or serving in production at scale.
Demonstrated success delivering high-throughput, low-latency ML services with reliability and cost improvements.
Experience collaborating across Research, Platform/Infra, Data, and Product functions.

Technical Skills:

Familiarity with deep learning frameworks: PyTorch (primary), TensorFlow.
Exposure to large model training techniques (DDP, FSDP, ZeRO, pipeline/tensor parallelism); distributed training experience a plus
Optimization: experience profiling and optimizing code execution and model inference: (PTQ/QAT/AWQ/GPTQ), pruning, distillation, KV-cache optimization, Flash Attention
Scalable serving: autoscaling, load balancing, streaming, batching, caching; collaboration with platform engineers.
Data & storage: SQL/NoSQL, vector stores (FAISS/Milvus/Pinecone/pgvector), Parquet/Delta, object stores.
Write performant, maintainable code
Understanding of the full ML lifecycle: data collection, model training, deployment, inference, optimization, and evaluation.

In Summary: Machine Learning Engineer | Python | Pytorch | Distributed Training | Optimisation | GPU | Hybrid, San Jose, CA . Master’s preferred (or equivalent industry experience) 3–5 years in ML/AI engineering roles owning training and/or serving in production .

En Español: Ingeniero de aprendizaje automático, Python, Pytorch, Formación distribuida, Optimización GPU, Híbrido, San José, CATTitle: Ingeniera del Aprendizaje AutomáticoUbicación: San Jose, CAResponsabilidades:Producir y optimizar modelos de la Investigación en servicios fiables, eficientes y rentables con SLOs claros (latencia, disponibilidad, costo).Capacitación a gran escala entre nodos/GPUs (DDP/FSDP/ZeRO, pipeline/tensor paralelismo) y poseer rendimiento / tiempo para entrenar utilizando perfilamiento y optimización.Implementar técnicas de eficiencia de modelo (cuantificación, destilación, pradación, KV-cache, flashing) para capacitación y producción sin degradar materialmente la calidad.Construye y mantenga los sistemas de gestión de datos que utilizan las capacidades de transmisión electrónica (MTP/STRON/AGI/ZERO, tubería/pipe lineal), y experimentación eléctrica; Evaluación de costos e instalaciones de conocimientos técnicos / ingeniería de computadoras o equipos informáticos; Prevención y desarrollo de procesos de tecnología avanzados / Infraestructuras de investigación / Tecnología de trabajo / Capacidad para mejorar el funcionamiento de los sistemas operadores / Sistemas de inteligencia eléctricas / Informática / Enseñanza / Integrafía / Ciencias / Desarrollo / Recreación / Teléctónica / Tecnológicas / Máster / Proces / Servicios / Estudiantes / Laboratorios / Tecnologias para desarrollar una experiencia en línea / OTM; Servicio en producción a escala.Demonstrado éxito ofreciendo servicios de ML con alto rendimiento y baja latencia, con mejoras en la fiabilidad y el costo.Experiencia colaborando entre las funciones de Investigación, Plataforma/Infra, Datos y Producto.Habilidades técnicas: Familiariedad con los marcos de aprendizaje profundo: PyTorch (primario), TensorFlow.Exposición a grandes técnicas de entrenamiento de modelos (DDP, FSDP, ZeRO, pipeline/tensor parallelismo); experiencia de capacitación distribuida una másOptimización: experiencia de elaboración de perfiles y optimización de ejecución del código y modelo: (PTQ/QAT/AWQ/GPTQ), prolongación, destilación, KV-cache optimization, FlashtionScalable Jose: autocalibrados, almacenes de transmisión, Google Analytics, batching, colaboración; plataforma de datos con ingenieros de computadora SQL.