
Fluidstack is hiring: Network Engineer, Reliability & Observability in San Franc
Fluidstack, San Francisco, CA, United States
About Fluidstack
At Fluidstack, we’re building the infrastructure for abundant intelligence. We partner with top AI labs, governments, and enterprises - including Mistral, Poolside, Black Forest Labs, Meta, and more - to unlock compute at the speed of light.
We’re working with urgency to make AGI a reality. As such, our team is highly motivated and committed to delivering world‑class infrastructure. We treat our customers’ outcomes as our own, taking pride in the systems we build and the trust we earn. If you’re motivated by purpose, obsessed with excellence, and ready to work very hard to accelerate the future of intelligence, join us in building what’s next.
About the Role
Fluidstack is seeking a Network Engineer, Reliability & Observability to serve as a reliability engineer championing and building process, data collections, and reliability metrics with the objective of improving the quality and reliability of AI networks from deployment through the full lifecycle of operations.
This role is focused on developing processes, systems, tools, data and data pipelines, and observability to improve the quality of networks and deliver automated metrics (24x7) as well as periodic reliability reports for both internal and external customers.
This role is ideal for experienced network operators who are passionate about reliability and have experience designing and building full lifecycle software such as Quality Assurance audits, circuit audits, periodic audits, failure rates and failure analysis. You are passionate about hardware (electronics and optics), software development, and you value and promote the use of data to make informed decisions in deployment, operations, and strategic sourcing.
Experienced SRE (Site Reliability Engineers) with a passion for networking are encouraged to apply.
Focus
Ownership of Quality Assurance: Design, develop, and support QA process for network hardware and networks.
Pipelines: Develop and deploy serverless workflows, server based, and manually triggered data pipelines producing network quality and reliability observability for internal and external customers.
Deployment and Operations Support: Support full lifecycle data collection and analysis partnering with Deployment, Operations, DC hardware, and logistics teams to produce data that drives process improvements and delivers on SLA and SLOs.
Process Engineering: Develop, pilot, and deploy process improvements for deployment and repair to produce data and consume data with Machine Learning to fulfill our mission.
Cross-Team Collaboration: Own without ego and execute in a collaborative team with design, deployment, operations engineers and software developers.
Subject Matter Expert: In at least two or more deep subjects such as IP routing, optics, optical transport, Ethernet, RDMA/RoCE, or electrical power.
About You
Strong Operations Background: 5+ years in network engineering and at least 3+ years in operations with significant hands‑on operational experience. You've run production networks or compute, responded to incidents at all hours, and debugged complex failures under pressure. You understand the difference between "working" and "production‑ready".
Datacenter Fabric Expertise: Deep experience operating modern datacenter networks including EVPN/VXLAN, BGP, CLOS topologies, and high‑radix switching. You're comfortable troubleshooting Layer 2/3 issues, BGP routing problems, fabric misconfigurations, and physical media failures.
Incident Response Excellence: Proven ability to lead incident response, perform systematic troubleshooting, and drive issues to resolution. You remain calm during outages, communicate clearly with stakeholders, and know when to elevate versus when to dig deeper. You've been the person others call when things break.
Matrix Leadership Experience: You understand how to build relationships with onsite teams, coordinate physical infrastructure work, and represent network engineering in a field environment. You know how to get things done in operational settings with many internal and external teams and stakeholders.
Operational Pragmatism: You balance perfection with progress. You can troubleshoot with imperfect information, make pragmatic decisions under time pressure, and prioritize based on business impact. You document as you go and continuously improve operational processes.
Self Driven: You embrace complex challenges with undefined process and key results. You can dive in to learn, but zoom back out to build Objectives, develop Key Results and build a software development project and pipeline in Jira solo. You can then switch hats and begin coding.
Nice to Haves
AI/HPC Fabric Operations: Experience operating AI/ML or HPC fabrics with RDMA (RoCEv2), lossless Ethernet (PFC, ECN), or high‑performance networking. You understand the operational precision required when network performance directly impacts workload completion.
Reliability Engineering: You have experience with observability and reliability engineering from network operations or in manufacturing quality.
Hardware Repair Experience: Hands‑on experience coordinating hardware repairs, RMAs, and physical infrastructure work. You understand datacenter logistics, vendor escalation processes, and how to work effectively with onsite technicians.
Observability & Monitoring: Familiarity with network monitoring platforms, alerting systems, and telemetry collection. You've used monitoring tools to diagnose issues proactively and tune alerting to reduce noise. You have experience with SQL, MySQL, and building operations dashboards.
Software Development: You have experience with ITIL, Agile (xP), and TDD including developing and leading programs and projects. You have experience building hyperscale platforms in Go Lang with supporting tools in Python or RUST.
We are committed to pay equity and transparency.
Fluidstack is an Equal Employment Opportunity Employer. All qualified applicants will receive consideration for employment without regard to race, color, religion, sex, national origin, sexual orientation, gender identity, disability and protected veterans’ status, or any other characteristic protected by law. Fluidstack will consider for employment qualified applicants with arrest and conviction records pursuant to applicable law.
You will receive a confirmation email once your application has successfully been accepted. If there is an error with your submission and you did not receive a confirmation email, please email careers@fluidstack.io with your resume/CV, the role you’ve applied for, and the date you submitted your application – someone from our recruiting team will be in touch.
#J-18808-Ljbffr
En Español:
Sobre Fluidstack
En Fluidstack, estamos construyendo la infraestructura para una inteligencia abundante. Nos asociamos con los mejores laboratorios de IA, gobiernos y empresas - incluyendo Mistral, Poolside, Black Forest Labs, Meta, y más - para desbloquear la computación a la velocidad de la luz.
Estamos trabajando con urgencia para hacer de AGI una realidad. Como tal, nuestro equipo está altamente motivado y comprometido con la entrega de infraestructura de clase mundial. Tratamos a nuestros clientes los resultados como nuestros propios, orgullosos de los sistemas que construimos y de la confianza que ganamos. Si usted está motivado por el propósito, obsesionado con la excelencia y listo para trabajar muy duro para acelerar el futuro de la inteligencia, únete a nosotros para construir lo que sigue.
Sobre el papel
Fluidstack está buscando un Ingeniero de redes, fiabilidad y observabilidad servir como ingeniero de confiabilidad que defenda y construya procesos, recopilaciones de datos y métricas de fiabilidad con el objetivo de mejorar la calidad y fiabilidad de las redes de IA desde su implementación hasta el ciclo de vida completo de las operaciones.
Este papel se centra en el desarrollo de procesos, sistemas, herramientas, tuberías de datos y datos y observabilidad para mejorar la calidad de las redes y ofrecer métricas automatizadas (24x7) así como informes periódicos de fiabilidad tanto para clientes internos como externos.
Este puesto es ideal para los operadores de red experimentados que son apasionados por la confiabilidad y tienen experiencia en el diseño y la construcción de software de ciclo de vida completo, como auditorías de garantía de calidad, auditos de circuitos, auditorías periódicas, tasas de falla y análisis de fallos. Usted es apasionado por el hardware (electrónica y óptica), el desarrollo de software, y valora y promueve el uso de datos para tomar decisiones informadas en la implementación, operaciones y abastecimiento estratégico.
Se alienta a los ingenieros SRE (Site Reliability Engineers) experimentados con pasión por la creación de redes a postularse.
Concentrarse
Propiedad de la garantía de calidad: Diseñar, desarrollar y apoyar el proceso de calificación para el hardware y las redes de red.
Los oleoductos: Desarrollar e implementar flujos de trabajo sin servidor, tuberías de datos basadas en servidores y activadas manualmente que produzcan calidad de red y fiabilidad observable para clientes internos y externos.
Apoyo al despliegue y a las operaciones: Apoyar la recopilación y análisis de datos del ciclo de vida completo en asociación con equipos de implementación, operaciones, hardware DC y logística para producir datos que impulsen mejoras en los procesos y proporcionen SLA y SLOs.
Ingeniería de procesos: Desarrollar, pilotar y implementar mejoras de proceso para la implementación y reparación para producir datos y consumir datos con Machine Learning para cumplir nuestra misión.
Colaboración entre equipos: Poseer sin ego y ejecutar en un equipo colaborativo con ingenieros de diseño, implementación, operaciones y desarrolladores de software.
Experto en materia: En al menos dos o más materias profundas como el enrutamiento IP, la óptica, el transporte óptico, Ethernet, RDMA/RoCE o la energía eléctrica.
Sobre usted
Fuertes antecedentes de operaciones: 5 años en ingeniería de redes y al menos 3 años en operaciones con experiencia operativa práctica significativa. Ha ejecutado redes de producción o computación, ha respondido a incidentes a todas horas y ha solucionado fallas complejas bajo presión. Comprende la diferencia entre "trabajar" y "pronto para la producción".
Experiencia en el tejido del centro de datos: Experiencia profunda en el funcionamiento de redes modernas de centros de datos, incluyendo EVPN / VXLAN, BGP, topologías CLOS y conmutación de alto radix. Usted está cómodo resolviendo problemas de capa 2/3 , problemas de enrutamiento BGP , configuraciones incorrectas de tejido y fallos de medios físicos.
Excelencia en la respuesta a incidentes: Capacidad probada para liderar la respuesta a incidentes, realizar una solución sistemática de problemas y llevar los problemas a la resolución. Usted permanece tranquilo durante las interrupciones, se comunica claramente con las partes interesadas, y sabe cuándo elevar versus cuándo profundizar. Usted ha sido la persona a la que otros llaman cuando las cosas se rompen.
Experiencia en liderazgo en Matrix: Usted sabe cómo construir relaciones con los equipos en el sitio, coordinar el trabajo de infraestructura física, y representar la ingeniería de red en un entorno de campo. Sabe cómo hacer las cosas en entornos operativos con muchos equipos internos y externos y partes interesadas.
Pragmatismo operativo: Puedes equilibrar la perfección con el progreso. Puedes solucionar problemas con información imperfecta, tomar decisiones pragmáticas bajo presión de tiempo y priorizar basándote en el impacto del negocio. Documentas a medida que avanzas y mejoras continuamente los procesos operativos.
Autogestionado: Abra los desafíos complejos con procesos no definidos y resultados clave. Puedes sumergirte para aprender, pero vuelve a hacer zoom para construir Objetivos, desarrollar Resultados clave y construir un proyecto de desarrollo de software y pipeline en Jira solo. Luego puedes cambiar de sombrero y empezar a codificar.
Es bueno para Haves .
Las operaciones de IA/HPC en tejidos: Experiencia en el funcionamiento de tejidos AI/ML o HPC con RDMA (RoCEv2), Ethernet sin pérdidas (PFC, ECN) o redes de alto rendimiento. Comprende la precisión operativa requerida cuando el rendimiento de la red afecta directamente a la finalización de la carga de trabajo.
Ingeniería de fiabilidad: Tiene experiencia en ingeniería de observabilidad y fiabilidad a partir de las operaciones de red o en la calidad de fabricación.
Experiencia en la reparación de hardware: Experiencia práctica en la coordinación de reparaciones de hardware, RMA y trabajos de infraestructura física. Comprende la logística de centros de datos, los procesos de escalada de proveedores y cómo trabajar eficazmente con técnicos en el lugar.
Observabilidad y seguimiento: Familiarización con las plataformas de monitoreo de red, sistemas de alerta y recopilación de telemetría. Usted ha utilizado herramientas de monitorización para diagnosticar problemas de manera proactiva y sintonizar las alertas para reducir el ruido. Tiene experiencia con SQL, MySQL y construir paneles de operaciones.
Desarrollo de software: Tiene experiencia con ITIL, Agile (xP) y TDD, incluyendo el desarrollo y liderazgo de programas y proyectos. Tiene experiencia en la construcción de plataformas de hiperescala en Go Lang con herramientas de soporte en Python o RUST.
Estamos comprometidos a pagar con equidad y transparencia.
Fluidstack es un Empleador de Igualdad de Oportunidades de Empleo. Todos los solicitantes calificados recibirán una consideración para el empleo sin tener en cuenta la raza, el color, la religión, el sexo, el origen nacional, la orientación sexual, la identidad de género, la discapacidad y el estatus de veteranos protegidos, o cualquier otra característica protegida por la ley.
Recibirá un correo electrónico de confirmación una vez que su solicitud haya sido aceptada con éxito. no lo hizo Recibir un correo electrónico de confirmación, por favor envíe el correo electrónico a careers@fluidstack.io con su currículum/CV, el puesto al que ha solicitado y la fecha en que presentó su solicitud.
#J-18808-Ljbffr