
Machine Learning Engineer, Training Infrastructure Job at US Company in San Fran
US Company, San Francisco, CA, United States
Overview
Job Title: Machine Learning Engineer, Training Infrastructure | Position Type: Full time | Location: San Francisco, CA, USA | Salary Range: $150,000 - $250,000 (USD) | Job ID#: 158135
Responsibilities
- Design, implement, and maintain scalable computing solutions for training and deploying ML models, ensuring infrastructure can handle large video datasets.
- Manage and optimize the performance of computing clusters or cloud instances, such as AWS or Google Cloud, to support distributed training.
- Ensure that infrastructure can handle the resource-intensive tasks associated with training large generative models.
- Monitor system performance and implement improvements to maximize efficiency and utilization, using tools like Airflow for orchestration.
- Collaborate across research teams to understand their computational needs and provide appropriate solutions, facilitating seamless model deployment.
Qualifications
- Bachelor’s degree in Computer Science, Information Technology, or a related field, with a focus on system administration.
- Experience with cloud computing platforms such as Amazon Web Services, Google Cloud, or Microsoft Azure, essential for managing large-scale ML workloads.
- This role is vital for ensuring the computational backbone supports the company’s ML efforts, focusing on deployment and scalability.
- Values engineering processes and version control (CI/CD).
- Knowledge of containerization technologies like Docker and Kubernetes required for deployments at scale.
- Understanding of distributed training techniques and how to scale models across multi-node clusters aligning with video generation needs.
- Strong problem-solving and communication skills, given the need to collaborate with diverse teams.
About Us
Founded in 2009, IntelliPro is a global leader in talent acquisition and HR solutions. Our commitment to delivering unparalleled service to clients, fostering employee growth, and building enduring partnerships sets us apart. We continue leading global talent solutions with a dynamic presence in over 160 countries, including the USA, China, Canada, Singapore, Japan, Philippines, UK, India, Netherlands, and the EU. IntelliPro, a global leader connecting individuals with rewarding employment opportunities, is dedicated to understanding your career aspirations. As an Equal Opportunity Employer, IntelliPro values diversity and does not discriminate based on race, color, religion, sex, sexual orientation, gender identity, national origin, age, genetic information, disability, or any other legally protected group status. Moreover, our Inclusivity Commitment emphasizes embracing candidates of all abilities and ensures that our hiring and interview processes accommodate the needs of all applicants. Learn more about our commitment to diversity and inclusivity at https://intelliprogroup.com/.
Compensation
The pay offered to a successful candidate will be determined by various factors, including education, work experience, location, job responsibilities, certifications, and more. Additionally, IntelliPro provides a comprehensive benefits package, all subject to eligibility.
#J-18808-Ljbffr
In Summary: IntelliPro is hiring Machine Learning Engineer, Training Infrastructure . The role is vital for ensuring the computational backbone supports the company’s ML efforts, focusing on deployment and scalability . The pay offered to a successful candidate will be determined by education, work experience, location, job responsibilities, certifications, and more .
En Español:
Presentación general
Título del trabajo: Ingeniero de Aprendizaje Automático, Infraestructura de Capacitación Tipo de puesto: Localización a tiempo completo: San Francisco, CA, EE.UU.
Responsabilidades
- Diseñar, implementar y mantener soluciones de computación escalables para el entrenamiento e implementación de modelos ML, asegurando que la infraestructura pueda manejar grandes conjuntos de datos de vídeo.
- Gestionar y optimizar el rendimiento de los clusters informáticos o instancias en la nube, como AWS o Google Cloud, para apoyar la capacitación distribuida.
- Asegurarse de que la infraestructura pueda hacer frente a las tareas intensivas en recursos asociadas con el entrenamiento de grandes modelos generativos.
- Monitorear el rendimiento del sistema e implementar mejoras para maximizar la eficiencia y utilización, utilizando herramientas como Airflow para orquestación.
- Colaborar entre equipos de investigación para comprender sus necesidades computacionales y proporcionar soluciones apropiadas, facilitando el despliegue del modelo sin problemas.
Qualificaciones
- Licenciatura en Ciencias de la Computación, Tecnología de la Información o un campo relacionado, con enfoque en administración del sistema.
- Experiencia con plataformas de computación en la nube como Amazon Web Services, Google Cloud o Microsoft Azure, esencial para gestionar cargas de trabajo ML a gran escala.
- Este papel es vital para garantizar que la columna vertebral computacional apoye los esfuerzos de ML de la empresa, centrándose en el despliegue y la escalabilidad.
- Valora los procesos de ingeniería y el control de versiones (CI/CD).
- Conocimiento de las tecnologías de contenerización como Docker y Kubernetes requerido para los despliegues a escala.
- Comprender las técnicas de capacitación distribuida y cómo escalar los modelos a través de clusters multi-nodo alineados con las necesidades de generación de vídeo.
- Fuertes habilidades en resolución de problemas y comunicación, dada la necesidad de colaborar con equipos diversos.
Sobre nosotros
IntelliPro, fundada en 2009, es un líder global en adquisición de talentos y soluciones de recursos humanos. Nuestro compromiso de ofrecer servicio sin igual a los clientes, fomentar el crecimiento de los empleados y construir asociaciones duraderas nos distingue. Continuamos liderando las soluciones globales de talento con una presencia dinámica en más de 160 países, incluidos Estados Unidos, China, Canadá, Singapur, Japón, Filipinas, Reino Unido, India, Países Bajos y la UE. Intellipro, un líder mundial que conecta individuos con oportunidades laborales gratificantes, está dedicado a comprender sus aspiraciones profesionales. Como Empleador de Igualdad de Oportunidades Aprende, Intelli Pro valora la diversidad y no discrimina por razón de raza, color, religión, sexo, orientación sexual, identidad de género, origen nacional, edad, información genética, discapacidad o cualquier otro estatus legalmente protegido del grupo.
Compensación
El salario ofrecido a un candidato exitoso se determinará por varios factores, incluida la educación, experiencia laboral, ubicación, responsabilidades laborales, certificaciones y más.
#J-18808-Ljbffr