Data Engineer (m/w/d)

neuland.ai, New Bremen, OH, United States

Ziel der Rolle
Um zuverlässige KI-Automatisierung im großen Maßstab zu ermöglichen, suchen wir einen Data Engineer (m/w/d), der robuste Datenpipelines für den produktiven Einsatz, verteilte Datenverarbeitungssysteme und hochwertige Datenstrukturen für unsere KI-Plattform entwickelt. Du spielst eine zentrale Rolle dabei, sicherzustellen, dass KI-Systeme schnell, sicher und strukturiert auf die benötigten Daten zugreifen können.

Deine Aufgaben

Design und Aufbau skalierbarer Datenpipelines zur Aufnahme, Transformation und Bereitstellung strukturierter und unstrukturierter Daten

Entwicklung verteilter Datenverarbeitungs-Workflows zur Unterstützung von KI-Features wie Wissensabruf, Automatisierungsprozessen und Analytics

Aufbau und Betrieb von Daten-Ingestionssystemen zur Anbindung von Enterprise-APIs, Datenbanken, File Storage und Streaming-Quellen

Modellierung und Optimierung von Datensätzen für KI-Anwendungen, inklusive Embeddings-Pipelines und Vektorindexierung

Sicherstellung von Datenqualität, Konsistenz und Observability über alle Pipelines und Speicherlösungen hinweg

Optimierung von Abfrageperformance, Datenaktualität und Kosteneffizienz in großen Datensystemen

Enge Zusammenarbeit mit AI Engineers zur Umsetzung von Retrieval-Augmented Generation (RAG) und wissensbasierten KI-Features

Implementierung von Batch- und Echtzeitverarbeitung mittels Queues, Streaming-Systemen oder eventgetriebenen Architekturen

Design und Betrieb von Datenspeicherlösungen wie relationalen Datenbanken, Object Storage und Vektordatenbanken

Umsetzung von Data-Governance-Praktiken (z. B. Zugriffskontrolle, Datenherkunft/Lineage und Monitoring)

Zusammenarbeit mit DevOps bei containerisierten Deployments, Infrastrukturautomatisierung und Cloud-Datenservices

Zusammenarbeit mit unserem Data-Research-Team

Dein Profil

Fundierte Erfahrung im Aufbau von Datenpipelines im produktiven Einsatz

Gutes Verständnis von verteilten Systemen und skalierbaren Datenarchitekturen

Erfahrung im Umgang mit großen Datenmengen und deren Performance-Optimierung

Vertrautheit mit modernen Daten-Tools und Workflow-Orchestrierung

Erfahrung in der Bereitstellung von Daten für AI/ML- oder Analytics-Anwendungen

Pragmatistische Arbeitsweise mit Fokus auf Zuverlässigkeit und Wartbarkeit

Fähigkeit zur Zusammenarbeit mit Backend-, AI- und Infrastruktur-Teams

Interesse an KI-getriebenen Datensystemen und neuen Entwicklungen im Bereich Dateninfrastruktur

Unser Tech Stack & Bereiche

SQL (mindestens 5 Jahre Erfahrung)

Praktische Erfahrung mit Python

PostgreSQL / analytische Datenbanken

Konzepte der verteilten Datenverarbeitung

Streaming- / Messaging-Systeme

Datenmodellierung & Pipeline-Orchestrierung

Vektordatenbanken & Embeddings-Pipelines

Cloud-Plattformen (Azure, GCP oder AWS)

Docker & CI/CD

Was wir bieten

Impact: Aufbau intelligenter produktiver Systeme, die den Einsatz von KI in Unternehmen neu definieren

Innovation: Arbeit mit modernsten Frameworks und Modell-Ökosystemen

Kultur: Kollaboratives, kreatives und eigenverantwortliches Team

Flexibilität: Remote-first und flexible Arbeitszeiten

Wachstum: Zugang zu KI-Ressourcen, Tools und Weiterbildungen

Beteiligung: Virtual Stock Option Plan (VSOP)

EEO Statement
Wir bewerten Bewerbungen unabhängig von Herkunft, Geschlecht, Alter, Religion oder Identität und bevorzugen Kandidat:innen aus unterrepräsentierten Gruppen bei gleicher Eignung.

#J-18808-Ljbffr