Über uns
Wir sind über 15.000 Kolleginnen und Kollegen. Jeder von uns hat seinen individuellen Grund, bei der BARMER zu arbeiten - und jeder Grund ist uns wichtig. Aber eines haben wir alle gemeinsam: Wer hier arbeitet, setzt sich täglich für die Gesundheit von Millionen von Menschen ein: Weil wir helfen, gesünder zu leben, bei Krankheit die bestmögliche Versorgung sicherstellen und bei Vorsorge unterstützen.
Mit diesem Anspruch entwickeln wir uns weiter. Hin zu einem dynamischen Unternehmen in einem digitalen Markt, mit Freiraum für neue Impulse und gesellschaftlicher Verantwortung. Unsere besondere Kultur macht es möglich: Wir stehen füreinander ein, über Standorte, Fachrichtungen und Karrierelevel hinweg. Wir arbeiten miteinander, denn nur gemeinsam können wir das höchste Gut des Menschen erhalten und Gesundheit weiterdenken.
Ihre Aufgaben
- Entwickeln innovativer Lösungen zur Verarbeitung und Analyse strukturierter und unstrukturierter Daten (z. B. Text, Bild), um die Grundlage für moderne KI- und Machine-Learning-Anwendungen zu schaffen
- Entwerfen und Betreiben robuster Datenpipelines zur effizienten Verarbeitung großer Datenmengen mithilfe von AWS-Services wie EMR, Step Functions, Open Search, Glue und Athena
- Gestalten und Implementieren von Ingestion-Pipelines für Vektordatenbanken und Schaffen der Basis für Retrieval-Augmented Generation (RAG) und weitere generative KI-Anwendungen
- Sicherstellen der Datenqualität und -konsistenz durch Implementierung geeigneter Validierungs- und Qualitätsmechanismen
- Enge Zusammenarbeit mit ML Engineers und Data Scientists, um sicherzustellen, dass alle Datenanforderungen für Machine-Learning- und AI-Produkte optimal unterstützt werden
Ihr Profil
- Abgeschlossenes Studium (BSc, MSc oder PhD) in Informatik, Data Science, Mathematik oder vergleichbare Qualifikation
- Mindestens 2 Jahre Berufserfahrung im Data Engineering mit Fokus auf KI- und Cloud-Themen
- Sehr gute Kenntnisse in Python sowie Erfahrung im Umgang mit Datenverarbeitungs-Frameworks wie PySpark und Vektordatenbanken
- Nachweisliche Erfahrung im Aufbau, Betrieb und in der Skalierung produktiver Datenpipelines mit hoher Datenqualität und Stabilität
- Praktische Erfahrung in der Verarbeitung und Analyse unstrukturierter Daten wie Text- und Bilddaten
- Vertrautheit mit Cloud-Plattformen, vorzugsweise AWS, und deren Data-&-Analytics-Services (z. B. Glue, Athena, EMR, Step Functions)
- Kenntnisse in CI/CD-Workflows, automatisierten Deployments und Webcrawling
- Selbstständige, proaktive Arbeitsweise, ausgeprägte Kommunikationsfähigkeit sowie sehr gute Deutschkenntnisse (mindestens C1-Niveau)