Über das Unternehmen
Wir entwickeln Software-Produkte, die unseren Kunden ermöglichen, sich auf ein besseres Leben ihrer Klientinnen durch mehr Zeit für Pflege und Betreuung zu konzentrieren.
Die Aufgabe
Wir suchen einen AI Platform Engineer, der sich im Spannungsfeld von Infrastruktur, KI-Systemen und DevOps zuhause fühlt. In dieser Rolle entwirfst und skalierst du das technische Fundament unserer AI-Plattform und stellst hohe Verfügbarkeit, niedrige Latenzen sowie die nahtlose Integration von Machine-Learning-Funktionalitäten in Produktionsumgebungen sicher.
Deine Aufgaben
- Konzipieren, entwickeln und betreiben von Go-Microservices für KI-Modell-Inferenz, Datenverarbeitungspipelines und Echtzeit-Streaming-Workflows
- Architekturieren skalierbarer APIs (gRPC/REST) als Brücke zwischen KI-Modellen und produktiven Anwendungen
- Verantwortung für Kubernetes-Infrastruktur (EKS) einschließlich Deployments, Autoscaling-Strategien, Service Mesh und Cluster-Monitoring
- Implementierung von Service-zu-Service-Kommunikation mittels gRPC und Message Queues (RabbitMQ/SQS) für asynchrone Verarbeitung
- Integration von Cloud-KI-Services (AWS Bedrock, OpenAI, Anthropic) und Verwaltung der Model-Serving-Infrastruktur
- Entwicklung von Multi-Tenant-Funktionalitäten wie Authentifizierung (JWT/JWKS), Rate Limiting, Usage Tracking und Mandantentrennung
- Zusammenarbeit mit Data & AI Team für produktionsreife Machine-Learning-Modelle einschließlich Health Checks, Circuit Breaker und Graceful Degradation
- Etablierung umfassender Observability-Konzepte mit strukturiertem Logging, Metriken (Prometheus), Distributed Tracing (Jaeger/Tempo) und Alerting
- Implementierung von CI/CD-Pipelines und Infrastructure-as-Code (Terraform) für automatisierte Deployments und Disaster-Recovery
- Gewährleistung hoher Verfügbarkeit durch Monitoring, Incident Response und Post-Mortem-Analysen
- Optimierung der Ressourcennutzung für GPU-Workloads und Entwicklung kosteneffizienter Skalierungsstrategien
Anforderungen
- Mindestens 3 Jahre professionelle Go-Entwicklung mit fundierten Kenntnissen von Concurrency-Patterns, Interfaces, Channels und Fehlerbehandlung
- Mindestens 3 Jahre Erfahrung im Betrieb produktiver Kubernetes-Cluster einschließlich Deployments, Services, Ingress-Controllern, Ressourcenmanagement und Troubleshooting
- Tiefes Verständnis verteilter Systeme (CAP-Theorem, Eventual Consistency, Idempotenz, Circuit Breaker, fehlertolerante Architekturen)
- Praktische Erfahrung mit gRPC/Protocol Buffers und Message Queues (RabbitMQ, SQS, Kafka) in Produktionssystemen
- Fundierte Erfahrung mit AWS-Services (EKS, S3, DynamoDB, Lambda) oder vergleichbaren Cloud-Plattformen
- Erfahrung mit Docker, CI/CD-Pipelines, Infrastructure-as-Code und GitOps-Workflows
- Sichere Kommunikation auf Englisch auf C1-Niveau
Benefits
- Verantwortungsvolle Aufgabe mit gesellschaftlichem Sinn
- Spannende, herausfordernde Aufgaben in dynamischem, zukunftsorientiertem Umfeld
- Flexible Arbeitszeiten und hybrides Arbeitsmodell
- Kultur der Wertschätzung und harmonisches Arbeitsklima in internationalem Unternehmen
- Kreatives Arbeitsumfeld mit flachen Hierarchien und kurzen Entscheidungswegen
- Attraktive Vergütungsmodelle und unbefristeter Arbeitsvertrag
- Arbeitgeberzuschuss für betriebliche Altersvorsorge
- Corporate Benefits, JobRad-Leasing und vollfinanziertes Deutschlandticket