Ucase Consulting
DATA ENGINEER SPARK/SCALA (IT) / Freelance
Job Location
Paris, France
Job Description
Conception et développement de pipelines de données : Concevoir et développer des pipelines de données robustes et évolutifs utilisant Apache Spark et d?autres outils Big Data. Intégrer et transformer des données en temps réel ou en batch à partir de sources variées (bases de données, APIs, fichiers plats, etc.). Implémenter des solutions de traitement de données massives, principalement avec Spark (Scala et Python). Optimisation et maintenance : Assurer l'optimisation des performances des pipelines de données (gestion des ressources Spark, optimisation des requêtes, réduction des latences, etc.). Maintenir et améliorer la fiabilité des processus de traitement de données et des infrastructures associées. Automatisation des processus : Mettre en place et gérer des workflows d?automatisation des tâches avec Apache Airflow. Automatiser le déploiement et l'exécution des pipelines de données à l'aide de Jenkins. Collaboration avec les équipes de data science et d?infrastructure : Collaborer avec les data scientists pour comprendre les besoins en données et optimiser leur accès. Travailler étroitement avec les équipes d?infrastructure pour assurer la stabilité et la scalabilité des pipelines de données. Veille technologique : Se tenir informé des évolutions des technologies Big Data et des bonnes pratiques pour intégrer de nouvelles fonctionnalités dans les pipelines. Langages de programmation : Scala et Python : Expérience confirmée dans la programmation de pipelines de données en Scala (pour Spark) et en Python. Technologies Big Data : Apache Spark : Maîtrise de Spark pour le traitement de données massives, avec une compréhension approfondie de ses API en Scala et Python. Apache Airflow : Expérience avec la gestion et l'orchestration de workflows de données dans un environnement de production. Outils de CI/CD : Jenkins : Expérience avec Jenkins pour l?automatisation des déploiements et des tests des pipelines de données. Bases de données et gestion des données : Connaissances solides des bases de données relationnelles (SQL, PostgreSQL, etc.) et NoSQL (Cassandra, MongoDB, etc.). Profil candidat: Conception et développement de pipelines de données : Concevoir et développer des pipelines de données robustes et évolutifs utilisant Apache Spark et d?autres outils Big Data. Intégrer et transformer des données en temps réel ou en batch à partir de sources variées (bases de données, APIs, fichiers plats, etc.). Implémenter des solutions de traitement de données massives, principalement avec Spark (Scala et Python). Optimisation et maintenance : Assurer l'optimisation des performances des pipelines de données (gestion des ressources Spark, optimisation des requêtes, réduction des latences, etc.). Maintenir et améliorer la fiabilité des processus de traitement de données et des infrastructures associées. Automatisation des processus : Mettre en place et gérer des workflows d?automatisation des tâches avec Apache Airflow. Automatiser le déploiement et l'exécution des pipelines de données à l'aide de Jenkins. Collaboration avec les équipes de data science et d?infrastructure : Collaborer avec les data scientists pour comprendre les besoins en données et optimiser leur accès. Travailler étroitement avec les équipes d?infrastructure pour assurer la stabilité et la scalabilité des pipelines de données. Veille technologique : Se tenir informé des évolutions des technologies Big Data et des bonnes pratiques pour intégrer de nouvelles fonctionnalités dans les pipelines. Langages de programmation : Scala et Python : Expérience confirmée dans la programmation de pipelines de données en Scala (pour Spark) et en Python. Technologies Big Data : Apache Spark : Maîtrise de Spark pour le traitement de données massives, avec une compréhension approfondie de ses API en Scala et Python. Apache Airflow : Expérience avec la gestion et l'orchestration de workflows de données dans un environnement de production. Outils de CI/CD : Jenkins : Expérience avec Jenkins pour l?automatisation des déploiements et des tests des pipelines de données. Bases de données et gestion des données : Connaissances solides des bases de données relationnelles (SQL, PostgreSQL, etc.) et NoSQL (Cassandra, MongoDB, etc.).
Location: Paris, FR
Posted Date: 1/17/2025
Location: Paris, FR
Posted Date: 1/17/2025
Contact Information
Contact | Human Resources Ucase Consulting |
---|