شرح شغل و وظایف
طراحی، توسعه و بهینهسازی پایپلاینهای پردازش داده با استفاده از PySpark برای دادههای حجیم و متنوع
پیادهسازی و آمادهسازی فرآیندهای ETL/ELT جهت استخراج، تبدیل و بارگذاری داده از منابع مختلف
همکاری با تیمهای Big Data و Data Science برای مدلسازی دادههای تحلیلی و ایجاد مدلهای داده مناسب
توسعه الگوریتمها و ماژولهای پردازشی داده با استفاده از PySpark و Python
کار با فرمتهای دادهای مختلف مانند Avro، JSON، CSV و Parquet
استفاده از کتابخانههایی مانند pandas، numpy و pyarrow در پردازش داده
کار با Dataset و RDD و DataFrame در Spark
مشارکت در توسعه و نگهداری سیستمهای نرمافزاری و مستندسازی کدها
الزامات :
تسلط به زبان Python و تجربه توسعه در پروژههای ماژولار و چندلایه
توانایی طراحی معماری نرمافزار و پایپلاینهای دادهای
تسلط به Docker
تسلط به طراحی و استفاده از APIها
حداقل 1 سال سابقه برنامهنویسی با Python
آشنا با Git و Ubuntu
مزیت محسوب میشود :
آشنایی با PySpark و مفاهیم مهندسی داده
تجربه کار با pandas, numpy, pyarrow
تجربه کار با RDD و DataFrame در Spark
آشنایی با فرآیندهای ETL و دادههای حجیم
تجربه کار با پایگاه دادههای SQL یا NoSQL
تجربه کار با HDFS و سیستمهای ذخیرهسازی داده توزیعشده
آشنایی با بروکرهای پیام (Kafka، RabbitMQ و …)
تجربه کار در محیطهای Agile