В очередной раз наткнулся в сети на статью про эксплуатацию Apache Airflow в среде Kubernetes: What we learned after running Airflow on Kubernetes for 2 years. У автора развёрнут Airflow с 300 дагами и около 5 000 задачами. Преимущественно они запускают лёгкие таски по типу dbt-трансформаций, поэтому при использовании KubernetesExecutor
столкнулись с тем, что инициализация Pod занимает больше времени чем выполнение самой задачи. Выбор в итоге пал на CeleryExecutor. В целом статья не столько про нюансы работы Airflow внутри Kubernetes-кластера сколько про опыт эксплуатации инструмента в их конкретном случае. Полезно.
В нашей команде Airflow также является ключевым инструментом для выполнения регулярных и критических задач. Прямо сейчас в нём 5614 дагов, работает это всё на Amazon MWAA (Managed Airflow от AWS). Накидайте 👍🏻, если вам интересно почитать о моём опыте эксплуатации Airflow.
>>Click here to continue<<