Apache Airflow 项目
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
本页面包含 Google 文档季接受的技术写作项目的详细信息。
项目摘要
- 开源组织:
- Apache Airflow
- 技术文档工程师:
- kartik khare
- 项目名称:
- 如何创建工作流
- 项目时长:
- 标准时长(3 个月)
Project description
我将着手编写有关如何轻松高效地创建新工作流的文档。
工作流包含以下步骤:
- 读取
- 预处理
- 正在处理
- 正在进行处理后工作
- 保存/操作
- 监控
每个步骤都可能涉及多个任务,并且可以在每个步骤之后执行多种操作,例如,如果某个阶段有 2 项或更多任务失败,则中止作业;如果某项任务至少失败 2 次,则重新运行该任务。
工作流的其他部分包括并行执行 2 项或更多作业,然后将其合并结果用于下一个阶段。
工作流的另一个方面是,如果发生任何问题,通过邮件、Slack 或寻呼器值班提醒用户。
我还计划添加一些使用工作流的重要方式,例如在下游 Kafka 主题中的任何缺失数据上重启实时流式作业。
我将与导师合作,进一步完善项目范围,然后完成后续的任务。
期待几个月的精彩表现。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-07-25。
[null,null,["最后更新时间 (UTC):2025-07-25。"],[],["The project focuses on documenting the creation of new workflows for Apache Airflow. Key steps in workflows include reading, pre-processing, processing, post-processing, saving/action, and monitoring, each potentially involving multiple tasks. Workflows can handle task failures, parallel job execution, and combined result utilization. Alerting users via mail, Slack, or PagerDuty in case of errors is also part of workflows. The project will also include workflows for running real-time streaming jobs and restarting them on missing data.\n"],null,[]]