Apache Beam-Projekt

Diese Seite enthält die Details zu einem Projekt für technische Angelegenheiten, das für die Google-Saison der Dokumente angenommen wurde.

Projektzusammenfassung

Open-Source-Organisation:
Apache Beam
Technischer Redakteur:
Sruthi Sree Kumar
Projektname:
Aktualisierung der Seite „Laufschuh-Vergleich“ und der Matrix der Funktionen
Projektdauer:
Standardlaufzeit (3 Monate)

Projektbeschreibung

Apache Beam ist eine einheitliche Plattform zum Definieren von Batch- und Streaming-Verarbeitungspipelines. Mit Apache Beam können Sie ein Modell definieren, um Datasets unabhängig von einer bestimmten Datenverarbeitungsplattform darzustellen und zu transformieren. Nach der Definition können Sie sie in einem beliebigen der unterstützten Laufzeit-Frameworks (Runner) ausführen, darunter Apache Apex, Apache Flink, Apache Spark und Google Cloud Dataflow. Apache Beam bietet außerdem verschiedene SDKs, mit denen Sie Ihre Pipeline in Programmiersprachen wie Java, Python und Go schreiben können.

Ich möchte meinen Antrag für die GSOD zum Thema „Aktualisierung der Seite zum Vergleich von Runnern/Funktionsmatrix“ einreichen. Da Apache Beam mehrere Runner und SDKs unterstützt, ist es für neue Nutzer schwierig, eine Auswahl zu treffen. Die aktuelle Dokumentation der verschiedenen Läufer gibt einen sehr kurzen Überblick über den Läufer. Meine Idee ist, weitere verständliche Details zu jedem Runner auf der jeweiligen Runner-Dokumentationsseite hinzuzufügen. Außerdem möchte ich die Beschreibung des Beispielprojekts zur Wortanzahl aktualisieren und eine detaillierte Erklärung hinzufügen. Dazu möchte ich jedes Beispiel zum Zählen der Wörter lokal auf meinem Computer ausprobieren, um herauszufinden, ob einige Schritte fehlen, und dem Prozess weitere Erklärungen hinzufügen. Mir ist auch aufgefallen, dass sich die Dokumentation für die Läufer nicht nach einem bestimmten Muster richtet(wenige haben einen Überblick, während andere mit der Verwendung, der Voraussetzung oder einem zufälligen Titel beginnen). Ich werde sie alle so aktualisieren, dass sie einem einzigen einfachen Muster folgen.

Ich plane, eine neue Seite hinzuzufügen, auf der die einzelnen Läufer beschrieben und eine Beschreibung zu jedem von ihnen bereitgestellt wird[BEAM-3220]. Von dieser Seite aus können Nutzer zur Seite mit der detaillierten Beschreibung der einzelnen Auslöser und zur Matrix der Funktionen weitergeleitet werden. Außerdem werde ich hier einen beschreibenden Vergleich der einzelnen Läufer hinzufügen. Derzeit verwende ich Beam NEXMark für das Benchmarking von Flink-Ausführern für meine Masterarbeit. Ich bin mit dem NEXMark-Benchmarking vertraut und möchte hier die Benchmarking-Ergebnisse der einzelnen Ausführer sowohl im Batch- als auch im Streaming-Modus einfügen(BEAM-2944). Ich würde auch die NEXMark-Dokumentation aktualisieren, wenn ich feststelle, dass Parameter/Konfigurationen fehlen oder entfernt wurden. Als ich den Flink Runner verwendet habe, war ich anfangs hängen geblieben, da in der Dokumentation einer der Parameter fehlte. Da ich jetzt mit der NEXMark-Codebasis vertrauter bin, wäre es für mich einfacher, die Läufer zu vergleichen und die Messwerte hinzuzufügen. Auf dieser Seite möchte ich auch eine kurze Zusammenfassung der Produktionsbereitschaft der einzelnen Läufer einfügen.

In der aktuellen Dokumentation ist die Unterstützung für klassische/tragbare Auslöser auf jeder Seite mit der Beschreibung des Auslösers enthalten. Ich denke, es ist auch besser, sie an einem Ort zusammenzufassen, entweder in der Matrix der Funktionen oder auf der neu hinzugefügten Beschreibungsseite. Außerdem wird die Unterstützung für die Portabilität derzeit in einer separaten Google-Tabelle verwaltet, die ich mit der Kompatibilitätsmatrix zusammenführen möchte. https://docs.google.com/spreadsheets/d/1KDa_FGn1ShjomGd-UUDOhuh2q73de2tPz6BqHpzqvNI/edit#gid=0). Im Rahmen dieser Aufgabe plane ich, alle größeren/kleineren Korrekturen zu berücksichtigen, die in BEAM-2888 erwähnt werden.

Ich sehe GSoD als Gelegenheit, Open-Source-Beiträge zu leisten. Ich werde auch weiterhin an Open-Source-Projekten, insbesondere Beam, mitwirken und als aktives Community-Mitglied bleiben. Da Apache Beam eine aktive Community hat und kontinuierlich neue Funktionen entwickelt werden, gibt es meiner Meinung nach immer Möglichkeiten, die Dokumentation zu verbessern und auf dem neuesten Stand zu halten. Außerdem würde ich gerne an der Entwicklung mitwirken. Mit fundierten Beam-Kenntnissen kann ich auch der Nutzer-Community helfen, da ich immer Hilfe von der Community bekam, als ich mit Beam angefangen habe.

Ich glaube, dass ich die richtige Person für dieses Projekt bin, weil:

  1. Ich bin ein Fan von verteilten Systemen und versuche, die internen Abläufe von Datenverarbeitungssystemen zu verstehen.
  2. Ich habe Erfahrung in der Arbeit mit Apache Beam und Apache Flink.
  3. Ich habe als Entwickler bereits Erfahrung mit dem Apache Beam- und Apache Flink-Code.
  4. Ich habe ein Projekt durchgeführt, um verschiedene Strahlenläufer zu vergleichen.
  5. Ich habe Erfahrung im Schreiben von technischen Blogs, in denen Konzepte der Big-Data-Verarbeitung und verteilter Systeme erklärt werden.
  6. Derzeit arbeite ich an meiner Masterarbeit zur Verbesserung der Leistung des Apache Flink-Zustands-Back-Ends, für das ich die Apache Beam NEXMark-Implementierung für das Benchmarking verwende. Außerdem habe ich an der Aktualisierung der Apache Beam-Dokumentation mitgewirkt.
  7. Ich habe vier Jahre Erfahrung als Softwareentwickler und habe mehrere technische Designdokumente sowie Produktdokumentationen und Readme-Dateien verfasst(auf die ich im Moment keinen Zugriff habe).
  8. Ich schreibe die Dokumentation so, dass sie auf den ersten Blick für alle ohne Vorkenntnisse verständlich ist.