Nowe projekty typu open source związane z plikiem robots.txt

Poniedziałek, 21 września 2020 r.

W ubiegłym roku udostępniliśmy społeczności open source parser i mechanizm przypisywania pliku robots.txt, którego używamy w naszych systemach produkcyjnych. Od tamtej pory obserwujemy, że użytkownicy wykorzystują go do tworzenia nowych narzędzi i rozbudowują bibliotekę open source, w rezultacie ulepszając nasze systemy produkcyjne. Udostępniają też wersje dla nowych języków, takich jak golang czy rust, które ułatwiają programistom tworzenie nowych narzędzi.

Wkrótce skończy się okres stażu w Google, więc chcemy przedstawić 2 nowe wersje kodu związanego z plikiem robots.txt, które są rezultatem pracy 2 stażystów współpracujących z zespołem Search Open Sourcing: Andreei DutulescuIana Dolzhanskiego.

Test specyfikacji pliku robots.txt

Przede wszystkim udostępniamy przygotowaną przez Andreę platformę testową dla twórców parserów pliku robots.txt. Jest to narzędzie do testów, które może sprawdzać, czy parser pliku robots.txt jest zgodny z protokołem Robots Exclusion Protocol oraz jaki jest zakres tej zgodności. Obecnie nie ma żadnego oficjalnego i dokładnego sposobu sprawdzania poprawności działania parsera, dlatego Andreea opracowała narzędzie, za pomocą którego można tworzyć parsery pliku robots.txt zgodne z tym protokołem.

Utworzony w Javie parser i mechanizm przypisywania pliku robots.txt

Wprowadzamy też utworzony przez Iana oficjalny port w Javie dla parsera pliku robots.txt napisanego w C++. Java to trzeci najpopularniejszy język programowania na GitHubie. Jest on też powszechnie używany w Google, więc nic dziwnego, że port na ten język był najbardziej oczekiwaną wersją. Pod względem funkcji i sposobu działania nowe narzędzie to dokładna kopia parsera w C++. Port w Javie został dokładnie przetestowany pod kątem zgodności z dużym zestawem reguł w pliku robots.txt. Zespoły już planują korzystać z utworzonego w Javie parsera pliku robots.txt w systemach produkcyjnych Google. Mamy nadzieję, że to narzędzie okaże się przydatne.

Jak zwykle zachęcamy do współpracy przy tych projektach. Jeśli udało Ci się stworzyć coś ciekawego za pomocą parsera pliku robots.txt w C++ lub przy użyciu nowych narzędzi, daj nam znać. Być może będziemy mogli pomóc Ci w rozpowszechnieniu informacji na ten temat. W przypadku znalezienia błędu pomóż nam go naprawić, zgłaszając problem na GitHubie lub bezpośrednio przesyłając żądanie pull. Jeśli masz pytania lub uwagi dotyczące tych projektów, napisz do nas na Twitter.

Cieszymy się, że mogliśmy gościć Andreę i Iana. Szkoda, że ich staż dobiegł końca. Opublikowany przez nich kod pozwala ulepszać internet. Mamy nadzieję, że w przyszłości będziemy mogli ponownie powitać ich w Google.