Главные Новости
Владимир Зеленский Техно Кино Автоновости
Google хочет сделать 25-летний протокол robots.txt интернет-стандартом
Автор: Allnewsua.live

Основным направлением деятельности Google был поиск, и теперь он хочет сделать его основной частью интернет-стандартом.

Интернет-гигант наметил планы превратить протокол исключения роботов (REP) â ???? более известный как robots.txt в интернет-стандарт через 25 лет. Для этого он также сделал свой синтаксический анализатор robots.txt на C ++, который лежит в основе поискового робота Googlebot, доступным на GitHub для всех.

«Мы хотели помочь владельцам веб-сайтов и разработчикам создавать удивительные возможности в Интернете, вместо того, чтобы беспокоиться о том, как управлять сканерами». Гугл сказал. «Вместе с первоначальным автором протокола, веб-мастерами и другими поисковыми системами мы задокументировали, как REP используется в современной сети, и отправили его в IETF».

REP является одним из краеугольных камней веб-поисковых систем и помогает владельцам веб-сайтов легче управлять своими серверными ресурсами. Веб-сканеры как Googlebot? Как Google и другие поисковые системы регулярно сканируют Интернет, чтобы обнаружить новые веб-страницы и добавить их в свой список известных страниц.

Программы-обходчики также используются такими сайтами, как Wayback Machine, для периодического сбора и архивирования веб-страниц и могут быть спроектированы с целью очистки данных с определенных веб-сайтов в аналитических целях.



Файл robots.txt на веб-сайте специально информирует автоматизированные сканеры о том, какой контент сканировать и что исключать, тем самым сводя к минимуму ненужные страницы, которые можно проиндексировать и обслуживать. Это также может запретить сканерам посещать конфиденциальную информацию, хранящуюся в определенных папках, и предотвращать индексацию этих файлов другими поисковыми системами.

Благодаря открытому источнику синтаксического анализа, используемому для расшифровки файла robots.txt, Google стремится исключить путаницу путем создания стандартизированного синтаксиса для создания и анализа правил.

«Это сложная проблема для владельцев веб-сайтов, потому что неоднозначный де-факто стандарт затруднил правильное написание правил». Гугл написал в блоге.

Она сказала, что библиотека поможет разработчикам создавать свои собственные парсеры, которые лучше отражают разбор и сопоставление robots.txt от Google.

Стандарт robots.txt в настоящее время находится на стадии разработки, и Google запросил отзывы у разработчиков. Стандарт будет изменен по мере того, как создатели веб-сайтов будут указывать, сколько информации они хотят сделать доступной для робота Googlebot, и, соответственно, могут появляться в поиске.



    Читать дальше:

    

        Тим Кук из Apple отрицает, что его интерес к дизайну привел к уходу Айва


Читать также: