Перечень опасных ботов, которые следует заблокировать на сайте - SOWY.RU
Меню Закрыть

Перечень опасных ботов, которые следует заблокировать на сайте

Важно осознавать, что не все боты занимаются накруткой поведенческих факторов! Многие из них собирают информацию о сайте, ищут уязвимости для доступа к нему, перегружают сервер для проведения DDoS-атак и выполняют другие действия.

Прежде чем мы начнём блокировать ботов, необходимо понять, кто они такие и каковы их цели.

netEstate NE Crawler

(+http://www.website-datenbank.de/)

Эта строка пользовательского агента принадлежит netEstate NE Crawler — библиотеке, которая выполняет HTTP-запросы. Чаще всего она используется в автоматическом режиме в качестве веб-сканера или бота.

netEstate NE Crawler анализирует веб-страницы с точки зрения критериев SEO (поисковой оптимизации). netEstate NE Crawler может проверять исходящие ссылки и содержимое веб-страницы чтобы понять связи по ссылкам между веб-страницами. Эта информация используется для SEO-анализа.

Браузер
Имя Поисковик netEstate NE
Разработчик netEstate GmbH
Тип Бот / Краулер

 

Возможности
Элементы управления ActiveX НЕТ
Фоновые звуки НЕТ
Файлы cookie НЕТ
Рамки НЕТ
Фреймы Iframes НЕТ
Java — апплеты НЕТ
JavaScript НЕТ
Таблицы НЕТ
VBScript НЕТ

 

Свойства
Устройство для чтения RSS НЕТ
Фальшивый НЕТ
Краулер ДА
Анонимизированный НЕТ
Мобильный НЕТ
Таблетка НЕТ
Измененный НЕТ
Бета-версия НЕТ
Альфа — версия НЕТ

 

Поддержка CSS
CSS 1 НЕТ
CSS 2 НЕТ
CSS 3 НЕТ
CSS 4 НЕТ

 


Timpibot

Timpibot — это продукт компании Timpi, который в настоящее время заблокирован на 3% популярных веб-сайтов, доступных для индексации.

Timpibot создан для сбора данных из интернета и использования их в обучении моделей искусственного интеллекта.

В отличие от обычных парсеров, Timpibot — это парсер данных, который использует искусственный интеллект для сканирования и индексации веб-контента.

Как и у других парсеров, у Timpibot нет чёткого графика посещения сайтов. Он выбирает сайты, которые содержат больше информации и имеют более ценный контент, чтобы использовать их данные для обучения модели искусственного интеллекта.


Webzio-Extended

Webzio-Extended — это поисковый робот, разработанный компанией Webz.io. Он предназначен для сбора информации с веб-сайтов и её последующей продажи другим организациям. Эти данные обычно используются для обучения моделей искусственного интеллекта.


Owler

 

На сайте https://openwebsearch.eu/owler/ можно увидеть заявление о том, что веб-сканер «OWLer — это дружелюбный исследователь, который строго следует протоколу robots.txt, обеспечивая законное и уважительное сканирование в интернете. OWLer использует две основные версии веб-краулера: экспериментальную и стабильную. Последняя в настоящее время построена на основе надёжной платформы Apache Storm и технологий StormCrawler. Веб-сканер сканирует Интернет, чтобы создать открытый веб-индекс и создать более открытую экосистему интернет-поиска, которая также позволяет веб-мастерам и производителям контента лучше контролировать, как и для чего используется их ценный контент.


CCBot/2.0

CCBot/2.0 — это бот, который собирает информацию для дальнейшего анализа. Он доступен по адресу https://commoncrawl.org/faq/.


DataForSeoBot

Это веб-краулер, который применяется компанией DataForSEO для сбора информации о сайтах и их оптимизации.


YaK

Бот, созданный компанией LinkFluence, предназначен для сбора информации в коммерческих целях. Он может быть использован против вас.


BLEXBot

Поисковый робот, созданный компанией BLEXBot.com, предназначен для индексации новых веб-страниц.


Barkrowler/0.9

Barkrowler исследует ссылки, которые встречаются на общедоступных страницах, и благодаря этому может получить доступ к каждой странице, которая была упомянута в открытых источниках.


BackupLand/1.0

В случае вашего несогласия с тем, чтобы эта организация выполняла резервное копирование вашего сайта без вашего разрешения, блокируем доступ.


l9scan/2.0.0333e21343e2033313e25343

Бот представляет опасность. Он отправляет запрос (_all_dbs), пытаясь получить доступ к базе данных. В его пользовательском агенте также присутствует: +https://leakix.net.

Особенность этого бота заключается в том, что после /2.0 он может генерировать случайные символы. Это следует учитывать при разработке правил блокировки.


ImagesiftBot

На сайте imagesift.com можно увидеть заявление о том, что веб-сканер ищет общедоступные изображения для поддержки набора продуктов веб-аналитики.

В логах (ImagesiftBot; +imagesift.com) можно увидеть, что бот часто делает запросы. Он также сканирует ALT-ы ваших изображений, и эти ключи могут быть использованы конкурентами. Блокируем.


Go-http-client/1.1

Бот представляет опасность. Он активно сканирует ваш сайт в поисках уязвимостей.

Бот пытается получить информацию о конфигурации сайта, ищет запросы, созданные сайтом, а также пытается получить список пользователей через RestApi.

Кроме того, бот ищет файлы проектов /jira-webapp-dist.

Версия бота — 2.0.


axios/1.6.7

Бот постоянно ищет файл /ads.txt. В описании бота указано: Axios — это простой клиент HTTP, основанный на промисах, который работает в браузере и на Node.js. Axios предлагает удобную библиотеку в компактном пакете с гибким интерфейсом. Можно настроить блокировку, чтобы не видеть лишние запросы.


AwarioSmartBot/1.0

Эти веб-сканеры, разработанные компанией Awario, предназначены для поиска и сбора новых и обновлённых данных из интернета. Они используются маркетологами по всему миру.

Если вы не хотите, чтобы маркетологи получали доступ к вашему контенту с помощью парсинга, вы можете заблокировать эти сканеры.

Сканеры AwarioSmartBot и AwarioRssBot можно распознать по следующим пользовательским агентам:

Mozilla/5.0 (compatible; AwarioBot/1.0; +https://awario.com/bots.html) AwarioSmartBot/1.0 ( +https://awario.com/bots.html; bots@awario.com) AwarioRssBot/1.0 ( +https://awario.com/bots.html; bots@awario.com)


PostmanRuntime/7.36.3

Бот постоянно ищет файлы /ads.txt. На сайте бота можно прочитать:

«Postman — это инструмент для создания и использования API. Он упрощает каждый этап разработки API и улучшает совместную работу, позволяя создавать более качественные API быстрее.

При блокировке не забывайте, что у бота есть несколько версий».


Bytespider

Бот, который создаёт множество проблем для владельцев сайта, может менять IP-адреса и отправлять более тысячи запросов в день. Блокируем его!

Известно, что этот бот связан с китайской компанией Bytedance, которая владеет несколькими популярными сервисами, включая платформы для обмена видео TikTok и Xigua, новостные агрегаторы Toutiao и BaBe, а также социальную сеть Helo.


Scrapy

Это не просто  бот, а целый инструментарий для сбора информации. Он способен обходить сайты с открытым кодом. Рекомендуется его блокировать.


Rome Client (http://tinyurl.com/64t5n)

Выгружает данные сайта для своих целей. Блокируем.


ALittle Client

Бот, представляющий угрозу, ищет слабые места в файлах сайта. Необходимо принять меры для его блокировки!


Keys-so-bot

Очередной бот сервиса и анализа конкурентов в SEO и PPC. Блокируем!


GetIntent Crawler

Выполняется запрос на получение файла ads.txt по протоколу HTTP версии 1.1.
Запрос исходит от поискового робота GetIntent Crawler (http://getintent.com/bot.html). Блокируем!


Screaming Frog SEO Spider/19.6

Screaming Frog SEO Spider — это инструмент для анализа сайтов, который помогает вашим конкурентам оптимизировать внутреннюю структуру своих веб-ресурсов. В процессе анализа ваш конкурент может выявить уязвимости в вашей SEO-стратегии. Блокируйте, пока не стало слишком поздно.


GuzzleHttp/7

Он может отправлять как синхронные, так и асинхронные запросы через один и тот же интерфейс. Также он создаёт запросы для отправки POST-запросов, потоковой загрузки больших файлов, использования HTTP-куки, загрузки данных в формате JSON и т. д.

Этот бот генерирует большое количество запросов, поэтому я рекомендую блокировать его.


SemrushBot

Инструмент для сбора информации в интернете, разработанный SEMrush — сервисом для оптимизации сайтов и продвижения в сети.


MJ12bot

Бот от Majestic, компании, занимающейся SEO и интернет-маркетингом, — MJ12bot — предназначен для формирования индекса веб-страниц.


megaindex.ru/.com/Megaindex

Это специализированный краулер от MegaIndex, сервиса для SEO-специалистов.


niraiya.com

Организация Niraiya специализируется на продаже паролей. В рамках своей деятельности компания проводит аудит веб-ресурсов на предмет выявления уязвимостей, связанных с утечкой паролей.

Опубликовано в Обзоры