Важно осознавать, что не все боты занимаются накруткой поведенческих факторов! Многие из них собирают информацию о сайте, ищут уязвимости для доступа к нему, перегружают сервер для проведения DDoS-атак и выполняют другие действия.
Прежде чем мы начнём блокировать ботов, необходимо понять, кто они такие и каковы их цели.
netEstate NE Crawler
(+http://www.website-datenbank.de/)
Эта строка пользовательского агента принадлежит netEstate NE Crawler — библиотеке, которая выполняет HTTP-запросы. Чаще всего она используется в автоматическом режиме в качестве веб-сканера или бота.
netEstate NE Crawler анализирует веб-страницы с точки зрения критериев SEO (поисковой оптимизации). netEstate NE Crawler может проверять исходящие ссылки и содержимое веб-страницы чтобы понять связи по ссылкам между веб-страницами. Эта информация используется для SEO-анализа.
| Браузер | |
| Имя | Поисковик netEstate NE |
| Разработчик | netEstate GmbH |
| Тип | Бот / Краулер |
| Возможности | |
| Элементы управления ActiveX | НЕТ |
| Фоновые звуки | НЕТ |
| Файлы cookie | НЕТ |
| Рамки | НЕТ |
| Фреймы Iframes | НЕТ |
| Java — апплеты | НЕТ |
| JavaScript | НЕТ |
| Таблицы | НЕТ |
| VBScript | НЕТ |
| Свойства | |
| Устройство для чтения RSS | НЕТ |
| Фальшивый | НЕТ |
| Краулер | ДА |
| Анонимизированный | НЕТ |
| Мобильный | НЕТ |
| Таблетка | НЕТ |
| Измененный | НЕТ |
| Бета-версия | НЕТ |
| Альфа — версия | НЕТ |
| Поддержка CSS | |
| CSS 1 | НЕТ |
| CSS 2 | НЕТ |
| CSS 3 | НЕТ |
| CSS 4 | НЕТ |
Timpibot
Timpibot — это продукт компании Timpi, который в настоящее время заблокирован на 3% популярных веб-сайтов, доступных для индексации.
Timpibot создан для сбора данных из интернета и использования их в обучении моделей искусственного интеллекта.
В отличие от обычных парсеров, Timpibot — это парсер данных, который использует искусственный интеллект для сканирования и индексации веб-контента.
Как и у других парсеров, у Timpibot нет чёткого графика посещения сайтов. Он выбирает сайты, которые содержат больше информации и имеют более ценный контент, чтобы использовать их данные для обучения модели искусственного интеллекта.
Webzio-Extended
Webzio-Extended — это поисковый робот, разработанный компанией Webz.io. Он предназначен для сбора информации с веб-сайтов и её последующей продажи другим организациям. Эти данные обычно используются для обучения моделей искусственного интеллекта.
Owler
На сайте https://openwebsearch.eu/owler/ можно увидеть заявление о том, что веб-сканер «OWLer — это дружелюбный исследователь, который строго следует протоколу robots.txt, обеспечивая законное и уважительное сканирование в интернете. OWLer использует две основные версии веб-краулера: экспериментальную и стабильную. Последняя в настоящее время построена на основе надёжной платформы Apache Storm и технологий StormCrawler. Веб-сканер сканирует Интернет, чтобы создать открытый веб-индекс и создать более открытую экосистему интернет-поиска, которая также позволяет веб-мастерам и производителям контента лучше контролировать, как и для чего используется их ценный контент.
CCBot/2.0
CCBot/2.0 — это бот, который собирает информацию для дальнейшего анализа. Он доступен по адресу https://commoncrawl.org/faq/.
DataForSeoBot
Это веб-краулер, который применяется компанией DataForSEO для сбора информации о сайтах и их оптимизации.
YaK
Бот, созданный компанией LinkFluence, предназначен для сбора информации в коммерческих целях. Он может быть использован против вас.
BLEXBot
Поисковый робот, созданный компанией BLEXBot.com, предназначен для индексации новых веб-страниц.
Barkrowler/0.9
Barkrowler исследует ссылки, которые встречаются на общедоступных страницах, и благодаря этому может получить доступ к каждой странице, которая была упомянута в открытых источниках.
BackupLand/1.0
В случае вашего несогласия с тем, чтобы эта организация выполняла резервное копирование вашего сайта без вашего разрешения, блокируем доступ.
l9scan/2.0.0333e21343e2033313e25343
Бот представляет опасность. Он отправляет запрос (_all_dbs), пытаясь получить доступ к базе данных. В его пользовательском агенте также присутствует: +https://leakix.net.
Особенность этого бота заключается в том, что после /2.0 он может генерировать случайные символы. Это следует учитывать при разработке правил блокировки.
ImagesiftBot
На сайте imagesift.com можно увидеть заявление о том, что веб-сканер ищет общедоступные изображения для поддержки набора продуктов веб-аналитики.
В логах (ImagesiftBot; +imagesift.com) можно увидеть, что бот часто делает запросы. Он также сканирует ALT-ы ваших изображений, и эти ключи могут быть использованы конкурентами. Блокируем.
Go-http-client/1.1
Бот представляет опасность. Он активно сканирует ваш сайт в поисках уязвимостей.
Бот пытается получить информацию о конфигурации сайта, ищет запросы, созданные сайтом, а также пытается получить список пользователей через RestApi.
Кроме того, бот ищет файлы проектов /jira-webapp-dist.
Версия бота — 2.0.
axios/1.6.7
Бот постоянно ищет файл /ads.txt. В описании бота указано: Axios — это простой клиент HTTP, основанный на промисах, который работает в браузере и на Node.js. Axios предлагает удобную библиотеку в компактном пакете с гибким интерфейсом. Можно настроить блокировку, чтобы не видеть лишние запросы.
AwarioSmartBot/1.0
Эти веб-сканеры, разработанные компанией Awario, предназначены для поиска и сбора новых и обновлённых данных из интернета. Они используются маркетологами по всему миру.
Если вы не хотите, чтобы маркетологи получали доступ к вашему контенту с помощью парсинга, вы можете заблокировать эти сканеры.
Сканеры AwarioSmartBot и AwarioRssBot можно распознать по следующим пользовательским агентам:
Mozilla/5.0 (compatible; AwarioBot/1.0; +https://awario.com/bots.html) AwarioSmartBot/1.0 ( +https://awario.com/bots.html; bots@awario.com) AwarioRssBot/1.0 ( +https://awario.com/bots.html; bots@awario.com)
PostmanRuntime/7.36.3
Бот постоянно ищет файлы /ads.txt. На сайте бота можно прочитать:
«Postman — это инструмент для создания и использования API. Он упрощает каждый этап разработки API и улучшает совместную работу, позволяя создавать более качественные API быстрее.
При блокировке не забывайте, что у бота есть несколько версий».
Bytespider
Бот, который создаёт множество проблем для владельцев сайта, может менять IP-адреса и отправлять более тысячи запросов в день. Блокируем его!
Известно, что этот бот связан с китайской компанией Bytedance, которая владеет несколькими популярными сервисами, включая платформы для обмена видео TikTok и Xigua, новостные агрегаторы Toutiao и BaBe, а также социальную сеть Helo.
Scrapy
Это не просто бот, а целый инструментарий для сбора информации. Он способен обходить сайты с открытым кодом. Рекомендуется его блокировать.
Rome Client (http://tinyurl.com/64t5n)
Выгружает данные сайта для своих целей. Блокируем.
ALittle Client
Бот, представляющий угрозу, ищет слабые места в файлах сайта. Необходимо принять меры для его блокировки!
Keys-so-bot
Очередной бот сервиса и анализа конкурентов в SEO и PPC. Блокируем!
GetIntent Crawler
Выполняется запрос на получение файла ads.txt по протоколу HTTP версии 1.1.
Запрос исходит от поискового робота GetIntent Crawler (http://getintent.com/bot.html). Блокируем!
Screaming Frog SEO Spider/19.6
Screaming Frog SEO Spider — это инструмент для анализа сайтов, который помогает вашим конкурентам оптимизировать внутреннюю структуру своих веб-ресурсов. В процессе анализа ваш конкурент может выявить уязвимости в вашей SEO-стратегии. Блокируйте, пока не стало слишком поздно.
GuzzleHttp/7
Он может отправлять как синхронные, так и асинхронные запросы через один и тот же интерфейс. Также он создаёт запросы для отправки POST-запросов, потоковой загрузки больших файлов, использования HTTP-куки, загрузки данных в формате JSON и т. д.
Этот бот генерирует большое количество запросов, поэтому я рекомендую блокировать его.
SemrushBot
Инструмент для сбора информации в интернете, разработанный SEMrush — сервисом для оптимизации сайтов и продвижения в сети.
MJ12bot
Бот от Majestic, компании, занимающейся SEO и интернет-маркетингом, — MJ12bot — предназначен для формирования индекса веб-страниц.
megaindex.ru/.com/Megaindex
Это специализированный краулер от MegaIndex, сервиса для SEO-специалистов.
niraiya.com
Организация Niraiya специализируется на продаже паролей. В рамках своей деятельности компания проводит аудит веб-ресурсов на предмет выявления уязвимостей, связанных с утечкой паролей.