Адресов похожих прямо много - тысячи штук. Страницы по этим адресам уже давно выдают 404-ю ошибку и не должны индексироваться. Но Яндекс.Вебмастер их тщательно забирает в индекс сайта и дальше они висят там как ошибки. Я пробовал все эти страницы вычищать, но они создаются снова и снова. И буквально тысячами.
Подозреваю, что где-то у нас на сайте ошибка. Как-то неправильно прописана ссылка, которая генерирует такие вот https://cheb.ru/news/%3Fshownews%3D194724?shownews=94938. И надо просканировать сайт, эту ошибку найти и исправить. Ищем, пока не можем найти.
Но можно же как-то узнать информацию: откуда определенный адрес у Яндекса? Где именно он его взял. Вроде это нормальная потребность любого вебмастера узнать источник ссылки, которая появилась.
Про раздел "Сссылки" в Яндекс.Вебмастере знаю. Там очень старая и неактуальная информация
--------------------
Да нормальный был год. Это вы ещё просто 2024-й не видели!
ссылка https://cheb.ru/news/%3Fshownews%3D194724?shownews=94938 если на нее перейти выдает - Чебоксары > Справочник > Error 404 походу битая ссылка вы либо удалили, либо отредактировали данные там еще указано news - возможно удаленная или редактированная новость
для примера - как я понимаю твое сообщение юзер в яндексе задает какой-нибудь поиск по чувашии и яндекс выдает ему битую ссылку https://cheb.ru,,,,,,,,,,,,,,,,,,, ты ж не это хотел спросить?
или сформулируй проблему по-другому, похоуд тебя никто не понял
Не поняли. Проблема понятна. Для чего хотят узнать, где создаётся ссылка на сайт, не понятно. Их же роботы собирают для поисковиков. Созданы они на самом сайте. Собрали их роботы. Поисковик выдаёт собранное. Нет битой страницы на самом сайте, нет проблем. Для поиска битых страниц на самом сайте, наверное, можно своего робота/программу создать. Может готовые есть.
Робот обходит все страницы сайта. Если их с сайта не убрать, он их опять в выдачу добавит. Это машина, она по другому не умеет.
для примера - как я понимаю твое сообщение юзер в яндексе задает какой-нибудь поиск по чувашии и яндекс выдает ему битую ссылку https://cheb.ru,,,,,,,,,,,,,,,,,,, ты ж не это хотел спросить?
До пользователей в поиске такие ссылки не доходят. Просто Яндекс откуда-то скачивает мусорные страницы, потом жалуется на то, что на сайте много муосра, не сообщая о том откуда он ссылки на этот мусор взял. Страницы при этом запрещены к индексированию.
--------------------
Да нормальный был год. Это вы ещё просто 2024-й не видели!
Достучатся до поддержки Яндекс.вебмастера очень сложно. Если же гуглить ответ в их справочнике, там советуют раздел "Ссылки", информация в котором не обрабатывается месяцами.
--------------------
Да нормальный был год. Это вы ещё просто 2024-й не видели!
Подозреваю, что где-то у нас на сайте ошибка. Как-то неправильно прописана ссылка, которая генерирует такие вот https://cheb.ru/news/%3Fshownews%3D194724?shownews=94938. И надо просканировать сайт, эту ошибку найти и исправить. Ищем, пока не можем найти. /right]
Можно добавить в конфиг сервера регулярку на перезапись запроса для исправления последствий.
Итоговая неверная ссылка это результат url_encode(). Проверить можно тут.
Т.е. где-то формируются ссылки, при чём строка ссылки кодируется через url_encode() (PHP).
Ищите, где у вас в коде формируются ссылки как строки и используется url_encode().
Теоретически, часть проблемы индексации и склеивания дублирующихся страниц должно решить добавление мета-тега <link rel="canonical">.
Возможно, где-то используется url_encode() вместо http_build_query().
Вообще, если есть git и дата первого появления неверных ссылок -- просто нужно смотреть коммиты в релизах.
Сообщение отредактировал MPA3b - Mar 18 2024, 15:03
MPA3b, Спасибо за подробный ответ! Будем его изучать.
Пока источник битых ссылок получилось посмотреть в Google Search Console. Здесь:
Страницы > Индексирование страниц > Не найдено (404)
Информация там очень не оперативная. Но, думаю, она может поспособствовать поиску и исправлению ошибок.
regex для grep не скажу, не особо умею в них. а так -- в любой IDE открываем проект, исключаем ядро и модули, ищем вхождение строки url_endcode(, а там смотрим, где есть <a>.
Сообщение отредактировал MPA3b - Mar 18 2024, 15:03