Как удалить страницу из поисковой выдачи. Как удалить страницу из индекса Удалить url из поиска

Как удалить страницу из индекса поисковых систем и вообще зачем это нужно? В этой статье мы рассмотрим все варианты и ответим на часто задаваемые вопросы.

Зачем удалять страницу(ы) из индекса?

Причин удалить страницу или страницы из индекса может быть много. Самыми распространенными являются:

  • Страница является дублем (например, страницы site.ru/cat/stranica.html и site.ru/cat/stranica могут быть дублями). А как известно всем - дубли в индексе это зло, которое вредит сайту в целом.
  • Страница перестала существовать (например, информация больше не актуальна).
Как долго будет удаляться страница из индекса

Скорость удаления от нас не зависит. Максимальный срок где-то 60..90 дней. Средний срок удаления по моему опыту лежит в районе 25..35 дней. Если мы будем указывать в ручную через панель Яндекс Вебмастера или Google Вебмастера, что страницу нужно удалить, то процесс будет быстрее. Здесь самое главное, чтобы поисковый робот зашел на запрещенную страницу сайта, а далее он уже при обновлении индекса исключит ее из выдачи.

Способы удалить страницу из индекса

В рассмотренных ниже вариантах страница будет существовать (будет открываться для пользователей), но в индексе поисковиков мы ее запретим (удалим).

1. Через мета тег

Закрывать страницы от индексации с помощью robots.txt удобно тем, что можно сразу массово указать весь раздел или же запретить к индексации группу однотипных страниц. Однако поисковые системы четко говорят, что для них файл роботс не является обязательным в плане выполнения. Т.е. поисковая система в теории может оставить в индексе документ, который закрыт в роботс. Правда я таких примеров не знаю.

3. Через панель вебмастера поисковых систем

И в Яндексе и Google в панели вебмастера есть такая возможность. Однако если вы удаляете страницу подобным образом, то нужно понимать, что страница предварительно должна быть закрыта одним из выше описанных способов, иначе ничего не произойдет. Подобным удалением мы лишь намекаем поисковым роботам, что нужно обязательно зайти на эти страницы в ближайшем обходе.

3.1. Панель Яндекс Вебмастер

Адрес страницы - http://webmaster.yandex.ru/delurl.xml . Зайдя на эту страницу нужно просто указать в форме адрес страницы, которую вы хотите удалить из индекса.

3.2. Панель Google Вебмастер

Адрес страницы - https://www.google.com/webmasters/tools/ . Чтобы попасть на нужную форму выберите сайт из списка (если у вас несколько сайтов) и далее выберите вкладку "Индекс Google" -> "Удалить URL-адреса".

В гугле можно прописать сразу каталог URL-адресов (так же как в robots.txt).

4. Заголовки X-Robots-Tag

Этот способ используется только в Google. Запись о запрете должна находиться в http-заголовках:

X-Robots-Tag : noindex, nofollow

5. Через редирект или 404 ошибку

Удалить из индекса страницу можно также с помощью редиректа или возвращать со страницы 404 ошибку . В таком случае поисковые системы также удалять страницы из индекса.

Мы рассмотрели основные способы по удаление страницы из индекса. Как я уже писал выше скорость удаления в каждом случае разная. Но одно можно сказать точно - это не быстро. В любом случае это займет дней 5-7 минимум.

Многие вебмастера рано или поздно сталкиваются с необходимостью удалить из поисковой системы страницы сайта, которые попали туда по ошибке, перестали быть актуальными, являются дублями или содержат конфиденциальную информацию клиентов (причины могут быть разные). Яркий пример тому уже нашумевшая ситуация с Мегафоном, смс-ки пользователей которого проиндексировал Яндекс, ситуация с интернет-магазинами, когда в поиске можно было найти личную информацию клиентов и подробности их заказов, ситуация с банками и транспортными компаниями и так далее…

Не будем касаться в этой статье причин описанных выше казусов, а рассмотрим, как удалить из Яндекса или Google ненужные страницы. Подразумевается, что они пренадлежат вашему сайту, в противном случае необходимо связываться с владельцем нужного ресурса с соответствующей просьбой.

5 способов удаления страниц из поисковых результатов

1. 404 ошибка

Один из простых способов удаления страницы из поиска это удаление её со своего сайта, с условием, что в дальнейшем, при обращении по старому адресу, сервер выдавал 404-ую ошибку, означающую, что страницы не существует.

HTTP/1.1 404 Not Found

В данном случае придётся подождать, пока робот ещё раз не зайдёт на страницу. Иногда это занимает значительное время, в зависимости от того, как она попала в индекс.

Если страница при удалении её из поиска должна существовать на сайте, то данный способ не подходит, лучше использовать другие, представленные ниже.

2. Файл robots.txt

Очень популярный метод закрыть от индексации целые разделы или отдельные страницы это использование корневого файла robots.txt. Существует множество мануалов, как правильно настроить этот файл. Здесь приведём лишь несколько примеров.

Закрыть раздел администраторской панели от попадания её в индекс поисковиков:

User-Agent: *
Disallow: /admin/

Закрыть определенную страницу от индексации:

User-Agent: *
Disallow: /my_emails.html # закрытие страницы my_emails.html
Disallow: /search.php?q=* # закрытие страниц поиска

В случае с robots.txt тоже придётся ждать переиндексации, пока робот не выкинет из индекса страницу или целый раздел. При этом, некоторые страницы могут остаться в индексе, если причиной их попадания туда было несколько внешних ссылок.

Данный метод неудобно использовать в случае необходимости удаления разных страниц из разных разделов, если невозможно составить общий шаблон для директивы Disallow в robots.txt.

3. Мета-тег robots

Это альтернатива предыдущего метода, только правило задаётся непосредственно в HTML -коде страницы, между тегами .

Удобство мета-тега в том, что его можно добавить на все нужные страницы (с помощью системы управления), попадание которых нежелательно в индекс поисковика, оставляя файл robots.txt при этом простым и понятным. Недостаток данного метода лишь в том, что его сложно внедрить для динамического сайта, использующего один шаблон header.tpl, если отсутствуют специальные навыки.

4. Заголовки X-Robots-Tag

Данный метод используют зарубежные поисковые системы, в том числе Google, как альтернативу предыдущему методу. У Яндекса пока нет официальной информации о поддержке этого http-заголовка, но возможно, в ближайшее время будет.

Суть его использования очень похожа на мета-тег robots, за исключением того, что запись должна находиться в http-заголовках, которые не видны в коде страницы.

X-Robots-Tag: noindex, nofollow

В некоторых, часто неэтичных, случаях его использование очень удобно (например, при обмене ссылками и скрытии страницы линкопомойки).

5. Ручное удаление из панели для вебмастеров

Наконец последний, и самый быстрый способ удаления страниц из индекса – это их ручное удаление.

Единственное условие для ручного удаления страниц – они должны быть закрыты от робота предыдущими методами (в robots.txt, мета-теге или 404-ой ошибкой). Замечено, что Google обрабатывает запросы на удаление в течение нескольких часов, в Яндексе придётся подождать следующего апдейта. Используйте этот метод, если вам надо срочно удалить небольшое количество страниц из поиска.


Улучшение юзабилити 404-ых страниц уменьшает показатель отказов. В статье приведены несколько советов, которые помогут сделать 404-ую страницу более эффективной.

Всё о файле robots.txt
Для тех, кто ещё не сталкивался с настройкой файла robots.txt, данный ресурс будет полезной отправной точкой. Здесь собрано много примеров и другой полезной информации.

Яндекс: Использование robots.txt
Официальные примеры использования файла robots.txt от Яндекса. Также там представлены учитываемые Яндексом директивы и другие советы.


Пример использования HTTP -заголовка X-Robots-Tag в Apache.

Подстраницы, архивы, метки и пр.

Как удалить Replytocom из индекса

Если у вас на сайте древовидные комментарии, в индексе также могут быть страницы с replytocom. Вообще, у меня вместе с ними было 17 000 страниц в индексе, удалив их из индекса на данный момент в Google пока осталось около 2000 страниц. Удалялись долго, почти год. То есть ненужные страницы выпадали по-тихоньку из индекса.

Подобные страницы очень легко удалить с помощью того же самого плагина WordPress SEO by Yoast.

На некоторых сайтах вообще не нужен RSS. Там есть смысл в его отключении. С помощью RSS может попасть всякий шлак в индекс, подобие этого:

Открываем файл functions.php и туда вставляем вот этот код (вставляем перед закрывающим?>):

// Отключаем RSS ленту function fb_disable_feed() { wp_redirect(get_option("siteurl"));exit; } add_action("do_feed", "fb_disable_feed", 1); add_action("do_feed_rdf", "fb_disable_feed", 1); add_action("do_feed_rss", "fb_disable_feed", 1); add_action("do_feed_rss2", "fb_disable_feed", 1); add_action("do_feed_atom", "fb_disable_feed", 1); remove_action("wp_head", "feed_links_extra", 3); remove_action("wp_head", "feed_links", 2); remove_action("wp_head", "rsd_link");

Теперь, если мы увидим страницы вида site.ru/stranica.html/blabla/feed и перейдем на нее, нас перебросит на главную страницу сайта. И Google вскоре исключит подобные страницы из индекса.

Также можно сделать, чтобы перебрасывало не на главную страницу, а на какую-нибудь выбранную (страницу подписки, допустим). Для этого в коде вместо:

Wp_redirect(get_option("siteurl"));exit;

вставляем:

Wp_redirect("http://site.ru/podpiska");exit;

где http://site.ru/podpiska - любая страница, которую вы пропишите.

Как удалить сайт из индекса

Бывает необходимость в том, что сайт молодой и нужно поставить запрет на индексацию до того времени, пока не удалятся "стандартные посты", которые не уникальны, не поменяется шаблон на новый и не добавится десяток страниц по теме. Все это, обычно делается для того, чтобы поисковые системы "скушали" сайт и понимали какая тематика его, направление, структура и пр. с самого начала.

Чтобы исключить весь сайт из индекса, добавьте в header.php до закрывающегося head вот этот код:

Это подойдет, если нужно скрыть определенную html страницу тоже. Например, у вас сверстан какой-либо , отдельно от Вашего шаблона и вам не нужно, чтобы он попал в индекс.

Как ускорить удаление страниц из индекса поисковых систем

Сделанные выше манипуляции исключат появление ненужных страниц в будущем. Старые тоже будут сами "отваливаться" с индекса, но не так быстро, как хотелось бы, если кто-то хочет ускорить процесс и ненужных страниц в дополнительном индексе не так много, то можно поработать немного ручками.

Google

  1. Заходим в панель инструментов Google. Там переходим на наш сайт, вкладка "Индекс Google" -> "Статус индексирования":

  2. Здесь можно увидеть, как ненужные страницы выпадают из индекса. То есть общее количество страниц в индексе регулярно уменьшается. Чтобы ускорить процесс удаления страниц из индекса, просто переходим во вкладку "Удалить URL-адреса":
  3. Там нажимаем на кнопку "Создать новый запрос на удаление":

    Обратите внимание, в robots.txt обязательно должно быть прописано правило, которое запрещает индексировать данное содержимое. То есть то, если вы хотите что-то удалить, URL должен стоять под запретом в robots.txt, иначе страница не удалится из индекса.
  4. Например, у меня в индексе была страница сайт/category/lichnoe/page/5, ее вставляю в поле и нажимаю "Продолжить":
  5. В следующем окне, можно выбрать между: удаление только 1 страницы или целого каталога:

  6. Если требуется удалить только страницу, выбираем "Удалить страницу из результатов поиска и из кеша" и нажимаем "Отправить запрос". Вы увидите подобное уведомление:

  7. Повторюсь, должно быть прописано , который запрещает индексировать данную страницу. В моем случае это вот это правило:
  8. Также вы можете удалить сразу каталог ненужных страниц из индекса. Для этого вставляем не конкретный URL, а к примеру что-то подобное со "звездочкой":

  9. Тем самым, удалится целая рубрика и то, что в ней содержится. Обычно страницы пропадают из индекса в течении 1-х суток. Сроки могут достигать и до 1-ой недели.

Яндекс

В Яндексе принцип такой же. Заходим в "Удалить URL" и там вбиваем URL ненужной страницы, которая попала в индекс Яндекса:

Чтобы страница удалилась из индекса, необходимо, чтобы страница была удалена физически (то есть отдавала , к примеру), либо также была запрещена к индексации с помощью robots.txt или другими способами. Яндекс также удалит страницу из индекса, правда у нее это происходит обычно дольше, чем с Google.

С помощью программы ComparseR

Все эти "ускорения" по удалению страниц с индекса можно сделать с помощью великолепной и не нужно будет сидеть и забивать по одному URL в панели вебмастеров. Программа может позволить удалить ненужные страницы за 1-2 минуты. Очень удобно.

Вывод

В этом уроке я продемонстрировал то, как удалить "мусорные" страницы из индекса, их еще называют "сопли". Их удаляться рекомендуется, но не стоит делать целую драму из этого. А то я помню, как многие истерили по поводу replytocom, мол это какая-то ну ОЧЕНЬ серьезная проблема, грубейшая ошибка в SEO. Я бы это так не назвал, это слишком сильное преувеличение. Просто стремитесь к чистоте поиска, чтобы у Вас на сайте было все пушисто и гладко.

Спасибо за внимание, до скорой встречи! Будут вопросы - с радостью отвечу в комментариях. Пока!

P.s. Нужно продвинуть сайт? Компания Pro Studio - продвижение сайта от профессионалов.

Привет, друзья! Надеюсь, что вы отлично отдохнули на майские праздники: наездились на природу, наелись шашлык и нагулялись по расцветающей природе. Теперь же нужно возвращаться к активной работе =) .

Сегодня я покажу результаты одного небольшого эксперимента по удалению всех страниц сайта из поисковых систем Яндекса и Google. Его выводы помогут при выборе одного из методов для запрета индексирования всего ресурса или отдельных его частей.

Передо мной встала задача - закрыть сайт к индексированию без потери его функционала. То есть ресурс должен работать, но удалиться из индекса поисковых систем. Конечно, самый верный способ просто удалить проект с хостинга. Документы будут отдавать 404-ошибку и со временем "уйдут" из базы поисковиков. Но задача у меня была другая.

  • определить, какой метод запрета индексации приоритетней для поисковых систем;
  • понаблюдать в динамике за скоростью ;
  • собственно, удалить проекты из баз ПС.

В эксперименте участвовало 2 сайта (всем больше года). Первый: в индексе Яндекса 3000 страниц, Google - 2090. Второй: Яндекс - 734, Google - 733. Если не удалять ресурс с хостинга, то остаются 2 популярных варианта: тег meta name="robots" и запрет в robots.txt.

Для первого сайта на каждой странице была добавлена строка:

Для второго был составлен следующий robots.txt:

User-agent: *
Disallow: /

Эксперимент стартовал 14 декабря и продолжился до 9 мая. Данные снимались примерно на даты апдейтов Яндекса.

Результаты

Ниже графики динамики количества проиндексированных страниц. Сначала сайт №1 (метод удаления тег meta name="robots").

Как видно, поисковые системы вели себя примерно по одному сценарию. Но есть и различия. В Яндексе ресурс был полностью удален 10 февраля, когда в Google оставалось еще 224 страницы. Что говорить, спустя 5 месяцев там еще остается 2 десятка документов. Гугл очень трепетно относится к проиндексированным страницам и не хочет никак их отпускать .

Сайт №2 (способ запрета файл - robots.txt).

Здесь ситуация разворачивалась интереснее . Яндекс достаточно быстро (меньше чем за месяц) удалил все страницы. Гугл же за месяц выкинул из индекса около 100 документов, потом через месяц еще 200 и практически застыл на месте.

4 апреля мне надоело ждать и я поменял метод запрета с robots.txt на meta name="robots". Это принесло свои плоды - через месяц в базе Google осталось только 160 страниц. Примерно такое же количество остается и по сей день.

Примечателен еще один момент. Несмотря на то, что страницы из индекса удалялись достаточно долго, трафик с поисковиков начал падать значительно быстрее.

Получается, что ПС понимают, что вебмастер запретил ресурс или его документы к индексированию, но почему-то продолжают их там держать .

Выводы

  1. Яндекс любит больше работу с robots.txt;
  2. Google любит больше работу с meta name="robots". В связи с тем, что Гугл крайне не любит robots.txt, то универсальным будет именно способ с тегом. Совмещать методы нельзя, потому как, запретив ресурс в robots.txt, поисковый паук не сможет прочитать правила для meta name="robots".
  3. Зеркало Рунета достаточно быстро удаляет документы при любом методе. Зарубежный поисковик делает это неохотно - очень тяжело добиться полного удаления из базы.

Вот такой получился небольшой эксперимент. Да, конечно, выборка совсем небольшая, но и она смогла подтвердить мои предположения. В прикладном плане это можно использовать, когда есть необходимость закрыть определенные документы для индексирования: предпочтительно использовать meta name="robots" вместо директив в robots.txt.

А какие наблюдения по этой теме есть у вас? Поделитесь своим опытом в комментариях !