Предлагаю вам вольный перевод недавней статьи Адама Лазника в официальном блоге Гугля на тему какие именно документы и веб-страницы Google считает дубликатами, как этого избежать, и что будет, если на вашем сайте все же найдут дубли.
Хорошей новостью явлается замечание Адама, что, цитирую оригинал, we prefer to focus on filtering rather than ranking adjustments, т.е. реально к дубликатам не применяются штрафные санкции, а фильтры применяются уже к результатам выдачи, в зависимости от поискового запроса.
Итак, вот сама статья:
Искусство обращения с дубликатами контента
На прошедшей в Чикаго конференции “Search Engine Strategies” многим из нас, сотрудников Google, задавали вопросы о дубликатах контента. Это не простая тема и тут есть множество нюансов и некоторая путаница в понятиях, так что мы решили помочь установить истину.Что считается дубликатами контента?
Дубликатами обычно считают страницы (расположенные внутри одного или нескольких доменов) значительные части которых совершенно одинаковы или заметно схожи с другими страницами. Как правило, это происходит неумышленно или, по крайней мере, не злонамеренно: например, форумы, которые генерируют страницы для обычных пользователей и урезанные по функциональности страницы для доступа посетителей через мобильные устройства. Или, например, одинаковые страницы товаров в интернет-магазинах, которые доступны (и - что еще хуже - пролинкованы) по разным адресам URL. В некоторых случаях контент копируется на несколько разных доменов в попытке манипулирования поисковым рейтингом или с целью получить дополнительный трафик по низкочастотным запросам.Что не является дубликатами?
Хотя мы и предлагаем пользователям переводчик текста, наши алгоритмы не считают одну и ту же статью, написанную на английском и испанском языках, дубликатами. Также вам не стоит беспокоиться о том, что отдельные небольшие фрагменты текста (цитаты и пр.) могут быть помечены как дубликаты.Почему Google так волнует вопрос о дубликатах?
Наши пользователи обычно хотят видеть в результатах поиска разнообразные сочетания уникального текста. И их, по понятным причинам, раздражает ситуация, когда в результатах поиска они видят один и тот же текст, многократно повторенный. Кроме того, недовольны и вебмастера, когда мы выдаем в результатах сложные URL (вида example.com/contentredir?value=shorty-george&ln=en ) вместо предпочитаемых красивых ЧПУ вида ( example.com/en/shorty-george.htm ).Что Google делает по этому поводу?
Во время индексации сайтов нашими роботами и при выдаче результатов поиска мы усиленно стараемся индексировать и показывать ссылки на страницы с отличной от других информаций. Такая фильтрация контента означает, например, что если на вашем сайте есть как обычные варианты статей, так и версии для печати, и ни один из этих наборов не заблокирован в файле robots.txt или через мета-тэг noindex, мы сами выберем один из вариантов для включения в выдачу. В тех редких случаях, когда мы считаем, что клонирование контента произведено с целью манипулирования нашим поисковым рейтингом или для обмана наших пользователей, мы можем внести соответсвующие изменения в механизмы индексации и ранжирования вовлеченных в клонирование сайтов. Однако, мы предпочитаем фокусировать усилия на фильтрации, а не на подкручивании алгоритмов ранжирования, так что, в подавляющем большинстве случаев, самое худшее для вебмастеров, что может произойти - это то, что в SERP мы покажем “не ту” версию страницы, какую они хотели бы там видеть.Как вебмастеру эффективно решить проблему дубликатов?
Правильное блокирование - вместо того, чтобы позволять нашим алгоритмам определять “лучшую” версию документа, вы можете помочь нам в выборе варианта. Например, если вы не хотите, чтобы мы не индексировали версию для печати - запретите индексацию соответсвующих директорий сайта или используйте регулярные выражения в файле robots.txtИспользуйте HTTP 301 редирект - если вы провели редизайн сайта, поставьте 301 редирект (”RedirectPermanent”) в файле .htaccess для умного перенаправления посетителей и роботов, в том числе и робота Googlebot.
Будьте последовательны - прилагайте усилия для сохранения внутренней ссылочной структуры вашего сайта - не ссылайтесь на одну и ту же страницу разными вариантами типа /page/ /page или /page/index.html
Используйте TLD домены - чтобы помочь нам подобрать наиболее подходящую версию документа, используйте везде, где это возможно, сайты на национальных доменах. У нас больше шансов узнать что контент на сайте в доменной зоне .de ориентирован на немецких пользователей, чем если бы вы разместили его в отдельной директории /de/ на своем сайте, или на поддомене de.site.com
Распространяйте контент с осторожностью - если вы синдицируете свой контент на другие сайты, убедитесь в том, что они ставят обратную ссылку на каждую из оригинальных статей в отдельности. Даже в этом случае имейте в виду, что в выдаче мы покажем ту версию, которую посчитаем наиболее подходящей, исходя из конкретного поискового запроса, и это может быть, а может и не быть предпочитаемая вами версия.
Указывайте предпочтительный домен для сайта - если другие сайты ссылаются на вас в вариантах с www и без в имени сайта, вы можете указать, какой из вариантов предпочтительнее для индексации
Старайтесь поменьше повторяться - например, вместо того, чтобы в конце каждой страницы помещать длинный текст об авторских правах, помещайте краткий текст со ссылкой на полную версию.
Избегайте публикации страниц-заглушек - пользователям не нравится смотреть на пустые страницы.
Постарайтесь не публиковать страницы с отсутствующими обзорами товаров, списков и т.д. так, чтобы посетители вашего сайта (и поисковые роботы) не натыкались на миллионы однотипных пустых страниц “Здесь вы найдете обширный список квартир на продажу в (название города)”.
Разберитесь со своей CMS - убедитесь, что вы знаете, как именно показывается контент на вашем сайте, особенно если на вашем сайте есть блог, форум или другие подобные системы, в которых зачастую один и тот же контент показывается несколько раз в разных форматах.Не беспокойтесь лишний раз - не слишкой волнуйтесь о сайтах, которые воруют ваши тексты. Хотя это и раздражает, очень маловероятно, чтобы эти сайты могли отрицательно повлиять на ваши позиции в Google. Если вы столкнетесь с особо наглым и циничным воровством - отправьте нам DMCA request с притязаниями на авторство контента, и мы разберемся с воришками
Источник: http://gutorov.ru