» я уже касался темы дублированных страниц и сегодня поговорим об этом более подробно.
Что такое дубли страниц ? Это страницы с похожим или одинаковым текстом доступные по разным URL адресам. Например, очень часто встречающиеся дубли главной страницы ресурса
Ниже мы рассмотрим несколько распространенных вариантов дублирования контента, а сейчас давайте поговорим о том, как влияют похожие страницы на продвижение сайта.
Поисковые системы давно научились определять уникальность текста по последовательности символов, т.е по одинаково составленным предложениям, откуда берется последовательность букв и пробелов. Если контент не уникальный (ворованный), то робот без труда это выяснит, а когда не уникальный текст встречается часто, то перспектива попадания такого ресурса под фильтр АГС довольно высока.
Давайте представим себе работу поискового робота. Зайдя на сайт он в первую очередь смотрит на файл robots.txt и от него получает инструкции: что нужно индексировать и что для индексации закрыто. Следующим его действием будет обращение к файлу sitemap.xml, который покажет роботу карту сайта со всем разрешенными маршрутами. Почитайте статью — «Файл sitemap.xml для поисковиков Google и Яндекс .» Получив всю необходимую информацию, робот отправляется выполнять свои привычные функции.
Зайдя на определенную страницу он «впитывает» ее содержимое и сравнивает с уже имеющейся в его электронных мозгах информацией, собранной со всего бескрайнего простора интернета. Уличив текст в не уникальности поисковик не станет индексировать данную страницу и сделает пометку в своей записной книжке, в которую он заносит «провинившиеся» URL адреса. Как Вы наверное уже догадались на эту страницу он больше не вернется, дабы не тратить свое драгоценное время.
Допустим, страница имеет высокую уникальность и робот ее проиндексировал, но пройдя по следующему URL того же ресурса он попадает на страницу с полностью или частично похожим текстом. Как в такой ситуации поступит поисковик? Конечно он тоже не станет индексировать похожий тест, даже если оригинал находиться на том же сайте, но по другому URL. Робот наверняка останется недоволен бесполезно потраченным временем и обязательно сделает пометочку в своем блокноте. Опять же, если такой инцидент будет неоднократно повторяться, то ресурс может пасть в немилость к поисковой системе.
Вывод №1. Похожие страницы расположенные по разными URL отнимают время, которое отводится роботу для индексации сайта. Дубли страниц он все равно индексировать не будет, но потратит часть временного лимита на ознакомление с ними и возможно не успеет добраться до действительно уникального контента.
Вывод№ 2. Дублированный контент отрицательно скажется но продвижении сайта в поисковой системе. Не любят поисковики не уникальные тексты!
Вывод №3. Надо обязательно проверять свой проект на дубли страниц, чтобы избежать проблем перечисленных выше.
Многие совершенно не заботятся об «чистоте» своего контента. Ради интереса я проверил несколько сайтов и был несколько удивлен положению дел с дублями страниц. На блоге одной женщины я вообще не обнаружил файла robots.txt.
Необходимо со всей серьезность бороться с дублями контента и начинать надо с их выявления.
Дубль главной страницы. Пример:
В этом случаи вопрос решается с помощью 301 редиректа — «командой» для сервера через файл.htaccess.
Еще один пример дубля главной страницы:
Чтобы избежать подобного дублирования можно прописать основное зеркало сайта в файле robots.txt в директиве — «Host» для Яндекс:
А также воспользоваться 301 редиректом и указать поисковикам Яндекс и Google на главное зеркало сайта посредством инструментов для веб-мастеров.
Пример дубля главной страницы, который чуть не взорвал мне мозг при поиске решения выглядит так:
Я где-то прочитал, что слеш в конце ссылки на главную страницу, создает дубль и поисковики воспринимают ссылки со слешом и без, как разные URL, ведущие на страницу с одинаковым текстом. Меня забеспокоила даже не сама возможность дублирования, сколько потеря веса главной страницы в такой ситуации.
Я начал копать. По запросу к серверу по вышеупомянутым URL я получил ответ код 200. Код 200 означает — » Запрос пользователя обработан успешно и ответ сервера содержит затребованные данные». Из этого следует, что все-таки дубль на лицо.
Я даже попытался сделать 301 редирект (перенаправление), но команды не действовали, и желанного ответного кода 301 я так и получил. Решение проблемы состояло в отсутствии самой проблемы. Каламбур такой получился. Оказывается, современные браузеры сами подставляют символ «/» в конце строки, делая его невидимым, что автоматически делает дубль невозможным. Вот так!
Ну и еще один пример дубля главной страницы:
Бывают случаи, что по ошибке веб-мастера или глюка поисковика или при других обстоятельствах в индекс попадает ссылка под защищенным протоколом https://. Что же делать в таком случаи и как избежать этого в будущем? Конечно надо удалить ссылки с протоколом https://из поиска, но делать придется в ручную средствами инструментов для веб-мастеров:
В поисковой системе Яндекс, веб- мастер — мои сайты — удалить URL:
Важно ! Директивы, прописанные в файле robots.txt, запрещают поисковым роботам сканировать текст, что уберегает сайт от дублей, но те же директивы не запрещают индексировать URL страниц.
Подробнее читайте в статьях:
Есть еще один довольно действенный способ определения «клонов» с помощью самих поисковых систем. В Яндексе в поле поиска надо вбить: link.сайт.com «Фрагмент теста». Пример:
Яндекс нашел 2 совпадения потому, что я не закрыл от индексации категории и поэтому есть совпадение с анонсом на главной странице. Но если для кулинарного блога участие рубрик в поиске оправдано, то для других тематик, таких как SEO такой необходимости нет и категории лучше закрыть от индексации.
С помощью поиска Google проверить можно так: site:сайт.com «Фрагмент текста». Пример:
Я не буду в этой статье делать подробный обзор популярных программ и сервисов, остановлюсь лишь на тех, которыми сам постоянно пользуюсь.
Для поиска внутренних и внешних дублей советую использовать онлайн сервис www.miratools.ru . Помимо проверки текста сервис включает еще различные интересные возможности.
Программа для поиска дублей — Advego Plagiatus . Очень популярная программа, лично я ей пользуюсь постоянно. Функционал программы простой, чтобы проверить текст достаточно скопировать его и вставить в окно программы и нажать на старт.
После проверки будет представлен отчет об уникальности проверяемого текста в процентах с ссылками на источники совпадений:
Также, будут выделены желтым фоном конкретные фрагменты текста, по которым программы нашла совпадения:
Очень хорошая программа, пользуйтесь и обязательно подпишитесь на обновления блога .
До встречи!
С уважением, Кириллов Виталий
Наверняка, вам не раз приходилось слышать словосочетание “дублированный контент” и вы, как опытный владелец сайта, никогда не стали бы размещать один и тот же контент дважды, не так ли?
Дублированный контент можно сравнить с банковским овердрафтом. Только в этом случае вы расходуете свой ценный краулинговый бюджет.
Краулинговый бюджет - это количество страниц на сайте, которое поисковый робот может сканировать за определенной отрезок времени. Поэтому так важно расходовать его на нужные нам страницы.
Проявляя себя в различных формах, дублированный контент может стать одной из самых неуловимых и невидимых проблем, которая может негативно влиять на ранжирование и продвижение сайта. Его появление зачастую связано с особенностями архитектуры сайта или ограничениями CMS.
К сожалению, нет такого чекера в Google Вебмастере, который бы мог легко обнаружить дубли контента. Даже самые продвинутые сторонние инструменты не всегда хорошо справляются с этой задачей, особенно, когда источник проблемы находится внутри. Ручной проверки не избежать.
Перед вами - список с 8 потенциальными причинами появления дублей страниц на сайте:
Одна из самых быстрых проверок того, что у вас есть две доступные к индексированию версии сайта - это попробовать зайти на него, используя как HTTP, так и HTTPS-протокол. Если обе версии открываются, очевидно, что ваш разработчик перевел сайт на HTTPS и не настроил 301 редирект с HTTP-версии.
До того как Google стал активно призывать веб-мастеров переводить свои сайты полностью на HTTPS, многие подключили HTTPS только на отдельных страницах, которые нуждались в дополнительной безопасности, например, страницы авторизации или страницы с транзакциями. Если разработчик использовал относительные ссылки, то каждый раз, когда поисковый робот посещает защищенные страницы, он вынужден добавлять HTTPS ко всем URL, что, в конечном счете, приводит к появлению дублей страниц.
Таким же образом, нужно проверить нет ли у сайта двух версий страниц как с WWW, так и без WWW. Решить эту проблему можно настроив 301 редирект и указав предпочитаемый домен (главное зеркало) в Google Вебмастере.
До тех пор пока не существует законодательства, позволяющего вернуть вам украденный контент, есть только способы, которые вы можете использовать в коде, чтобы усложнить задачу ворам, пытающимся выдать ваш контент за свой собственный. Для этого всегда используйте на сайте абсолютные ссылки вместо относительных:
Абсолютные ссылки:
http://seo.artox-media.ru/wiki/dublirovannyi-kontent.html (начинается с указания протокола и содержит имя сайта).
Относительные ссылки:
/wiki/dublirovannyi-kontent.html (берет начало от корня сайта или текущего документа).
Почему это важно? При использовании относительных URL-адресов, ваш браузер предполагает, что ссылка указывает на страницу, на которой вы уже находитесь. Некоторые разработчики предпочитают относительные URL-адреса, потому что они упрощают процесс написания кода.
Если разработчик не желает переписывать весь сайт, можно использовать ссылающиеся на себя канонические теги. Когда ваш контент будет размещен на другом сайте, канонические теги могут остаться, помогая Google определить, что ваш сайт является первоисточником контента.
Чтобы узнать, что ваш контент украли, можно использовать любой из бесплатных сервисов (например, Siteliner, Copyscape. Etxt, AdvegoPlagiatus и др.)
Предположим, вы отказались от какого-либо поддомена и решили использовать вместо этого субдиректорию. Или, например, вы создали совершенно новый сайт. В любом случае, ваш старый контент может быть доступен и, более того, он может плохо повлиять на ранжирование новых страниц. Для решения проблемы лучше всего использовать 301 редирект с этого субдомена на новый сайт/каталог. Это особенно важно, если ваш старый ресурс имеет большую ссылочную массу.
Решили обновить дизайн? Готовите ваш сайт к большим переменам? Если перед этим вы не закрыли свои тестовые страницы (а тем более дев-версии сайта) от индексации, то вы не застрахованы от того, что робот их не обнаружит.
Существует распространенное заблуждение, что никто никогда не догадается ввести в браузерную строку какой-то выдуманный URL на вашем сайте http://razrabotka.sait.ru/, если нигде нет ссылки на нее в коде, кажется, что это просто нереально. Но это не так! Google постоянно ищет и индексирует новые веб-страницы, в том числе и находящиеся в разработке. Все это может повлиять на результаты ранжирования, а также ввести пользователей в заблуждение.
Это не только наносит огромный урон сайту с точки зрения конфиденциальности и безопасности, но также может нанести серьезный ущерб краулинговому бюджету. Избежать этого просто: используйте мета-тег robots c noindex на всех тестовых страницах или заблокируйте их в файле robots.txt.
или
Оба варианта обозначают запрет на индексацию текста и переход по ссылкам на странице.
Помните, что, перенося страницы из дев-режима на лив, необходимо удалить эти блокирующие директивы из кода.
Чаще всего динамические URL генерируются на основе используемых на сайте фильтров. Как же именно выглядят такие URL?
URL 1: www.shop.com/chocolate/cake/vanilla
URL 2: www.shop.com/chocolate/cake/vanilla%8in
URL 3: www.shop.com/chocolate/cake/vanilla%8in=marble
Это простой пример, однако, ваша CMS может добавлять различные параметры фильтров и генерировать излишне длинные строки URL-адресов, которые могут участвовать в процессе сканирования поисковым роботом.
Таким образом, Google может создавать и индексировать бесконечные комбинации URL, которые пользователь даже не запрашивает.
В данном случае, примените канонический тег с указанием предпочитаемого URL и настройте параметры сканирования URL в Google Вебмастере.
Вы можете пропустить этот шаг и заблокировать определенные URL-адреса в файле robots.txt с использованием символа (*), чтобы запретить индексацию всего, что входит в указанный каталог. Например: Disallow:/chocolate/cake/*
Ваш бизнес работает в нескольких регионах? Некоторые компании предпочитают создать основную целевую страницу, которая позволяет пользователям выбрать наиболее подходящий для них регион, а затем перенаправляет их в соответствующий подкаталог. Например:
URL 1: www.wonderfullywhisked.com/fr
URL 2: www.wonderfullywhisked.com/de
Хоть это и может казаться логичным, подумайте, действительно ли существует необходимость в этой настройке. Ведь, в то время как вы нацелены на разную аудиторию, есть вероятность, что оба подкаталога будут полностью дублировать друг друга по содержанию. Чтобы решить эту проблему, используйте Google Вебмастер для настройки геотаргетинга.
Синдицикация контента - повторное использование одного и того же контента на разных ресурсах с целью продвижения вашего сайта/бренда/контента и привлечения дополнительного трафика.
Синдикация является отличным способом ознакомить новую аудиторию с вашим сайтом, однако, стоит определить правила для тех, кто будет перепубликовать ваш контент.
В идеале, необходимо попросить издателей использовать атрибут “rel=canonical” на странице материала, чтобы указать поисковым системам, что ваш веб-сайт является первоисточником контента. Кроме этого, они также могут закрыть контент от индексации, что позволит решить потенциальные проблемы с дублированием в результатах поиска.
В конце концов, издатели могут ссылаться на первоначальную статью с указанием вас как первоисточника.
Схожий контент может причинить не меньше вреда, чем дублированный. В определении Google про дублированный контент даже фигурирует фраза «существенно похожий». И пусть части материала могут быть разными по синтаксису, общее правило заключается в том, что, если вы можете почерпнуть из них одну и ту же информацию, то нет никакой причины для существования на веб-сайте их обеих. Здесь, отличным вариантом решения проблемы является использование канонического тега или рассмотрение вопроса об объединении этих частей контента в один.
Очень важно следить за появлением дублей контента на сайте, чтобы избежать израсходования вашего краулингового бюджета, ведь это препятствует поиску и индексированию роботом новых и нужных вам страниц. В данном случае, лучшими инструментами в вашем арсенале могут послужить канонические теги, 301 редирект, атрибуты nofollow/noindex в мета-теге "robots" и директивы в файле robots.txt. Работайте над выявлением и удалением дублированного контента, добавив эти пункты проверки в свой seo-аудит.
Дублированный контент или просто дубли - это страницы на вашем сайте, которые полностью (четкие дубли) или частично (нечеткие дубли) совпадают друг с другом, но каждая из них имеет свой URL. Одна страница может иметь как один, так и несколько дублей.
Как для четких, так и для нечетких дублей есть несколько причин возникновения. Четкие дубли могут возникнуть по следующим причинам:
Нечеткие дубли на вашем сайте могут появиться по следующим причинам:
Чтобы узнать, есть у страниц сайта дубли или нет, существует несколько способов.
Что касается Яндекса, то он самостоятельно убирает дубли из индекса при правильной настройке файла robots.txt. А вот для Google надо прописывать правила во вкладке «Параметры URL» через Google Вебмастер.
Если у вас возникнут трудности с проверкой и устранением дублированного контента, вы всегда можете обратиться к нашим специалистам. Мы найдем все подозрительные элементы, настроим 301-й редирект, robots.txt, rel= "canonical", сделаем настройки в Google . В общем, проведем все работы, чтобы ваш сайт эффективно работал.
Дубли контента – это частично или полностью одинаковый текст, картинки и прочие элементы наполнения сайта, доступные по разным адресам страниц (URL). Наличие дублей может значительно затруднять поисковое продвижение сайта.
По оценке специалистов, дублированный контент – самая распространенная ошибка внутренней оптимизации, присутствующая на каждом втором веб-ресурсе.
Как проверить, есть ли дубли на вашем сайте, и каким образом от них избавиться? Об этом мы расскажем в новом выпуске нашей рассылки.
Дубли бывают четкие и нечеткие (или полные и неполные).
Четкие дубли – страницы-копии с абсолютно одинаковым контентом, содержимым мета-тега Description и заголовка Title, доступные по разным адресам. Например, у исходной страницы могут появиться следующие дубли:
Нечеткие дубли – частично одинаковый контент на разных URL.
В качестве примеров таких дублей можно привести следующие варианты:
Из-за дублей количество страниц в базе поисковых систем может увеличиться в несколько раз, некоторые страницы могут быть не проиндексированы, т. к. на обход сайта поисковому роботу выделяется фиксированная квота количества страниц.
Усложняется определение основной страницы, которая попадет в поисковую выдачу: выбор робота может не совпасть с выбором вебмастера.
Если дубль будет получать хороший трафик и поведенческие метрики, то при очередном апдейте он может заменять основную (продвигаемую) страницу в выдаче. При этом позиции в поиске «просядут», т.к. дубль не будет иметь ссылочной популярности.
И Яндекс, и Google борются с неуникальным контентом, в связи с чем могут применить к «засоренному» сайту фильтры АГС и Panda.
Неполные дубли (страницы категорий, новости, карточки товаров и т. д.) из-за малой уникальности имеют шанс не попасть в индекс поисковиков вообще. Например, это может случиться с частью товарных карточек, которые поисковый алгоритм сочтет дублями.
Будучи владельцем сайта, даже без специальных знаний и навыков вы сможете самостоятельно найти дубли на вашем ресурсе. Ниже дана инструкция по поиску и устранению дублированного контента.
Самый быстрый способ найти полные дубли на сайте – отследить совпадение тегов Title и Description. Для этого можно использовать панель вебмастера Google или популярный у оптимизаторов сервис Xenu. Поиск ведется среди проиндексированных страниц.
Минусы: не все дубли можно (и нужно) удалять (например версии страниц с рекламными метками); трудоемкая работа, занимающая при большом количестве страниц много времени. Не исключает появления новых дублей. Вес с дублей не передается основной странице.
Разработчики популярных CMS предусмотрели ряд решений, предотвращающих появление дублей. При этом вебмастерам при работе с движком необходимо внимательно выставлять настройки. Если вы что-то упустили из виду и дубли все же появились, никогда не поздно все исправить и устранить копии. Внятные инструкции по настройкам движка и использованию SEO-плагинов можно найти на профильных блогах и на форумах WordPress, Joomla, Drupal, Битрикс, а также других широко представленных CMS.
Полезные SEO-плагины для борьбы с дублями:
Универсальное решение для самых разных CMS – предупредить появление новых дублей на уровне движка. Необходимо задать такое условие, при котором в процессе обработки адресных ссылок CMS будет отличать «хорошие» от «плохих» и отображать в строке браузера только те, которые разрешены правилом. Это позволит избежать формирования страниц-синонимов (со знаком «/» и без него, с ненужным окончанием.html, GET-параметрами и проч.), однако не защитит от возникновения дублей, если у страниц не будут уникализированы Title и Description.
Для реализации данного метода в файле.htaccess необходимо включить следующее правило:
RewriteEngine on RewriteCond %{REQUEST_FILENAME} !-d RewriteCond %{REQUEST_FILENAME} !-f RewriteRule ^(.*)$ index.php
Кроме этого, следует реализовать необходимые проверки в самом движке.
Метод отличается высокой сложностью и требует обращения к специалистам по разработке.
Алгоритм действий в этих сервисах абсолютно такой же, как и для поиска полных дублей. Единственное отличие заключается в том, что среди найденных дублей необходимо отобрать те страницы, которые имеют идентичные Title и/или Description, но совершенно разный контент.
В результате поиска в Google мы обнаружили группу неполных дублей (Рис. 2).
Рис. 2. Совершенно разные новости с дублированными мета-даннымиСтраницы с частично похожим контентом, но разными мета-данными указанным выше способом выявить не удастся. В этом случае придется работать вручную.
Для начала условно выделите зоны риска:
Из каждой группы выберите несколько страниц.
Для наглядной иллюстрации примера мы воспользовались одной из карточек товаров на сайте мебельного магазина, проходившего аудит в нашей рубрике «Экспертиза». Вероятность появления дублей здесь достаточно высока, так как в карточках преобладают картинки и сквозные блоки, а уникальный контент сведен к минимуму.
Указываем в строке поиска Google фрагмент текста из описания товара, заключенный в кавычки, и домен сайта с оператором site: (Рис. 3).
Многие владельцы сайтов уделяют внимание главным образом тому, чтобы контент был уникален по сравнению с другими ресурсами. Однако не стоит упускать из виду наличие дублированного контента в пределах одного сайта. Это тоже оказывает сильное влияние на ранжирование.
Повторяющийся, или дублированный, контент – это совпадающие в рамках сайта объемные блоки текста на разных страницах. Не обязательно такое делается со злым умыслом – чаще возникает по техническим причинам, подробно разобранные ниже.
Опасность состоит в том, что часто дублированный контент невозможно увидеть невооруженным глазом, однако поисковик его прекрасно видит и реагирует соответствующим образом.
Основные причины возникновения такого явления:
Например, часто встречается ситуация: replytocom (ответ на комментарий) в WordPress автоматически формирует и новые страницы с разными URL-адресами, но не содержимым.
Обычно дублированный контент замечается при создании анонсов статьи на других страницах сайта, размещении отзывов, а также при одинаковых описаниях товаров, категорий, рубрик.
У повторяющегося содержимого есть аналог из области экономики – банковский овердрафт. Только здесь расходуется так называемый краулинговый бюджет. Это число страниц ресурса, которое за конкретный промежуток времени сможет просканировать поисковая машина. Ресурс очень ценный, и лучше потратить его на действительно важные и актуальные страницы, чем на десятки дублей идентичного текста.
Таким образом, дублированный контент ухудшает поисковое продвижение. Кроме того, теряются естественные ссылки и неверно распределяется ссылочный вес внутри сайта. А также подменяются по-настоящему релевантные страницы.
Существуют специальные программы для анализа ресурсов. Из них пользователи особенно выделяют Netpeak Spider. Она ищет полные копии страниц, совпадения по тайтлу или дескрипшену, заголовкам. Другой вариант — Screaming Frog, которая обладает схожим функционалом и по сути отличается только интерфейсом. Еще есть приложение Xenu`s Link Sleuth, работающее схожим с поисковиком образом и способное довольно качественно прочесать сайт на наличие дубликатов.
К сожалению, нет инструментов, способных полноценно отслеживать все дубли текста. Поэтому, скорее всего, придется производить ручную проверку. Вот список возможных факторов, повлекших за собой проблему:
Разобрались, как найти дублированный контент. А лучшие помощники в борьбе с ним – это переадресация 301, теги Canonical URL, указания в robots.txt и параметры Nofollow и Noindex в составе мета-тега «robots».
Одним из способов на скорую руку проверить, если ли на сайте дублированный контент, является расширенный поиск в Яндексе или Гугле. Необходимо ввести адрес сайта и кусок текста со страницы, которую решили проверить. Также можно использовать многочисленные программы для проверки уникальности текста:
Всё та же справочная система Гугл дает ряд советов по предотвращению появления данной проблемы.
Поисковиками не предусмотрено никаких санкций по отношению к сайтам, имеющим дублированный контент по техническим причинам (в отличие от тех, кто делает это намеренно с целью манипулировать результатами поиска или вводить в заблуждение посетителей).
После того, как дубли удалены, осталось убрать их из поисковой выдачи. Яндекс делает это самостоятельно, при условии, что файл robots.txt настроен должным образом. Что касается Google: там придется вручную прописать правила в Вебмастере, на вкладке «Параметры URL».
Борьба с дублированным контентом на сайте – важный аспект деятельности владельца любого сайта. Причин его возникновения довольно много, и столь же много способов устранения.
Однако главным правилом остается: размещать исключительно оригинальный контент, независимо от типа сайта. Даже если это крупный сетевой магазин с тысячами страниц.
Подпишитесь и получайте не чаще, чем раз в неделю что-нибудь интересное из мира интернет-маркетинга, SEO, продвижения сайтов, интернет-магазинов, заработка на сайтах.