Оказывается, такие традиционные поисковые системы как Bing, Google, Yahoo, Яндекс, Мета или Рамблер не все могут видеть. Вот и получается, что документ есть, но найти его привычным способом не возможно. Эти невидимые для поисковых систем ресурсы получили название «глубинный веб».

Данное название было введено еще в 1994 году Джиллом Иллсвортом. И специалистам, которым понятен такой термин, как seo оптимизация, известно и то, что под термином «глубинный web»  (hidden web, invisible web, deep web) подразумевается часть web-пространства, которая не индексируется роботами поисковых систем. При этом не стоит путать invisible web с ресурсами, которые вовсе недоступны через Интернет, или с сайтами, которые имеют ограниченный доступ, например, только для зарегистрированных пользователей.

Десяток лет назад американская компания BrightPlanet сделала сенсационный доклад, в котором говорилось о том, что в web-пространстве страниц гораздо больше, чем проиндексировано поисковыми системами. Была разработана программа LexiBot, которая смогла просканировать динамические web-станицы и показала неожиданный результат: в глубинном web почти в 500 раз больше документов, чем нам показывают поисковики. Цифры, конечно, неточные, но и современные исследования говорят о том, что поисковые системы дают доступ только к 20-30% ресурсов.

Какие же причины возникновения такой ситуации?

В глубинный web чаще всего попадают ресурсы, в которых полностью отсутствуют какие-либо гиперссылки. Такие документы не доступны для робота, который не способен  в режиме реального времени заполнить правильно поля формы значениями, то есть сформировать запросы к своим базам данных.

Большинство «невидимых» сайтов содержат  высококачественный контент, который не может быть найден поисковиком. Многие страницы таких сайтов могут быть проиндексированы чисто технически, но роботы их пропускают, так как нет никаких ссылок. И опытные веб-мастера прекрасно понимают, что продвижение сайта невозможно без использование различных ссылок.

Некоторые сайты созданы с использованием технологии баз данных, что затрудняет работу поисковой машины. Другие сайты используют сочетание файлов, содержащих  текст и мультимедиа, то есть часть из них поддается индексированию, а часть — нет.

Основные ограничения связанны с тем, что для публичных поисковых служб на первом месте стоит точность поиска, а не полнота. Для них важнее получить ответ на запрос в короткое время, но не точность ответа. Отсюда и появляются попытки «фильтрации» контента по содержанию, ограничения на глубину сканирования, отсеивание страниц с лишними выходными гиперссылками. При этом, как говорится, «с водой выплескивают и ребенка». Более того, уже давно известно, что глубинный  web зачастую представляет собой более ценный ресурс, чем видимые части web-пространства.

Многие владельцы сознательно не желают, чтобы их ресурсы находили через поисковые системы. Чаще всего это архивы неавторизованного контента,  хакерские форумы или что-то не совсем законное. К глубинному вебу относятся и устаревшие ресурсы или веб-сайты с мультимедиа информацией. Именно поэтому раскрутка сайта предполагает постоянное обновление информации, написание статей, размещение новостной ленты. Страницы, которые динамически генерируются по запросу, также не редко попадают в глубинный web.

Можно сказать, что чем быстрее разрастается  web-пространство, тем меньше оно охватывается поисковыми машинами и  традиционными каталогами. С одной стороны, увеличивается объем информации,  но с другой – растет информационный хаос и все меньшая часть информации на самом деле является доступной.

 

Метки: , , ,

Оставить комментарий

Вы можете использовать следующие теги:

*