Меню

Тайны в онлайне

По секрету всему свету

AD


Возможно, вы уже сталкивались с рассуждениями о том, что если собрать воедино все, что человек пишет о себе в различных уголках интернета, может получиться целое досье. И досье это не выпытали враги, не выкрали шпионы. Мы сами рассказываем о себе, хвастаемся фотографиями детей, кузин и внучатых племянников.

Так что же, скажете вы, не рассказывать, не показывать и выключить интернет, дабы избежать соблазна и отгородиться от потенциальных выпытывателей и разведывателей? Нет! Отнюдь.

Не будем впадать в панику и постараемся с помощью этой статьи разобраться, как можно спокойно и комфортно существовать на просторах интернета.

А для начала попробуем понять, что же именно мы позволяем найти о себе в интернете.

Первый укол нашей приватности мы замечаем при регистрации на сайте Ева.Ру — требование ввести в регистрационные поля логин, ник и e-mail. После регистрации на почту нам высылается пароль. Но спокойно! Это не страшно и совсем не больно. Никому, никогда, даже под пытками Ева.Ру своих не выдаст (в скобочках заметим, что мы, разумеется, говорим о порядочных законопослушных гражданах, которые не давали повода разнообразным государственным службам искать их). Логин, пароль и e-mail являются конфиденциальной информацией, которую не могут видеть другие пользователи и гости сайта (относительно e-mail это верно, если в паспорте мы оговорим не показывать свой e-mail).

Но на этом выпытывание наших тайн заканчивается. Как, впрочем, и обязательства хранить тайну. Ведь тайн больше нет. Дальше — только наша свободная воля, наше желание рассказать миру побольше о том, какие мы замечательные, как благозвучно наше имя, как прекрасны наши дети и т. д. (см. список родственников выше). И в этом невинном, но понятном желании нравиться миру мы забываем об одной детали: все личные данные, фотографии, выложенные в паспорте пользователя, становятся доступными для просмотра любому человеку, зашедшему на сайт Ева.Ру. А значит, и «роботу» поисковой системы.

Все мы не раз использовали поисковые системы для нахождения разнообразнейшей информации. Чтобы разобраться в том, каким образом информация, выложенная в наших паспортах, может быть найдена любым посторонним человеком, мы должны выяснить, как именно работают поисковые системы. Да простят нас профессионалы за поверхностность и простоту нижеследующего текста, но поделать мы с собой ничего не можем.

А непрофессионалов просим следовать за нами и не слишком скучать при обнаружении такого количества технических подробностей. Мы постараемся недолго…

Для этого нам придется познакомиться с основными компонентами поисковика.

Итак, поисковая система состоит из следующих частей:

Spider (паук) — это программа, которая скачивает веб-страницы и сохраняет их в базе данных поисковой системы.

Crawler (краулер, «путешествующий» паук) — программа, которая автоматически проходит по всем ссылкам, найденным на странице. Его задача — определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (индексатор) — программа, которая анализирует веб-страницы, скачанные пауками.

Database (база данных) — это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.

Search results engine (система выдачи результатов) — извлекает результаты поиска из базы данных. Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы.

Web server (веб-сервер) — осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы.

Теперь посмотрим более подробно, как именно поисковая система находит, обрабатывает и отображает информацию в соответствии с запросом.

Бродя по интернету, робот-паук обнаруживает неизвестный ему сайт. Скачав главную страницу, паук находит на ней все имеющиеся ссылки на другие страницы сайта. Проходя по ссылкам, паук скачивает и эти страницы. И так далее, пока не перестанет обнаруживать новые ссылки и новые страницы. Все найденное паук сохраняет в базе данных и дает команду индексатору приступить к обработке страниц. На этом работа паука закончена.

Перед тем как рассказать о работе индексатора, отвлечемся немного, чтобы сказать пару слов о том, из чего состоят страницы сайтов.

Для создания страниц сайта используется так называемый «язык разметки текста» — HTML (hypertext markup language). Он состоит из набора тэгов — специальных последовательностей символов, описывающих внешний вид и расположение текста и картинок на странице. Но кроме тэгов, отвечающих за отображение видимых элементов страницы, существуют «невидимые» тэги. Большинство из них нас сейчас не интересуют. Для поисковика важен тэг meta keywords. В нем прописывают слова, являющиеся ключевыми для этого сайта. Пишут их там непосредственно для того, чтобы поисковик их нашел.

Теперь мы можем вернуться к индексатору поисковика. Эта программа анализирует сохраненные в базе данных страницы сайта, определяет для себя, какие слова на этой странице являются ключевыми. Для поиска этих ключевых слов индексатор использует как метатэги, так и слова, каким-либо образом выделенные на странице (заголовки, жирный шрифт, курсив и т. п.). После этого все слова, которые индексатор счел ключевыми, он заносит в отдельную базу данных, где хранятся ключевые слова со всех найденных сайтов.

Затем начинает работать система выдачи результатов. В первую очередь, путем сложной обработки каждое из ключевых слов получает определенный рейтинг. Этот рейтинг зависит от многих факторов. Основными из них являются два: насколько часто это слово запрашивается при поиске и насколько популярен сайт, на страницах которого это слово присутствует.

Популярность сайта напрямую зависти от его посещаемости. И в первую очередь степень популярности сайта определяет, на каком месте в результатах поиска окажется страница сайта, содержащая искомое слово.

Если мы возьмем ник или ФИО из любого паспорта пользователя Евы.Ру и зададим их поиск в поисковой системе, мы увидим, что ссылка на еварушный паспорт окажется одной из первых в результатах поиска. Это произойдет потому, что Ева.Ру является одним из самых посещаемых сайтов рунета. При этом если мы уберем из паспорта все личные данные, в результатах поиска они еще будут какое-то время появляться. Дело в том, что эта информация уже имеется в базе данных поисковой системы. Раз попав в базу, она остается там до тех пор, пока поисковый робот-паук не зайдет еще раз на сайт и не скачает страницы уже без этих данных. А от одного посещения сайта пауком до другого может пройти и несколько месяцев.

Резюмируя, хочется подчеркнуть еще раз: нужно понимать, что информация, которая уже есть в базе данных поисковой системы, не удалится оттуда мгновенно, даже если исчезнет со страниц сайта, где она была найдена. Информация, выложенная в паспорте, через некоторое время будет доступна всем.

Никто не говорит, что за пользователями Ева.Ру ведется постоянный и неусыпный надзор. Мы не призываем немедленно очистить паспорта и больше никогда ничего туда не выкладывать. Боже упаси! Нужно лишь помнить об ответственности, которую вы берете на себя, размещая в паспорте личную информацию. Этой статьей мы только пытались намекнуть, что каждый человек — сам кузнечик своего счастья. А болтун, как известно… ну, вы знаете…;)


Afi


Названия и определения взяты из статьи "Общие принципы работы поисковых систем"



Статья заняла третье место в конкурсе "Общие статьи"

AD

© Eva.ru 2002-2024 Все права на материалы, размещенные на сайте, защищены законодательством об авторском праве и смежных правах и не могут быть воспроизведены или каким либо образом использованы без письменного разрешения правообладателя и проставления активной ссылки на главную страницу портала Ева.Ру (www.eva.ru) рядом с использованными материалами. За содержание рекламных материалов редакция ответственности не несет. Свидетельство о регистрации СМИ Эл №ФС77-36354 от 22 мая 2009 г. выдано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) v.3.4.325