В одном блоге прочитал об интересном проекте SEO осень в красном digital-маркетинге. Думаю, для всех начинающих сеошников будет полезно почитать ниже изложенный материал.

ПС представляет собой сайт, состоящий из веб-интерфейса для пользователя и поисковой машины, которая является движком, обеспечивающим функциональность ПС. Поисковая машина состоит из модуля индексирования, базы данных (БД) проиндексированных документов и поискового сервера, занимающегося анализом и обработкой запросов пользователей. Модуль индексирования состоит из трех вспомогательных программ (роботов) – spider (паук), crawler (путешествующий паук) и indexer (индексатор). Spider скачивает веб-документы с помощью протокола НТТР, извлекает ссылки и перенаправления и сохраняет текст в следующем формате: URL, дата скачивания, http-заголовок ответа сервера, тело страницы (html-код). Crawler обрабатывает найденные пауком ссылки и осуществляет дальнейшее направление паука. Indexer разбирает html-код страницы на составные части такие как заголовки (title), подзаголовки (subtitles), метатэги (meta tags), текст, ссылки, структурные и стилевые особенности и т.д., анализирует их на основе различных лексических и морфологических алгоритмов с целью последующего ранжирования по степени важности. При этом найденным словам и словосочетаниям присваиваются весовые коэффициенты в зависимости от того, сколько раз и где они встречаются (в заголовке страницы, в начале или в конце страницы, в ссылке, в метатэге и т.п.). В результате формируется файл, содержащий индекс, который может быть довольно большим. Для уменьшения его размеров прибегают к минимизации объема информации и сжатию файла, а также решают задачи определения дубликатов и «почти дубликатов». Результаты индексирования записываются в базу данных (БД) проиндексированных документов.

Анализ этапов и процедур работы поисковых систем и разработки семантического ядра сайта
Поисковый сервер является важнейшим элементом всей ПС, так как от алгоритмов, которые лежат в основе его функционирования, зависит качество и скорость поиска. Принцип его работы заключается в следующем. Полученный от пользователя запрос (ключевые слова) подвергается морфологическому анализу для получения информационного окружения. При этом выделяются информационные (поиск сведений), транзакционные (совершение действия), нечеткие (общие) и навигационные(прямой адрес) запросы. Поиск документов по их содержанию называется семантическими. Информационное окружение передается специальному модулю ранжирования, задача которого состоит в поиске html-страниц в БД проиндексированных документов, сортировке и выдаче в порядке релевантности. При этом для оценки релевантности найденных документов, как правило, используют TF-IDF-меру, согласно которой релевантность документа будет выше, если слово или словосочетание из запроса чаще встречается в найденном документе (TF) и реже в других документах БД (IDF). Если необходимо, порядок выдачи документов может быть изменен пользователем путем задания дополнительных условий (расширенный поиск). Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются. Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов. Таким образом, основой работы всех ПС является определение так называемых «ключевых слов» веб-ресурса. Из списка таких слов состоит семантическое ядро сайта (СЯС). СЯС представляет собой список ключевых слов и их комбинаций, записанных в метатэги keywords и распределенных в контенте сайта, а именно, в тэге title, в alt-аттрибутах, в ссылочном тексте внутренних и внешних ссылок, в выделениях жирным и наклонным шрифтом, в начале контента сайта, в названии файлов, в URL и др. При этом от полноты и точности разработки СЯС зависит положение сайта в списке выдач ПС.
Разработка СЯС является ключевым этапом SEO и состоит из ряда интеллектуальных, трудноформализуемых этапов и процедур, для реализации которых необходимы большие временные и человеческие ресурсы