Глава 3. Настройка и использование индексатора

Содержание
3.1. Алгоритм работы индексатора
3.2. Директивы конфигурационного файла индексатора

3.1. Алгоритм работы индексатора

3.1.1. Индексные файлы

В процессе выполнения запроса поисковая система читает заранее подготовленные индексные файлы, поэтому, чтобы попасть в результат запроса, документ должен быть предварительно проиндексирован. Все индексные файлы располагаются в одной директории, по умолчанию это ./workindex. В одной директории может быть расположен только один набор индексных файлов, который в дальнейшем будем также называть индексом. Имена индексных файлов начинаются одинаково префиксом index.

Для каждого слова в документе запоминается его позиция в виде идентификатора документа, номера предложения и номера слова в предложении. Список таких пар (слово-позиция) хранится в файлах indexinv и indexkey. В этих же файлах хранятся зоны и атрибуты документов, используемые при поиске по зонам и атрибутам (например, html-заголовок или подпись к картинке), а также некоторая служебная информация. Кроме того, в файлах indexarc и indexdir по умолчанию сохраняется текст документов без элементов форматирования. Эта информация используется при поиске, если требуется получать отрывки текста документа, содержащие найденные слова. Наконец, могут быть созданы необязательные файлы indexatr и indexaof, которые содержат информацию о группировочных атрибутах документов. Наличие этих файлов позволяет группировать и сортировать найденные документы по значению атрибута.

3.1.2. URL и содержимое документа

Каждый проиндексированный документ характеризуется уникальным URL (Uniform Resource Locator). Документы, имеющие разные URL, считаются разными. В процессе своей работы индексатор обращается к источникам данных, чтобы получить URL и содержимое индексируемого документа. В качестве URL документа источник данных предоставляет произвольную текстовую строку, уникально идентифицирующих документ в этом источнике. Пользователю поискового сервиса показывается модифицированный URL со схемой http, соответствующий скрипту поискового сервиса или ссылке на веб-сервер, предоставленной источником данных.

Область индексирования - это множество документов, индексируемых с единым набором параметров. Каждый источник данных включает одну или несколько областей индексирования. Области индексирования обычно задаются префиксом URL, то есть все документы, URL которых начинается с заданного префикса, принадлежат одной области индексирования. Области индексирования могут быть вложенными. В этом случае область индексирования, заданная более длинным префиксом, наследует все свойства "родительской" области, если они явно не переопределены. Все свойства областей индексирования, то есть параметры индексирования соответствующих документов, задаются в конфигурационном файле источника данных.

В комплект поставки входят источники данных для файловой системы, веб-страниц .

Copyright © 1997 – 2007 «Яндекс»