Яndex.Server 3.8 Free Edition : Документация для разработчиков и администраторов | ||
---|---|---|
Пред. | Глава 4. Модули индексатора, входящие в комплект поставки | След. |
Пример 4-1. Определение источника данных ftds
<DataSrc id="ftds"> Config ftds.cfg <DataSrc>
<DataSrc id="ftds"> <Ftds> ... </Ftds> <DataSrc>
В этом разделе описаны директивы, относящиеся к процессу индексирования через стандартный источник ftds. Если какая-либо директива отсутствует в конфигурационном файле, для соответствующих параметров будут использованы указанные значения по умолчанию.
Пример 4-2. Пример конфигурационного файла источника ftds
<Ftds> ! Allow : DefaultOptions : Disallow : /\?C=[M|N|S|D];O=[A|D] <Folder inherited="no"> Path C:\jdk1.5.0_05\docs\api/java/util/ Options Set jdk=jdk15, Set group=api, Set group=java, Set group=util </Folder> <Folder inherited="no"> Path api/java/applet/ Options Set jdk=jdk15, Set group=api, Set group=java, Set group=applet </Folder> <Folder inherited="no"> Path api/java/awt/ Options Set jdk=jdk15, Set group=api, Set group=java, Set group=awt </Folder> ... <Extensions> text/html .html, .htm, .shtml text/plain .txt, .java text/rtf .rtf application/msword .doc application/pdf .pdf application/vnd.ms-excel .xls application/vnd.ms-powerpoint .ppt application/x-shockwave-flash .swf audio/mpeg .mp3 </Extensions> </Ftds>
Задает значение по умолчанию, которое будет использоваться в директиве Options в секции Folder. Аргументы этой директивы описаны в разделе Options
Значение по умолчанию: не задано
Пример:
<Ftds> DefaultOptions utf-8 ... </Ftds>
задает Perl совместимое регулярное выражение (PCRE). Будут проиндексированы только те документы, полный путь которых содержит подстроку, удовлетворяющую этому регулярному выражению.
Значение по умолчанию: не задано
Примеры:
! проиндексировать файлы только из архивов за 1990-1999 годы и ! из каталога archives Allow /(199[0-9]|archive)/ ! проиндексировать файлы только из тех каталогов, имя ! которых состоит из 4-х цифр Allow /([0-9]{4})/
адает Perl совместимое регулярное выражение (PCRE). Все документы, полный путь которых содержит подстроку, удовлетворяющую этому регулярному выражению, будут исключены из индексирования.
Значение по умолчанию: не задано
Пример:
! Исключать из индексирования файлы _index.html, ! _index.htm, default.html и default.htm Disallow /(_index|default)[.]htm[l]? ! Исключать из индексирования файлы из каталогов, имя ! которых состоит из 4-х цифр Disallow /([0-9]{4})/
Конфигурационный файл может включать несколько секций Folder, каждая из которых задает область индексирования. Каждая секция Folder должна включать не более одной директивы Path.
Дополнительно секция Folder может включать не более одной директивы Options.
Cекция Folder может иметь атрибут inherited. Значение атрибута равное no, отменяет наследование значений директив и поисковых атрибутов.
Примеры:
<Folder> Path /book/part1/ Options Set group=part1 </Folder> <Folder> Path /book/part1/chapter1/ Options Set group=chapter1 </Folder>
В приведенной конфигурации, вторая секция наследует значение
part1поискового атрибута
groupот предыдущей области индексирования.
Чтобы этого не происходило, используйте:
<Folder inherited="no"> Path /book/part1/chapter1/ Options Set group=chapter1 </Folder>
Директива Path определяет локальный путь в файловой системе.
Параметры индексирования документов в данной области индексирования. Параметры индексирования сначала наследуются от области индексирования верхнего уровня, если такая есть, или от значения директивы DefaultOptions, или от значения по умолчанию, а затем дополняются параметрами, указанными в данной директиве. Аргументы этой директивы описаны в разделе Директива Options
Секция Extensions позволяет задать фильтр документов по их расширениям и связь между значениями MimeType секции DocFormat и расширением файла
Значения по умолчанию:
Директива Options позволяет задать набор документные атрибуты типа LITERAL, дополнительно к атрибутам, назначаемым парсером документного формата во время индексирования документа.
Set name=valueОпределение документного атрибута для данной области индексирования
Unset name=valueОтмена документного атрибута для данной области индексирования
Использование данных аргументов позволяет включить документы в определенные тематические разделы на основании структуры каталогов файловой системы, в которых находятся документы. Альтернативно, во время индексирования документы могут получить поисковые документные атрибуты в соответствии с их содержанием. См. обсуждение в разделе Документы, зоны и атрибуты.
Строка name=value не должна включать пробелы. Чтобы удалить для данной области индексирования все унаследованные атрибуты, используйте атрибут inherited секции Folder.
Пример:
<Folder inherited="no">
Директива Options позволяет задать rодировкe символов, используемая в документах
Всегда распознавать кодировку символов автоматически.
Использовать одно из указанных ниже в таблице кодировок значений.
Кодировка | Обозначение |
---|---|
WinCyrillic | windows-1251, cp1251 |
MacCyrillic | MacCyrillic, MacRussian |
DOSCyrillic | IBM855 или cp855 |
DOSCyrillicRussian | IBM866, cp866 |
ISOLatinCyrillic | ISO-8859-5, iso-ir-144 |
WinLatin1 | windows-1252, cp1252 |
WinLatin2 | windows-1250, cp1250 |
KOI8R | KOI8-R, csKOI8R |
ISO8859_2 | iso-2, iso_8859-2 |
UTF8 | utf8, utf-8 |
Значение по умолчанию: recognize
Пред. | Начало | След. |
Модули индексатора, входящие в комплект поставки | Уровень выше | Индексирование веб-страниц |