4.2. Индексирование файловых директорий

4.2.1. Конфигурационный файл индексатора

Пример 4-1. Определение источника данных ftds

c)
  <DataSrc id="ftds">
      Config  ftds.cfg
  <DataSrc>
d)
  <DataSrc id="ftds">
      <Ftds>
      	...
      </Ftds>
  <DataSrc>

4.2.2. Директивы конфигурационного файла источника ftds

В этом разделе описаны директивы, относящиеся к процессу индексирования через стандартный источник ftds. Если какая-либо директива отсутствует в конфигурационном файле, для соответствующих параметров будут использованы указанные значения по умолчанию.

Пример 4-2. Пример конфигурационного файла источника ftds

  
  <Ftds>
  
  !	         Allow :
  	  
  	DefaultOptions :
  	      Disallow : /\?C=[M|N|S|D];O=[A|D]
  	     
  
  	<Folder inherited="no">
  		Path C:\jdk1.5.0_05\docs\api/java/util/
  		Options Set jdk=jdk15, Set group=api, Set group=java, Set group=util
  	</Folder>
  
  	<Folder inherited="no">
  		Path api/java/applet/
  		Options Set jdk=jdk15, Set group=api, Set group=java, Set group=applet
  	</Folder>
  
  	<Folder inherited="no">
  		Path api/java/awt/
  		Options	Set jdk=jdk15, Set group=api, Set group=java, Set group=awt
  	</Folder>
  
  	...
  
  	<Extensions>
  		text/html                     .html, .htm, .shtml
  		text/plain                    .txt, .java
  		text/rtf                      .rtf
  		application/msword            .doc
  		application/pdf               .pdf
  		application/vnd.ms-excel      .xls
  		application/vnd.ms-powerpoint .ppt
  		application/x-shockwave-flash .swf
  		audio/mpeg	                  .mp3
  	</Extensions>
  
  </Ftds>
  

4.2.3. Общие директивы

DefaultOptions

Задает значение по умолчанию, которое будет использоваться в директиве Options в секции Folder. Аргументы этой директивы описаны в разделе Options

Значение по умолчанию: не задано

Пример:

  	<Ftds>
  		DefaultOptions utf-8
  		...
  	</Ftds>

4.2.4. Директивы определяющие область индексирования

Allow

задает Perl совместимое регулярное выражение (PCRE). Будут проиндексированы только те документы, полный путь которых содержит подстроку, удовлетворяющую этому регулярному выражению.

Значение по умолчанию: не задано

Примеры:

  
        ! проиндексировать файлы только из архивов за 1990-1999 годы и
        ! из каталога archives
        Allow /(199[0-9]|archive)/
  
        ! проиндексировать файлы только из тех каталогов, имя
        ! которых состоит из 4-х цифр
        Allow /([0-9]{4})/
  

Disallow

адает Perl совместимое регулярное выражение (PCRE). Все документы, полный путь которых содержит подстроку, удовлетворяющую этому регулярному выражению, будут исключены из индексирования.

Значение по умолчанию: не задано

Пример:

  
        ! Исключать из индексирования файлы _index.html,
        ! _index.htm, default.html и default.htm
        Disallow /(_index|default)[.]htm[l]?
  
        ! Исключать из индексирования файлы из каталогов, имя
        ! которых состоит из 4-х цифр
        Disallow /([0-9]{4})/
  

4.2.5. Конфигурация области индексирования (Секция <Folder>)

Конфигурационный файл может включать несколько секций Folder, каждая из которых задает область индексирования. Каждая секция Folder должна включать не более одной директивы Path.

Дополнительно секция Folder может включать не более одной директивы Options.

Cекция Folder может иметь атрибут inherited. Значение атрибута равное no, отменяет наследование значений директив и поисковых атрибутов.

Примеры:

  
    <Folder>
    	Path /book/part1/
    	Options Set group=part1
    </Folder>
    <Folder>
    	Path /book/part1/chapter1/
    	Options Set group=chapter1
    </Folder>

В приведенной конфигурации, вторая секция наследует значение

  part1
поискового атрибута
  group
от предыдущей области индексирования.

Чтобы этого не происходило, используйте:

    <Folder inherited="no">
    	Path /book/part1/chapter1/
    	Options Set group=chapter1
    </Folder>

Path

Директива Path определяет локальный путь в файловой системе.

Options

Параметры индексирования документов в данной области индексирования. Параметры индексирования сначала наследуются от области индексирования верхнего уровня, если такая есть, или от значения директивы DefaultOptions, или от значения по умолчанию, а затем дополняются параметрами, указанными в данной директиве. Аргументы этой директивы описаны в разделе Директива Options

4.2.6. Секция <Extensions>

Секция Extensions позволяет задать фильтр документов по их расширениям и связь между значениями MimeType секции DocFormat и расширением файла

Значения по умолчанию:

MIMEРасширение
text/html.html, .htm, .shtml
text/plain.txt
audio/mpeg.mp3
text/rtf.rtf
application/pdf.pdf
application/msword.doc
application/vnd.ms-excel.xls
application/vnd.ms-powerpoint.ppt
application/x-shockwave-flash.swf

4.2.7. Директива Options

Директива Options позволяет задать набор документные атрибуты типа LITERAL, дополнительно к атрибутам, назначаемым парсером документного формата во время индексирования документа.

  Set name=value
Определение документного атрибута для данной области индексирования

  Unset name=value
Отмена документного атрибута для данной области индексирования

Использование данных аргументов позволяет включить документы в определенные тематические разделы на основании структуры каталогов файловой системы, в которых находятся документы. Альтернативно, во время индексирования документы могут получить поисковые документные атрибуты в соответствии с их содержанием. См. обсуждение в разделе Документы, зоны и атрибуты.

Строка name=value не должна включать пробелы. Чтобы удалить для данной области индексирования все унаследованные атрибуты, используйте атрибут inherited секции Folder.

Пример:

        <Folder inherited="no">

Директива Options позволяет задать rодировкe символов, используемая в документах

recognize

Всегда распознавать кодировку символов автоматически.

<значение>

Использовать одно из указанных ниже в таблице кодировок значений.

КодировкаОбозначение
WinCyrillicwindows-1251, cp1251
MacCyrillicMacCyrillic, MacRussian
DOSCyrillicIBM855 или cp855
DOSCyrillicRussianIBM866, cp866
ISOLatinCyrillicISO-8859-5, iso-ir-144
WinLatin1windows-1252, cp1252
WinLatin2windows-1250, cp1250
KOI8RKOI8-R, csKOI8R
ISO8859_2iso-2, iso_8859-2
UTF8utf8, utf-8

Значение по умолчанию: recognize

Copyright © 1997 – 2007 «Яндекс»