6.2. Программа arcview

Служебная программа arcview предназначена для просмотра текста и свойств документа, сохраненных во время индексирования. Она принимает путь к архиву документов в качестве параметра командной строки и выводит содержимое документов на стандартный вывод.

6.2.1. Документные архивы

По умолчанию, во время индексирования текст документа, очищенный от элементов форматирования, сохраняется в упакованном виде в документном архиве. Документный архив хранится в файлах файлах indexarc и indexdir, расположенных в индексной директории. Наличие сохраненного текста позволяет при формировании результатов поиска показывать отрывки с найденными словами с помощью функции DocProperty(...), передавая ей в качестве параметра значение "_Passage". С другой стороны, программа arcview позволяет вывести весь сохраненный текст для служебных целей.

Тем не менее, если в конфигурации индексатора в директиве GlobalOptions указано значение DiscardArchive, текст документа сохраняться не будет, во время поиска доступ к отрывкам с найденными словами будет невозможен, и программа arcview тоже не сможет вывести текст документа.

Кроме текста документа в документном архиве во время индексирования сохраняются некоторые свойства документа. Всегда, независимо от настроек индексатора, сохраняются URL документа, время последнего изменения файла с документом, размер файла с документом в байтах, кодировка документа и медиа-тип документа. При формировании результатов поиска все эти свойства также можно показать с помощью функции DocProperty(...), передавая ей соответствующие параметры. Программа arcview выводит эти свойства, если задан параметр командной строки -e.

Кроме указанных свойств, в документном архиве могут сохраняться и другие свойства документа, в зависимости от настроек индексатора и парсера документного формата.

Если в настройках парсера была определена поисковая зона title, содержащая не менее одного предложения и являющаяся границей абзаца, ее содержимое автоматически сохраняется как заголовок документа. Если в настройках парсера была определен поисковый документный атрибут abstract, его значение автоматически сохраняется как краткое содержание документа.

Остальные документные атрибуты автоматически не сохраняются. Все поисковые документные атрибуты, определенные парсером во время индексирования, которые нужно сохранить как архивные свойства документа, следует перечислить в директиве DocProperty конфигурации индексатора. Тогда в результатах поиска эти свойства можно будет показать с помощью функции DocProperty(...), а программа arcview выведет их, если задан параметр командной строки -e.

6.2.2. Параметры командной строки

Вызов программы arcview осуществляется следующим образом:

  arcview [-ei] archivename [FirstDocN [LastDocN]]
Здесь в квадратных скобках указаны необязательные параметры.

-e

Указывает, что нужно также печатать информацию о свойствах документа, сохраненных в архиве.

-i

Указывает, что номера документов нужно считывать со стандартного входа программы.

archivename

Путь к файлу, содержащему документный архив, без окончания arc. Например, если индексные файлы находятся в директории /yandex/workindex/, нужно указать /yandex/workindex/index.

FirstDocN

Идентификатор первого документа, содержание которого надо напечатать.

LastDocN

Идентификатор последнего документа, содержание которого надо напечатать.

В качестве идентификаторов документов нужно указывать внутренние идентификаторы, назначенные индексатором. Если присутствуют оба идентификатора, будет выведено содержимое всех документов в диапазоне. Если присутствует только один идентификатор, будет выведено содержимое этого единственного документа. Если идентификаторы документов отсутствуют, будет распакован архив целиком.

Copyright © 1997 – 2007 «Яндекс»