4.4. Парсеры (анализаторы содержимого документа)

Анализатор содержимого документа - парсер ппредставляет собой модуль, реализующий специальный программный интерфейс . Основная задача парсера - выделить из документа нужный для индексирования текст. Текст, выделяемый парсером, может быть помечен как принадлежащий определенной зоне документа, или как имеющий определенные свойства (атрибуты). На основании элементов форматирования документа парсер может указать границы предложений и абзацев, а также вес данного отрывка текста.

Ниже приведена таблица модулей стандартных парсеров поставляемых с Яndex.Server 3.8 Free Edition

Таблица 4-2. Стандартные парсеры Яndex.Server 3.8 Free Edition

медиа-тип/подтип (MimeType)библиотека парсера конфигурируемый 
WindowsUnix 
text/plainвстроеннаявстроеннаянет 
text/htmlвстроеннаявстроеннаянет 

Copyright © 1997 – 2007 «Яндекс»