Часть 2
Что дают нам законы Зипфа? Как с их помощью вытянуть слова, которые отражают содержание текста? Воспользуемся первым законом Зипфа в виде графика зависимости ранга от частоты. Как уже упоминалась, форма графика всегда одинакова .Исследования показывают, что наиболее значимые слова лежат в средней части графика диаграммы. Это и понятно.
Слова, которые попадаются слишком часто, в основном обнаруживаются предлогами, местоимениями, в английском тексте артиклями и т. п. Слова, которые редко встречаются, в большинстве случаев не имеют решающего значения. От того, как будет выставлен диапазон значимых слов, зависит многое. Если подойти широко нужные термины потонут в море вспомогательных слов, но если установить узкий диапазон утратим существенные термины. Каждая информационнопоисковая система решает проблему по своему, руководствуясь общим объемом текста, специальными словарями и т.п.
Проведем эксперимент. Подвергнем абзац текста математическому анализу и попробуем определить список существенных или значимых слов. В качестве примера возьмем один из предшествующих абзацев (абзац на предшествующей странице, который начинается словами «Законы Зипфа универсальны...», абзац выделен курсивом). Посмотрим, какие слова попали в область значимых слов, а какие нет. Анализ абзаца показывает, что слова с частотой 2 и 3 наиболее точно отбивают содержание абзаца.
Слово с наибольшей частотой вхождения оказалось предлогом, а слова с меньшей частотой общими словами. На рис. 3 приведен график«частота ранг» этого абзаца. Выделим зону значимых слов. Пусть это будут слова с рангом 2, 3 и с частотой 3, 2 соответственно. (Обратите внимание, как сдвиг или расширение зоны значимых слов влияет на их состав.) Теперь давайте проанализируем выделенную нами область значимых слов. Не все слова, которые попали в нее, отражают содержание текста. Содержание абзаца очень точно отражают слова: Зипфа, манускриптов, Войнича, законам. Запрос типа: + «закон Зипфа» + «манускрипт Войнича» непременно найдет этот документ. Однако в область попали и слова термины: на, не, для, это. Эти слова являются «шумом», препятствием, которое затрудняет правильный выбор.«Шум» можно уменьшить путем исключения из исследуемого текста некоторых слов.
Для этого создается словарь ненужных слов и стоп слов(словарь называется стоп письмо). Например, для английского текста стоп словами станут слова: the, a, an, in, to, of, and, that... и так далее. Для русского текста в стоп письмо могли бы быть включены все предлоги, частицы, личные местоимения и т. п. Наверное, попали бы и слова из нашего«шума»: на, не, для, это. Есть и другие способы повысить точность оценки значимости слов терминов.
Весовые коэффициенты До сих пор мы рассматривали в отдельности взятый документ, не принимая во внимание, что он входит в базу данных вместе с большим множеством других документов. Если представить всю базу данных как единый документ, к ней можно будет применить те же законы, что и к единичному документу. Посмотрим на список слов в нашем примере. В одну компанию попали слова термины закона Зипфа и не слова термины они входят в документ равным количеством раз.
Источник: Журнал "Бизнес и безопасность"
Продолжение далее