HostArt - аЛб б б аИаЙ а б аБ б аОб б аИаНаГ HostArt - аЛб б б аИаЙ а б аБ б аОб б аИаНаГ
HostArt - аЛб б б аИаЙ а б аБ б аОб б аИаНаГ HostArt - аЛб б б аИаЙ а б аБ б аОб б аИаНаГ
а  аКаОаМаПаАаНаИаИ
а аОаМаЕаНб
аЂаАб аИб аНб аЕ аПаЛаАаНб
а аОаГаОаВаОб
а аАаКаАаЗ а б аБ б аЕб аВаЕб аА
а аОаПб аОб б  аИ аОб аВаЕб б
аЁаЛб аЖаБаА аПаОаДаДаЕб аЖаКаИ
аЁаОаВаЕб б
а аЛб  аАаБаОаНаЕаНб аОаВ
а аОаНб аАаКб б

а аОаВаОб б аИ

Плата Gigabyte на базе Intel G45 с технологией Ultra Durable 3
Пресс-служба компании Gigabyte объявила о выводе на рынок новой материнской платы под индексом GA-EG45M-UD2H, основанной на системной логике Intel G45 Express с южным мостом ICH10R .
Число американцев, получающих пособие по безработице, выросло за неделю до очередного рекорда
Число американцев, получающих пособие по безработице, увеличилось на прошлой неделе до 6,137 млн, что является рекордным уровнем.
Внешний долг поддается ремонту
До конца 2009 года украинским компаниям и банкам придется отдать около 13,5 миллиарда долларов внешних займов.
Прибыль компании американского миллиардера Баффета снизилась на 12%
Операционная прибыль всемирно известной американской инвестиционно-страховой компании Berkshire Hathaway, принадлежащей миллиардеру Уоррену Баффету, в I квартале 2009 г.
Форекс в Азии
Индекс Токийской фондовой биржи Никкей (Nikkei) упал на 246.
Студентов в Кускове зарезали раритетным клинком
Задержали преступников, напавших на влюбленную парочку в парке


Законы Зипфа

Часть 2

Что дают нам законы Зипфа? Как с их помощью вытянуть слова, которые отражают содержание текста? Воспользуемся первым законом Зипфа в виде графика зависимости ранга от частоты. Как уже упоминалась, форма графика всегда одинакова .Исследования показывают, что наиболее значимые слова лежат в средней части графика диаграммы. Это и понятно.

поиск информацииСлова, которые попадаются слишком часто, в основном обнаруживаются предлогами, местоимениями, в английском тексте  артиклями и т. п. Слова, которые редко встречаются, в большинстве случаев не имеют решающего значения. От того, как будет выставлен диапазон значимых слов, зависит многое. Если подойти широко  нужные термины потонут в море вспомогательных слов, но если установить узкий диапазон  утратим существенные термины. Каждая информационнопоисковая система решает проблему по своему, руководствуясь общим объемом текста, специальными словарями и т.п.

Проведем эксперимент. Подвергнем абзац текста математическому анализу и попробуем определить список существенных или значимых слов. В качестве примера возьмем один из предшествующих абзацев (абзац на предшествующей странице, который начинается словами «Законы Зипфа универсальны...», абзац выделен курсивом). Посмотрим, какие слова попали в область значимых слов, а какие нет. Анализ абзаца показывает, что слова с частотой 2 и 3 наиболее точно отбивают содержание абзаца.

Слово с наибольшей частотой вхождения оказалось предлогом, а слова с меньшей частотой общими словами. На рис. 3 приведен график«частота ранг» этого абзаца. Выделим зону значимых слов. Пусть это будут слова с рангом 2, 3 и с частотой 3, 2 соответственно. (Обратите внимание, как сдвиг или расширение зоны значимых слов влияет на их состав.) Теперь давайте проанализируем выделенную нами область значимых слов. Не все слова, которые попали в нее, отражают содержание текста. Содержание абзаца очень точно отражают слова: Зипфа, манускриптов, Войнича, законам. Запрос типа: + «закон Зипфа» + «манускрипт Войнича» непременно найдет этот документ. Однако в область попали и слова термины: на, не, для, это. Эти слова являются «шумом», препятствием, которое затрудняет правильный выбор.«Шум» можно уменьшить путем исключения из исследуемого текста некоторых слов.

Для этого создается словарь ненужных слов и стоп слов(словарь называется стоп письмо). Например, для английского текста стоп словами станут слова: the, a, an, in, to, of, and, that... и так далее. Для русского текста в стоп письмо могли бы быть включены все предлоги, частицы, личные местоимения и т. п. Наверное, попали бы и слова из нашего«шума»: на, не, для, это. Есть и другие способы повысить точность оценки значимости слов терминов.

Весовые коэффициенты До сих пор мы рассматривали в отдельности взятый документ, не принимая во внимание, что он входит в базу данных вместе с большим множеством других документов. Если представить всю базу данных как единый документ, к ней можно будет применить те же законы, что и к единичному документу. Посмотрим на список слов в нашем примере. В одну компанию попали слова термины закона Зипфа и не слова термины  они входят в документ равным количеством раз.

Источник: Журнал "Бизнес и безопасность"

Продолжение далее



 

 

аЁб аАб б аИ

 
Вчера на Невском погибла 24-летняя девушка
Двадцатичетырхлетняя девушка погибла в результате вечером, 23 февраля.
Девять стран G20 урежут объемы торговли
Часть стран G20 рассматривает возможность сократить объем торговли или уже готовится ввести ограничения вследствие финансового кризиса.
Чувство государственного долга
Стратегия управления государственным долгом претерпит серьезные изменения…
Омельченко: Срочный аверс "Одесса-Броды" невозможен
Перевод нефтепровода "Одесса - Броды" в аверсный режим без соответствующей контрактной базы невозможен.
Гривна продолжает укрепляться
Торги на межбанковском валютном рынке завершились в диапазоне 7,6715-7,693 гривны за доллар.
Фонды идут на взлет
Индекс ПФТС закончил апрель беспрецедентным ростом, поднявшись за месяц на 49,5%, компенсировав все потери с начала года и вернувшись на уровень октября 2008 г.
Украинские автопроизводители в апреле сократили производство в 8,6 раза
Украинские автопроизводители в апреле текущего года сократили выпуск транспортных средств (легковые и грузовые автомобили, автобусы) в 8,6 раза по сравнению с апрелем прошлого года – до 4,999 тыс.


 

© 2008 HostArt - лучший Вэб хостинг. Все права защищены.