HostArt - аЛб б б аИаЙ а б аБ б аОб б аИаНаГ HostArt - аЛб б б аИаЙ а б аБ б аОб б аИаНаГ
HostArt - аЛб б б аИаЙ а б аБ б аОб б аИаНаГ HostArt - аЛб б б аИаЙ а б аБ б аОб б аИаНаГ
а  аКаОаМаПаАаНаИаИ
а аОаМаЕаНб
аЂаАб аИб аНб аЕ аПаЛаАаНб
а аОаГаОаВаОб
а аАаКаАаЗ а б аБ б аЕб аВаЕб аА
а аОаПб аОб б  аИ аОб аВаЕб б
аЁаЛб аЖаБаА аПаОаДаДаЕб аЖаКаИ
аЁаОаВаЕб б
а аЛб  аАаБаОаНаЕаНб аОаВ
а аОаНб аАаКб б

а аОаВаОб б аИ

Мощный кулер silentmaxx coldsnap PWM-Vario для Core i7
В ассортименте выпускаемых компанией silentmaxx систем активного воздушного охлаждения для центральных процессоров появилась универсальная модель coldsnap PWM-Vario, призванная .
Кужель: Система госзакупок должна быть прозрачной
Ничего не нужно придумывать, есть мировая практика и есть закон о закупках, который используется в европейских странах.
ПФТС купила обновку
С 28 апреля ПФТС будет работать на новой платформе - PFTS NEXT.
Porsche не хватило мощности
Концерн Porsche не рассчитал свои силы, пытаясь получить 75% акций компании Volkswagen.
Экономика США приближается к "поворотной точке"
Американская экономика, возможно, приближается к "поворотной точке", считает глава Федерального резервного банка (ФРБ) Сан-Франциско Джанет Йеллен.
Украинский рынок акций по итогам торгов в среду снизился
Украинский рынок акций после бурного роста в первой половине дня среды к концу торговой сессии значительно скорректировался на фоне спекулятивных действий участников и неблагоприятной конъюнктуры на европейских фондовых площадках.
Кубанские селяне едва не отравились грязной водой
В дома жителей поселка Горный жидкость поступала неочищенной, прямо из земли


Еще раз о законах Зипфа

Часть 3

Исследовав другие документы базы данных на предмет вхождения в них этих терминов, мы, естественно, найдем, что «это» не встречается очень часто, в то время как слово «Зипфа» довольно редко. Напрашивается очевидный вывод: слово «Зипфа» должно стать термином, в тоже время которое не следует отвергнуть, как препятствие. Чтобы избавиться от лишних слов и в то же время поднять рейтинг значимых слов, вводят параметр инверсная частота термина. Значение этого параметра тем меньше, чем чаще слово встречается в документах базы данных. Вычисляют его по формуле: Инверсная частота термина и= log (количество документов в базы данных / количество документов с термином и)

поиск информацииТеперь каждому термину можно присвоить весовой коэффициент, который отображает его значимость: Вес термина и в документе j =частота термина в документе j х инверсная частота термина и Наверное, в нашем примере термин не получит нулевой или близкий к нулю вес, поскольку практически во всех текстах встречается это слово. Термин же «Зипфа», напротив, приобретет высокий вес. Современные способы индексирования не ограничиваются анализом перечисленных параметров текста. Поисковая машина может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного расположения терминов, частей речи, морфологических особенностей и т. п. Как термины могут выступать не только отдельные слова, но и словосочетания.

Джорж Зипф (George K. Zipf) опубликовал свои законы в1949 году. Пять лет после этого знаменитый математик Беноит Мандлеброт (Benoit Mandlebrot) внес небольшие изменения в формулы Зипфа, добившись более точного соответствия теории практике. Без этих законов сегодня не обходится ни одна система автоматического поиска информации. Как видите, математический анализ разрешает машине с хорошей точностью, безучастия человека, распознать семантическую суть текста.

Представление базы данных. Итак, мы разобрались, как поисковая машина «понимает» суть текста. Теперь необходимо организовать всю коллекцию документов так, чтобы можно было легко отыскать в ней нужный материал. База данных должна взаимодействовать с пользовательским запросом. Запросы могут быть простыми, которые состоят из одного слова, и сложными, с нескольких слов, связанных логическими операторами.

Простой запрос оправдывает свое название. Пользователь вводит слово, машина ищет его в списке терминов и выдает все связанные с термином законы зипфассылки. Структура такой базы данных проста. Взаимодействие со сложными запросами требует более утонченной организации.

Матричное представление базы данных. Наиболее простой способ представить элементы базы данных в форме, удобной для разнообразного поиска, потом создать матрицу документ термин. Предположим, база данных имеет 8 документов (Д1, Д2,...Д8), в которых помещаются 12терминов. Если термин входит в документ, в соответствующей клеточке ставится единица, в противном случае нуль (в реальной системе все более сложнее: кроме всего прочего учитываются еще и весовые коэффициенты терминов).Составим, например, такой запрос: корабли в бутылках.

Система обработает запрос: удалит стоп слова и, возможно, проведет морфологический анализ. Останется два термина: корабль и бутылка. Система будет искать все документы, где встречается хотя бы один из терминов. Посмотрим на матрицу. Указанные в запросах термины есть в документах: Д1, Д2,Д4, Д7, Д8. Они и будут выданы в ответ на запрос.

Однако нетрудно заметить, что документы Д4 и Д7 не удовлетворяют нашим ожиданиям  они из области виноделия и никакого отношения к строительству моделей кораблей в бутылках не имеют. Впрочем, система все сделала правильно, ведь, с ее точки зрения, термины корабль и бутылка равноценные.

Источник: Журнал "Бизнес и безопасность"

Продолжение далее



 

 

аЁб аАб б аИ

 
В Карелии резко выросло количество преступлений
Статистики ,strong>подвели итоги января.
Почем Интернет?
Истинная цена "дешевых тарифных планов" может оказаться непомерно высокой.
Власти РФ могут снизить пошлины на импортные авто
Российское правительство в мае текущего года рассмотрит возможность снижения пошлин на ввоз в Россию новых импортных автомобилей.
Власти ФРГ одобрили план создания "плохого банка" по выкупу проблемных активов
План создания так называемого "плохого банка", который германский кабинет министров одобрил в среду, предусматривает поглощение "токсичных" активов на общую сумму чуть менее 200 млрд.
Госфинуслуг намерена ужесточить контроль за участившимися случаями невыплаты перестраховочных возмещений
Государственная комиссия по регулированию рынков финансовых услуг намерена ужесточить контроль за участившимися случаями невыплаты перестраховочных возмещений страховыми компаниями.
ВР приняла закон о назначении и увольнении председателя ФГИУ по представлению премьера
Верховная Рада Украины приняла закон "О внесении изменений в статью 7 Закона Украины "О приватизации государственного имущества" (относительно урегулирования порядка увольнения председателя Фонда государственного имущества Украины).


 

© 2008 HostArt - лучший Вэб хостинг. Все права защищены.