Часть 1
Рассматриваются автоматический анализ текста на основе первого и второго законов Зипфа, весовые коэффициенты слов терминов, матричное и векторное представление базы данных поисковых систем, даются рекомендации.
Методика эффективного и надежного поиска информации в Интернет имеет большие особенности. Для этого возьмем любой документ и, зная, в принципе, как информационнопоисковая система (ИПС) его обрабатывает, составим запрос. Именно здесь и возникает маленькая проблема.
Необходимо вообще знать, как ИПС функционирует, в том числе и с обеспечением защиты информации [13]. При такой постановке попробуем изложить некоторые методические основы поиска информации в Интернет на примере одной из базовых методик [4].Обнаруживается, что все созданные человеком тексты построены по единым правилам! Никому не удается обойти их. Какой бы язык не использовался, кто бы не писал, даже классик графоман, но внутренняя структура текста останется неизменной.
Она описывается так называемыми законами Зипфа (G.K. Zipf). Зипф предположил, что естественная человеческая лень ведет к тому, что слова с большим количеством букв встречаются в тексте реже коротких слов. Базируясь на этом постулате, Зипф вывел два универсальных закона. Первый закон Зипфа: «ранг— частота»
Выберем слово и сосчитаем, сколько раз оно встречается в тексте. Эта величина называется частотой вхождения слова. Измерим частоту каждого слова текста. Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз. Сгруппируем их, взяв только одно значение из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Порядковый номер частоты определяется как ранг частоты (рис. 1).Так, если наиболее часто встречаются определенные слова, то они будут иметь ранг 1, те, которые появляются за ними ранг 2 и т. д.
Значение константы в разных языках разное, но внутри одной языковой группы она остается неизменной, какой бы текст мы ни взяли.
Так, например, для английских текстов константа Зипфа равняется приблизительно 0,1. Интересно, как выглядят, с точки зрения законов Зипфа, русскоязычные тексты? Они не исключение. Анализ русскоязычных файлов свидетельствует, что закон Зипфа справедливый и для них. Для русского языка коэффициент Зипфа равняется0,060,07 [4]. Хотя эти данные не претендуют на полноту, универсальность законов Зипфа разрешает предположить, что полученные данные достоверны.
Второй закон Зипфа: «количество + частота» Рассматривая первый закон, мы игнорировали тот факт, что разные слова могут входить в текст с одинаковой частотой. Зипф установил, что частота и количество слов, которые входят в текст с этой частотой, тесно связаны между собою. Если
построить график, отложив по одной оси(оси Х) частоту вхождения слова, а по другой (оси Y) количество слов в данной частоте, то график кривой будет сохранять свои параметры для всех без исключения созданных человеком текстов! (рис.2). Как и в предыдущем случае, это утверждение верно в границах одного языка. Однако и межъязыковые расхождения небольшие.
На каком бы языке не был написан текст, форма кривой Зипфа останется неизменной. Могут ненамного отличаться лишь коэффициенты, которые отвечают за наклон кривой (в логарифмическом масштабе, за исключением нескольких начальных точек, график прямая линия). Законы Зипфа универсальны.
В принципе, они могут быть применимы не только к текстам. В аналогичной форме выражается, например, зависимость количества городов от числа проживающих в них жителей. Характеристики популярности узлов в сети Интернет тоже отвечают законам Зипфа.
Не исключено, что в законах отражается «человеческое» происхождение объекта. Так, например, ученые давно бьются над расшифровкой манускриптов Войнича. Никто не знает, на каком языке написаны тексты и тексты ли это вообще. Однако, исследованием анускриптов на соответствие законам Зипфа доказало, что это созданные человеком тексты. Графики для манускриптов Войнича точно повторили графики для текстов на известных языках.
Источник: Журнал "Бизнес и безопасность"
Продолжение далее