Часть 4
Итак, мы знаем, как система выделяет ключевые слова. Воспользуемся этим знанием, чтобы сформировать оптимальный запрос. Прежде всего, оговорим некоторые исходные предпосылки. Допустим, мы имеем некоторый текст источник и хотим найти в Сети Интернет документы похожего содержания. Откуда возьмется текст источник?
Поскольку сама задача поиска не могла возникнуть из ничего, где-то непременно должна существовать информация, которая возбудила интерес к проблеме. Может быть, это журнальная статья, книга, веб страница и т. п. Именно эту информацию и нужно привести в порядок и в форму, удобную для анализа. Если задача существует только у нас в голове, попробуйте описать свое видение проблемы оно и станет текстом источником. Если бы нам удалось препарировать текст источник так же, как это делает поисковая машина, по идее, мы могли бы получить результаты с максимально высокой релевантностью. Возьмем текст источник и проанализируем его. Для автоматизации процесса можно заглянуть на интерактивную страницу, где функционирует апплет, и воспользоваться небольшой программкой MTAS.
Если текст источник и файл на диске вашего компьютера, укажите программе путь к нему и она сама вычислит все необходимые параметры. В противном случае, например, если текст источник и страница в журнале, то анализ придется сделать вручную. Для реализации эффективного метода поиска информации в Интернет с использованием ИПС рекомендуется такая базовая последовательность действий:1. Подбираем текст источник. Чем четче описание проблемы в тексте источнике, тем качественнее и точнее окажется результат. Размытый и путаный текст источник выводит из поисковой системы настолько же бессмысленные документы.2. Удаляем из текста стоп слова (их можно просто вычеркивать).3.
Вычисляем частоту вхождения каждого термина. Причем делаем это без учета морфологии слов. Так, слова ship и ships будут разными терминами. Не нужно учитывать регистр, все буквы считаемстрочными.4. Выписываем на отдельный лист термины в порядке убывания их частоты вхождения (первыми должны идти те, которые встречаются чаще).5. Выбираем диапазон частот. Он должный лежать где-нибудь посредине. Надо брать не слишком часто, а наоборот, слишком редко термины, которые встречаются. Выбор диапазона субъективный. Следует ориентироваться на конкретное содержание текста.
Необходимость выбирать диапазон вручную не должно смущать, ведь теперь вы выбираете термины не из текста, а из построенного, по определенному закону, упорядоченного списка.6. Из выбранного диапазона выписываем термины. В большом тексте в диапазоне может оказаться довольно много слов. Применить их все едва ли удастся. Достаточно взять 1020 терминов. Их следует выбирать, руководствуясь, в первую очередь, здравым смыслом. Причем не следует ограничиваться, только характерными терминами, даже если они кажутся наиболее удачными. В список должны попасть и общие слова (их лучше выбирать из средней части диапазона).7. Составляем запрос, располагая отобранные слова в порядке их прохождения в список терминов. Запрос должен пониматься машиной как слова, связанные логическим ИЛИ оператором. Это очень важное требование. Чтобы результат не исказился, следует выучить особенности синтаксиса запросов конкретной поисковой системы.8. Отправляем запрос поисковой системе.9. В ответ вы можете получить несколько миллионов ссылок. Но не пугайтесь.
Если поисковая машина ранжирует результаты (а это еще одно необходимое условие), на первых страницах окажутся практически 100% релевантные документы. Самое интересное, что документ источник запроса (если его аналог существует в Интернете) совсем не обязательно будет возглавлять список.
Он может оказаться и самым последним. Таким образом, рассмотренные методические основы эффективного поиска информации в Интернет на примере одной из современных базовых методик для ИПС еще раз подчеркивают актуальность и необходимость их дальнейшего усовершенствования и практического использования.
В. Шорошев
Источник: Журнал «Бизнес и безопасность»