HostArt - аЛб б б аИаЙ а б аБ б аОб б аИаНаГ HostArt - аЛб б б аИаЙ а б аБ б аОб б аИаНаГ
HostArt - аЛб б б аИаЙ а б аБ б аОб б аИаНаГ HostArt - аЛб б б аИаЙ а б аБ б аОб б аИаНаГ
а  аКаОаМаПаАаНаИаИ
а аОаМаЕаНб
аЂаАб аИб аНб аЕ аПаЛаАаНб
а аОаГаОаВаОб
а аАаКаАаЗ а б аБ б аЕб аВаЕб аА
а аОаПб аОб б  аИ аОб аВаЕб б
аЁаЛб аЖаБаА аПаОаДаДаЕб аЖаКаИ
аЁаОаВаЕб б
а аЛб  аАаБаОаНаЕаНб аОаВ
а аОаНб аАаКб б

а аОаВаОб б аИ

Европе нужны сверхстойкие полупроводники
Британская компания Element Six, специализирующаяся на синтетических алмазах, – один из 23 участников европейского проекта, объединившего разнообразные предприятия и .
Новгородец нашел выход из кризиса, но противозаконный
За свою деятельность он может поплатиться 20 годами свободы.
Пост принял
Ведение блогов становится повальным увлечением знаменитостей.
МИД планирует к Евро-2012 расширить пропускную сеть на украинско-польской границе
Министерство иностранных дел Украины планирует к Евро-2012 расширить пункты пропускной сети на украинско-польской границе.
Еврокомиссия призывает Россию отменить ограничения на ввоз свинины
Еврокомиссия призвала Россию отменить ограничения на ввоз свинины из Великобритании, Испании и Канады, введенные в связи с распространением вируса нового гриппа.
Рейтинг надежности банковских депозитов пересмотрен
Сегодня независимое рейтинговое агентство "Кредит-Рейтинг" объявило о результатах пересмотра 30.
США не могут продолжать заимствовать средства у Китая, считает Обама
Китай и другие страны мира могут перестать выкупать долговые обязательства США, и Соединенным Штатам необходимо сдерживать рост бюджетного дефицита, чтобы избежать долгосрочного ущерба для экономики страны, заявил президент США Барак Обама, слова которого приводит китайская газета China Daily.
Сбербанк РФ рассчитывает получить прибыль в 2010 году
Сбербанк России может получить прибыль по итогам 2010 года, хотя объем резервов на возможные потери по ссудам еще будет расти, заявил финансовый директор крупнейшего российского банка Антон Карамзин.


Стратегия поиска

Часть 4

Итак, мы знаем, как система выделяет ключевые слова. Воспользуемся этим знанием, чтобы сформировать оптимальный запрос. Прежде всего, оговорим некоторые исходные предпосылки. Допустим, мы имеем некоторый текст  источник и хотим найти в Сети Интернет документы похожего содержания. Откуда возьмется текст источник?

поиск информацииПоскольку сама задача поиска не могла возникнуть из ничего, где-то непременно должна существовать информация, которая возбудила интерес к проблеме. Может быть, это журнальная статья, книга, веб страница и т. п. Именно эту информацию и нужно привести в порядок и в форму, удобную для анализа. Если задача существует только у нас в голове, попробуйте описать свое видение проблемы  оно и станет текстом источником. Если бы нам удалось препарировать текст источник так же, как это делает поисковая машина, по идее, мы могли бы получить результаты с максимально высокой релевантностью. Возьмем текст источник и проанализируем его. Для автоматизации процесса можно заглянуть на интерактивную страницу, где функционирует апплет, и воспользоваться небольшой программкой MTAS.

Если текст источник и файл на диске вашего компьютера, укажите программе путь к нему и она сама вычислит все необходимые параметры. В противном случае, например, если текст источник и страница в журнале, то анализ придется сделать вручную. Для реализации эффективного метода поиска информации в Интернет с использованием ИПС рекомендуется такая базовая последовательность действий:1. Подбираем текст  источник. Чем четче описание проблемы в тексте источнике, тем качественнее и точнее окажется результат. Размытый и путаный текст источник выводит из поисковой системы настолько же бессмысленные документы.2. Удаляем из текста стоп слова (их можно просто вычеркивать).3.

Вычисляем частоту вхождения каждого термина. Причем делаем это без учета морфологии слов. Так, слова ship и ships будут разными терминами. Не нужно учитывать регистр, все буквы считаемстрочными.4. Выписываем на отдельный лист термины в порядке убывания их частоты вхождения (первыми должны идти те, которые встречаются чаще).5. Выбираем диапазон частот. Он должный лежать где-нибудь посредине. Надо брать не слишком часто, а наоборот, слишком редко термины, которые встречаются. Выбор диапазона субъективный. Следует ориентироваться на конкретное содержание текста.

Необходимость выбирать диапазон вручную не должно смущать, ведь теперь вы выбираете термины не из текста, а из построенного, по определенному закону, упорядоченного списка.6. Из выбранного диапазона выписываем термины. В большом тексте в диапазоне может оказаться довольно много слов. Применить их все едва ли удастся. Достаточно взять 1020 терминов. Их следует выбирать, руководствуясь, в первую очередь, здравым смыслом. Причем не следует ограничиваться, только характерными терминами, даже если они кажутся наиболее удачными. В список должны попасть и общие слова (их лучше выбирать из средней части диапазона).7. Составляем запрос, располагая отобранные слова в порядке их прохождения в список терминов. Запрос должен пониматься машиной как слова, связанные логическим ИЛИ оператором. Это очень важное требование. Чтобы результат не исказился, следует выучить особенности синтаксиса запросов конкретной поисковой системы.8. Отправляем запрос поисковой системе.9. В ответ вы можете получить несколько миллионов ссылок. Но не пугайтесь.

Если поисковая машина ранжирует результаты (а это еще одно необходимое условие), на первых страницах окажутся практически 100% релевантные документы. Самое интересное, что документ  источник запроса (если его аналог существует в Интернете) совсем не обязательно будет возглавлять список.

Он может оказаться и самым последним. Таким образом, рассмотренные методические основы эффективного поиска информации в Интернет на примере одной из современных базовых методик для ИПС еще раз подчеркивают актуальность и необходимость их дальнейшего усовершенствования и практического использования.

В. Шорошев
Источник: Журнал «Бизнес и безопасность»



 

 

аЁб аАб б аИ

 
MBL 101X: акустика за $180 тыс.
В ходе выставки CES 2009 специалисты немецкой компании MBL Akustikgerate GmbH пообещали порадовать обеспеченных ценителей качественного звука оригинальной новинкой – акустической .
Прогноз: ВВП Китая вырастет в этом году на 8,3%
ст китайской экономики ожидается в текущем году на уровне 8,3%, согласно оценке китайской академии социальных наук, CASS.
Арендаторы офисов успокоились
Первый квартал нынешнего года сгладил панику на рынке офисных помещений…
У Национальной телекомпании Украины нет денег на дневники "Евровидения"
Экономический кризис жестко ударил по всем, кто имеет отношение к "Евровидению" в Украине.
Курс доллара растет на фоне ухудшения настроений инвесторов и падения на фондовых рынках
Курс доллара к евро растет в четверг вторую сессию подряд на фоне ухудшения настроений инвесторов после опубликования слабых статданных о розничных продажах в США и падения на фондовых рынках, сообщило агентство Bloomberg.
Европа спасает свои капиталы на Востоке... и дает еще
Евросоюз и страны Восточной Европы в условиях кризиса оказались зависимыми друг от друга.
Пре-релиз OS X 10.6.2 – свежее обновление Snow Leopard
Еще одно обновление (второе) Snow Leopard было разослано разработчикам в начале текущей недели компанией Apple .


 

© 2008 HostArt - лучший Вэб хостинг. Все права защищены.