Приёмы поиска информации в индексированных поисковых системах

Все индексированные поисковые системы реализуют несколько алгоритмов поиска. К ним относятся:

Ø Простой поиск.При простом поиске в поле запроса вводится одно или несколько слов, которые могут характеризовать содержание документа. Если вводится несколько слов, то результат зависит от того, как эти слова введены, а это, в свою очередь, зависит от конкретной используемой системы. Приёмы простого поиска в разных поисковых системах, как правило, свои, и прежде чем ими пользоваться, желательно почитать инструкцию.

Ø Расширенный поиск. Под ним подразумевается запрос из группы слов. При расширенном поиске большинстве случаев разрешается связывать ключевые слова логическими операторами. AND (И), OR (ИЛИ), NOT (НЕ) и другими. основное достоинство расширенного поиска состоит в том, что записи ключевых слов и логических операторов в разных системах либо одинаковы, либо очень похожи. Поэтому, усвоив один раз приёмы расширенного поиска, можно ими пользоваться где угодно. Поиск операторов в документе не производится, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки.

Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу 'собака AND кошка' найдутся только те документы, которые содержат и слово 'собака', и слово 'кошка'.

Сложному запросу, состоящему из двух запросов, соединенных оператором OR (логическое ИЛИ) удовлетворяют все документы, удовлетворяющие хотя бы одному из этих двух запросов. По запросу 'собака OR кошка' найдутся документы, в которых есть хотя бы одно из слов 'собака' или 'кошка' (либо оба эти слова вместе).

Оператор NOT (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу 'собака NOT кошка' будут все документы, в которых есть слово 'собака' и нет слова 'кошка'.

Если оператор явно не указан, используется оператор по умолчанию AND: находятся только документы, содержащие все слова запроса. Так, запрос 'информация технологии кредит' будет истолкован как 'информация AND технологии AND кредит'. На странице Расширенного поиска оператор по умолчанию можно заменить на OR (Искать слова запроса: хотя бы одно).

Каждый из операторов имеет сокращенное обозначение:

Оператор «Апорт» «Рамблер» «Яндекс»
И AND, &, + AND, & &&, +
ИЛИ OR, I OR, I I
НЕТ NOT, - NOT, ! ~~, -
Группировка ( ) ( ) ( )
Словосочетания “” Не применяется “”

Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Изменить порядок группировки можно использованием скобок. Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.

Если запрос без скобок 'машина самолет | аэродром' эквивалентен запросу 'машина AND самолет OR аэродром' и, в соответствии с приоритетами операторов, означает "найти документы, содержащие либо слова 'машина' и 'самолет', либо слово аэродром, то запрос со скобками 'машина (самолет | аэродром)' равносилен запросу 'машина AND (самолет OR аэродром)', что означает "найти документы, содержащие слово 'машина' и одно из слов 'самолет' или 'аэродром'".

Роль прописных букв имеет большое значение. Возможно, для многих это удивительно, но «хлеб»=«ХЛЕБ», а «ХЛЕБ»¹ «хлеб». Именно так и обстоит дело в большинстве поисковых систем. Общее правило такое: если клиент ввёл строчные символы, то разыскиваются как строчные, так и прописные символы, но если клиент использовал прописные буквы, то ищется точное совпадение только с прописными буквами. Классический пример - Красная Шапочка. Если их ввести именно так, то будут разысканы только документы, в которых встречается указанное сочетание. Однако если ключевые слова записать как красная шапочка, то будет разыскано больше документов. Через сито отбора пройдут все документы, в которых встречаются сочетания красная шапочка, Красная шапочка, красная Шапочка, Красная Шапочка. Поэтому не стоит злоупотреблять применение прописных букв в запросе и использовать их лишь тогда, когда абсолютно уверены в результате.

Некоторые поисковые системы имеют при себе и каталог. Соответственно, индексы для самой поисковой системы добываются роботом, а каталог пополняется модераторами системы.

Ниже приведены настройки расширенного поиска в поисковых системах Google, Yandex, Rambler, All.by, Poisk.com

Приёмы поиска информации в индексированных поисковых системах - №1 - открытая онлайн библиотека

Рис.1 Расширенный поиск в Google

Рис.2 Расширенный поиск в Yandex

Приёмы поиска информации в индексированных поисковых системах - №2 - открытая онлайн библиотека Найдется все.
 
Числа: 519 623 серверов, 62 261 109 документов, 1 008 Гб English Приёмы поиска информации в индексированных поисковых системах - №3 - открытая онлайн библиотека
 
  Пример: международное студенческое удостоверение ISIC  
Я ищу:
   
 
· Подписка · Помощь  
  Словарный фильтр    
    Искать в страницах, содержащих, или не содержащих указанные слова. обязательно желательно исключить операторы все формы точная форма в предложении в документе во фразе в заголовке в аннотации в ссылке в адресе обязательно желательно исключить все формы точная форма в предложении в документе во фразе в заголовке в аннотации в ссылке в адресе  
  Дата    
    Искать за указанный период времени любой последние 2 недели последний месяц последние 3 месяца последние 6 месяцев последний год последние 2 года После До Января Февраля Марта Апреля Мая Июня Июля Августа Сентября Октября Ноября Декабря  
  Сайт/вершина    
    Искать только на данном сайте Примеры: www.yandex.ru, www.yandex.ru/skazki/  
    Исключить из поиска страницы данного сайта    
  Ссылка    
    Искать страницы со ссылками на данный URL Примеры: www.yandex.ru, www.yandex.ru/skazki/  
    Исключить из поиска страницы cо ссылкой на данный URL    
  Изображение    
    Искать страницы, содержашие файл картинки Примеры: lenin, flowers.gif  
    Искать страницы, содержащие картинку с подписью Примеры: цветы, ленин  
  Специальные объекты    
    Искать страницы, содержащие файлы объектов данного типа скрипт (script) апплет (applet) объект (object) стиль (style) Примеры: clock.class, default.css, home.js  
  Язык    
    Искать на языке любом русском (кириллица) не русском (латиница)  
  Формат выдачи    
    Количество ссылок на странице и длина описания. 10 25 50 100  
         
         
   
 
Приёмы поиска информации в индексированных поисковых системах - №4 - открытая онлайн библиотека Приёмы поиска информации в индексированных поисковых системах - №5 - открытая онлайн библиотека
 
 
         
  Расширенный поиск в Интернете  
Что искать     Помощь
 
Поиск по тексту:
  всего документа названия (<title>) заголовков (<h1> - <h5>)
Искать слова запроса:
  все ("и") хотя бы одно ("или") точную фразу
Расстояние между словами запроса:
  не ограничивать ограничивать
Исключить документы, содержащие следующие слова:
   
   
Язык документа:
  любой русский английский
Дата документа (в формате "24/04/2001"):
 
начиная с   по  
Искать документы только на следующих сайтах:
   
  Примеры: science.rambler.ru, www.lenta.ru, www.hosting.ua/~name (после "/" - только каталоги, начинающиеся c "~" !)
 
Вывод результатов  
Сортировать: сайты по релевантности страницы по релевантности страницы по дате (сначала новые) страницы по дате (сначала старые) Выдавать: по 15 по 30 по 50 Форма вывода: стандартная краткая детальная
     
Связанные запросы:
показывать отдельной колонкой показывать внизу страницы
     
 
     
                           

Рис.3 Расширенный поиск в поисковой системе Рамблер

Приёмы поиска информации в индексированных поисковых системах - №6 - открытая онлайн библиотека

Рис.4 Расширенный поиск в поисковой системеAll.by

Приёмы поиска информации в индексированных поисковых системах - №7 - открытая онлайн библиотека

Рис.5 Расширенный поиск в поисковой системе Poisk.com

Ø Контекстный поиск.Это очень полезный вид поиска, который реализован не во всех поисковых системах. Системы, которые его поддерживают, следует ценить особо. При контекстном поиске требуется точное совпадение фразы. При контекстном поиске ключевая фраза должна быть заключена в кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе.
Таким образом, двойные кавычки можно использовать и просто для поиска слова в заданной форме. Например, запросу 'самолет "заправился" посадка' удовлетворяет документ, содержащий текст '... самолет совершил посадку и заправился ...', и не удовлетворяет документ, содержащий '.. самолет совершил посадку, чтобы заправиться ...'.

Ø Специальный поиск. С помощью команд специального поиска разыскивают дополнительную информацию. Например, такие команды позволяют определить, как часто в Сети встречаются гиперссылки, указывающие на какой-либо ресурс, с их помощью можно найти ключевые слова, входящие в заголовки Web-страниц и т.п. Как правило, команды специального поиска в различных поисковых системах свои.

Каждая Web-страница имеет служебные поля в своём заголовке, а также специальные элементы, например, гиперссылки. В таблице представлены команды специального поиска поисковой системы Yandex.

Команда Описание Пример Пояснение
$title (Выражение) Поиск ключевых слов, указанных в выражении, выполняется только в заголовках Web-страниц $title (Космос) Разыскиваются только Web-страницы, в заголовках которых имеется слово Космос (рис.5.)
#keywords=(выражение) Поиск среди ключевых слов, заданных автором Web-страницы #keywords=(новости) Автор Web-страницы может сам задать ключевые слова, описывающие его материал. При просмотре в броузере мы их не видим, но они учитываются поисковыми системами при индексации.
#abstract=(выражение) Поиск в аннотации Web-страницы #abstract=(собака çкот) Автор Web-страницы может дать ей краткую аннотацию, которая на экране не отображается, но учитывается поисковыми системами при индексации
#image=(выражение) Поиск файлов иллюстраций по их имени #image=(cat.*) Если заранее неизвестно, какое расширение может иметь имя файла, применяют шаблон *(Рис.6)
#hint=(выражение) Поиск слов в альтернативном тексте иллюстраций #hint=(Учёба ç Учение) Автор может связать с иллюстрацией текст, называемый альтернативным. Он воспроизводится, если графика в броузере отключена или при наведении курсора мыши на рисунок
#link=”URL-адрес” Поиск Web-страниц, содержащих гиперссылки на заданный URL-адрес #link=”www.bn.by” Выявляются Web-страницы, на которых имеются гиперссылки на указанный URL-адрес (Рис.7)

Приёмы поиска информации в индексированных поисковых системах - №8 - открытая онлайн библиотека

Рис.6 Результат поиска по команде $title (Космос)

Приёмы поиска информации в индексированных поисковых системах - №9 - открытая онлайн библиотека

Рис.7 Результат поиска по команде #image=(cat.*)

Приёмы поиска информации в индексированных поисковых системах - №10 - открытая онлайн библиотека

Рис.8 Результат поиска по команде #link=”www.bn.by”

Формы поиска

Поиск необходимой информации может выполняться среди различных типов данных:

o Web-страниц

o Рисунков

o Видеофайлов

o Звуковых файлов

o Товары

o Энциклопедии и т.д.

Самое большое количество форм поддерживает поисковая система Aport, а система Rambler разыскивает только тексты.

Обычно, перед тем как давать задание на поиск, следует включить переключатель, соответствующий типу разыскиваемых данных.

Приёмы поиска информации в индексированных поисковых системах - №11 - открытая онлайн библиотека

Рис.9. Выбор формы поиска на «Яндексе»

Приёмы поиска информации в индексированных поисковых системах - №12 - открытая онлайн библиотека

Рис.10. Выбор формы поиска на «Апорт»

Приёмы поиска информации в индексированных поисковых системах - №13 - открытая онлайн библиотека

Рис.11. Выбор формы поиска на «Рамблер»