|
||||
|
Описание языков запросов различных поисковых машинЯзык запросов поисковой машины ЯндексЛучшая, на наш взгляд, работа по изучению операторов поисковой машины Яндекс выполнена специалистом из Санкт-Петербурга Денисом Фурсовым. На его ресурсе[3] постоянно проводятся дополнительные исследования, отслеживаются и оцениваются изменения в работе операторов указанной поисковой машины. Ниже речь пойдет о том, как с помощью специальных фильтров, основанных на Булевой алгебре, создавать запросы, максимально соответствующие потребностям специалиста, который ищет информацию в Интернете. При изучении этого вопроса, не следует забывать, что компьютер очень исполнителен, но лишен способности думать, поэтому следует составлять запрос, исходя из того, что он будет обработан компьютером буквально, а не с учетом того, что же на самом деле имел в виду пользователь, создавая свое обращение. Лучше всех эту мысль проиллюстрировал летом 2005 г. Алексей Амилющенко, главный аналитик отдела маркетинга Яндекса на следующем примере.
Текст запроса мы будем помещать в квадратные скобки [] для того, чтобы визуально выделить его из текста книги. Если уважаемый читатель решит ввести приведенные ниже запросы в поисковую строку поисковой машины, чтобы проверить их работоспособность на практике, то эти квадратные скобки вводить не надо. Итак, перейдем непосредственно к операторам запросов Яндекса. 1. Логическое «И». Яндекс поддерживает три разных оператора, относящихся к логическому «И», что делает его самым гибким из всех поисковиков, работающих с русским языком. Столь развитая, практически уникальная система операторов поисковых запросов дает возможность предельно точно настроить запрос и сформировать такой фильтр для данных в Интернете, который максимально качественно выбирает нужную информацию и отсекает ненужную. 1.1. Пробел. Слова, разделенные пробелом, должны располагаться недалеко друг от друга. Специалисты поясняют, что термин «недалеко» отнюдь не фиксированная величина и меняется в зависимости от того, с какими словами указанный оператор в каждом конкретном случае используется. Если они часто употребляются, то «недалеко» – значит, на расстоянии нескольких слов друг от друга. Если же они редко встречаются в обиходе, то даже их нахождение в разных концах документа будет восприниматься как «недалеко». При этом, несмотря на то, что логическое «И» в общем виде Булевой алгебры подразумевает присутствие всех упомянутых слов, Яндекс, тем не менее, действительно выдает сначала те документы, в которых есть все ключевые слова, представленные в запросе. После чего начинает выдавать документы, в которых на одно ключевое слово меньше, чем в запросе, затем – на два слова меньше и так далее.
1.2. Амперсанд (&). Слова, разделенные амперсандом, находятся в одном предложении. Важно: амперсанд должен быть отделен пробелами с двух сторон от любых других слов.
1.3. Двойной амперсанд (&&). Слова, разделенные двойным амперсандом, находятся в любом месте одного и того же документа. Важно: между амперсандами не должно быть пробелов, но сам оператор должен быть отделен пробелами с двух сторон от любых других слов.
Чтобы увидеть это наглядно, читатели могут нажать в результатах выдачи гиперссылку «Найденные слова», которая приводится во всех итогах поиска. И тогда слова, которые есть в запросе, будут подсвечены и не придется тратить время на их «отлавливание» в тексте. 2. Логическое «НЕ». Логическое «НЕ» представлено двумя операторами. Прежде чем рассказать о них, отвечу на вопрос, который часто возникает у людей, впервые приступивших к изучению операторов поиска: «Зачем нужно логическое „НЕ“? Его ведь можно и вовсе не вводить, и тогда оно нам не понадобится!». Отвечаем: если мы сами решаем, что нам вводить, а что нет, то это утверждение справедливо. Но проблема в том, что часто в выдаче принудительно оказывается «мусор» и другого способа избавиться от него, кроме как убрать эти слова при помощи логического «НЕ», у нас нет. Так, например, если вас интересует конек крыши, то по слову «конек» в выдаче окажется информация и о роликовых, и о фигурных коньках, и даже о Коньке-Горбунке. Для таких-то случаев логическое «НЕ» и придумано. Итак, вернемся к нашим операторам. 2.1. Тильда (~). Знак тильды – это верхняя левая клавиша на буквенно-цифровой клавиатуре. Символ вводится на английском регистре с нажатой клавишей SHIFT. Как и амперсанд, тильда должна быть отделена пробелами с обеих сторон. Часто допускают ошибку, «приклеивая» тильду к следующему за ней слову. Иногда отсутствие пробела между тильдой и последующим словом не влияет на результат, но бывает и наоборот, поэтому лучше внимательно проследить за пробелами вокруг этого знака. Тильда означает, по аналогии с диаметрально противоположным символом – амперсандом, что слова не должно быть в предложении.
2.2. Двойная тильда (~~). По аналогии с двойным амперсандом, двойная тильда пишется слитно внутри самого этого оператора, но отделяется от остальных слов пробелами с обеих сторон. Она означает, что слова, которое за ней расположено, не должно быть в документе совсем.
Обратите внимание: в результатах выдачи слова «маркетинг» и «маркетингу» выделены как релевантные, «маркетинговые» же – нет. Это происходит потому, что термин «маркетинг» – существительное, а «маркетингу» – его словоформа, тогда как «маркетинговые» – совсем другая часть речи, а отнюдь не производное от слова «маркетинг». Подобное явление надо учитывать, если вы рассчитываете на способность Яндекса самостоятельно перебирать словоформы. Игнорирование этого факта нередко приводит к искажению результатов выдачи и также является частой ошибкой начинающих специалистов по поиску в Интернете. На самом деле, в Яндексе есть еще один оператор логического «НЕ», который обозначается знаком «минус». По мнению Дениса Фурсова, с которым автор полностью согласен, _ «минус» – это не всегда корректно работающая двойная тильда, поэтому пользоваться им смысла нет. Мы не знаем наверняка, но предполагаем, что знак «минус» в качестве логического «НЕ» – это способ унифицировать Яндекс с другими поисковыми машинами, поскольку в большинстве своем они обозначают логическое «НЕ» именно этим знаком. Мы не пользуемся оператором «минус» при поиске в Яндексе. 3. Логическое «ИЛИ» (оператор |). Логическое «ИЛИ» представлено оператором, имеющим вид вертикальной черты |. На клавиатуре этот оператор находится обычно выше (реже он расположен ниже) клавиши Enter и вводится в английском регистре, при нажатой клавише SHIFT. В подавляющем большинстве случаев оператор | и слова, с которыми он используется, заключаются в скобки, так как чаще всего этот оператор относится сразу к двум и более словам.
Обратите внимание, что скобки, как в арифметике при вынесении за скобку общего множителя, позволяют распространить действие оператора «двойная тильда» на все слова, расположенные внутри них. Кстати, для удобства восприятия этот запрос лучше оформить так, чтобы слова «маркетинг» и «менеджмент» были сгруппированы. Смысловой нагрузки это не несет, а потому и на выдачу не влияет, однако снижает вероятность того, что вы сами запутаетесь в своем запросе, если он будет достаточно длинным. Соответственно, мы бы советовали обратиться к поисковику так:
4. Яндекс учитывает морфологию слов. Это означает, что Яндекс по запросу «Учет» выдаст результаты, содержащие слова «Учету», «Учетом», «Учетов» и т. п., которые он выделяет как релевантные теме поиска.
5. Можно отключить поддержание морфологии слов. Если слова с изменяющимися окончаниями «замусоривают» результаты, то можно принудительно заставить Яндекс искать только слова в нужной словоформе. Это бывает полезно, например, при совпадении названия компании с общеупотребительными словами. Скажем, маловероятно, чтобы фирма «Река» упоминалась в публикациях со словами «Реке» или «Реку». Для того чтобы принудительно искать только нужную словоформу в Яндексе, используют оператор восклицательный знак. Он пишется слитно со словом, которое за ним следует, как если бы этот символ был первой его буквой.
Видно, что количество страниц и сайтов в случае запроса с оператором «восклицательный знак» уменьшается почти в пять раз за счет исключения форм слова «река», таких как «реки», «рекой», «рекам» и пр. 6. Заглавные и строчные буквы. Яндекс периодически меняет некоторые нюансы в этом вопросе, стараясь, однако, придерживаться главного правила: слова, написанные с маленькой буквы, будут выдаваться и с маленькой, и с заглавной, а слова, написанные с заглавной буквы, будут выдаваться только с заглавной. Изменения, которые периодически происходят в подходах Яндекса к этой проблеме, обычно касаются попыток исправить наиболее распространенные ошибки пользователей. Ознакомиться с текущим состоянием дел можно как на странице помощи самого поисковика, так и в работе Дениса Фурсова. Однако для эффективной работы достаточно просто следовать приведенному в этом разделе правилу. Если же слово написано целиком заглавными буквами, Яндекс будет рассматривать его как представленное прописными. То есть, результаты ввода в поисковую строку понятия «РИТЕЙЛЕР» будут такими же, как и в том случае, если мы оформим запрос иначе – «ритейлер».
7. Обязательное включение слов запроса в выдачу. Чтобы искомые слова непременно присутствовали в документах к выдаче, используется оператор «плюс» (+). Для того чтобы наглядно показать работу этого оператора, сделаем запрос со словами, которые редко оказываются в одном документе. При этом разделим их пробелом. А затем сделаем точно такой же запрос, но поставим знак «плюс» перед каждым словом, запретив тем самым Яндексу выдавать документы, в которых набор искомых терминов неполный. Результаты отличаются разительно – вместо тридцати трех тысяч страниц в первом случае, во втором мы имеем всего восемь!
Оператор «плюс» бывает незаменим и в тех случаях, когда есть необходимость обязательно включить в выдачу стоп-слова. Очень хорошо это описано в работе Дениса Фурсова. Если какие-то слова должны быть в результатах, поставьте перед ними +'. Помогает со стоп-словами. Сейчас Яндекс, кажется, учитывает стоп-слова только в запросе из трех и менее слов (даже не операндов!). +не покупай (samsung|lg) позволит найти негативные отзывы о продукции этих фирм (сравните с простым 'не покупай (samsung|lg)).
Правда, Яндекс игнорирует стоп-слова как-то бессистемно. Так, запросы:
и
дают одинаковое количество результатов, в которых слово «не» учитывается как релевантное. Тем не менее, поскольку нет возможности проверить, как Яндекс отреагировал на запрос в каждом конкретном случае, мы рекомендуем воспользоваться советом Дениса и ставить «плюс» перед стоп-словами, как, впрочем, и перед теми словами, которые вы обязательно хотели бы видеть в выдаче. 8. Поиск точной фразы. Не исключено, что вам понадобится найти определенную цитату либо рекламный слоган какой-либо компании. Для этого используется оператор «двойные кавычки», аналогичные тем, что применяются в прямой речи. В выдаче при поиске цитаты будут присутствовать документы, содержащие все слова искомой фразы, в той же форме и последовательности, что и в оригинальной ее версии. Важно помнить, что точной цитата будет лишь в том случае, если кроме фразы, указанной в кавычках, в запросе не будет никаких лишних слов. Если помимо фразы в кавычках появится еще хотя бы одно слово, Яндекс будет выдавать документы, которые содержат все слова цитаты, сохранит их последовательность, варьируя при этом их формы. Как следствие, количество документов в выдаче заметно возрастет. Яндекс называет это «слова идут подряд».
Интересно понаблюдать при такой слаженности результатов за тем, как работает оператор исключения слова из предложения:
9. Слова находятся на определенном расстоянии. Этот оператор очень часто используется на практике, так как позволяет достаточно четко ограничить поиск. Вид он имеет следующий: /n, где n, по определению самого Яндекса, – это «максимально допустимое расстояние между двумя любыми словами запроса». Денис Фурсов дает такое определение оператору: «Расстояние между словами». Мы предлагаем следующим образом запомнить значение цифры в операторе: эта цифра (n) показывает, каким по счету будет второе слово после первого. Например, если в запросе написано:
то в выдаче будет присутствовать фраза «годовой отчет». Потому что слово «отчет» будет первым после слова «годовой». Если в запросе написано:
то в выдаче может появиться «годовой финансовый отчет», потому что слово «отчет» может быть вторым после слова «годовой», а первым может быть любое другое слово. Надеемся, мы объясняем доступно, потому что хотим рассказать еще о двух нюансах оператора расстояния между словами. На самом деле, по запросу:
документы, содержащие выражение «годовой отчет», также будут выданы, потому что меньшее значение расстояния возможно, а большее – нет. Мало того, в выдачу попадет не только сочетание «годовой отчет», но и «отчет годовой». Расстояние между словами распространяется на оба слова. Если же есть необходимость ограничить выдачу фразой «годовой отчет», исключив из нее выражение «отчет годовой», то оператор можно написать вот так:
Это практически эквивалентно запросу: [годовой /1 отчет ~ «отчет годовой»]. Количество документов в выдаче совпадает, и в первых рядах в момент составления запроса был документ:
Мы не будем чрезмерно загружать читателя описанием оператора расстояния между словами, так как сказанного вполне достаточно для работы, а изучение всех нюансов функционирования поискового движка Яндекса не входит в круг основных наших задач. Чтобы увидеть разницу между наличием и отсутствием знака «плюс» в операторе расстояния между словами, проведем напоследок такой эксперимент: сначала сделаем запрос, который позволяет появиться в выдаче документам, содержащим, согласно оператору расстояния, как фразе «годовой отчет», так и «отчет годовой», при этом исключив из результатов «годовой отчет»; а затем создадим запрос, требующий, за счет написания оператора расстояния между словами, выдачи только «годового отчета», и убедимся, что при попытке исключения конкретной фразы «годовой отчет» результат получить не удастся.
10. Числоформы (термин, введенный Денисом Фурсовым). Для того чтобы при запросе какого-либо нужного номера (например, номера приказа или телефона) в выдаче вам не попадались посторонние ИНН, маркировки радиоламп и микросхем, а также прочие лишние результаты, рекомендуется перед номером, который вы ищете, поставить восклицательный знак или взять его в кавычки. Сами номера надо написать во всех возможных вариантах, разделив их оператором «ИЛИ» и объединив в круглую скобку. Запросы:
и
дадут одинаковые результаты, в выдаче мы увидим следующее:
11. Поиск на определенном сайте. Оператор имеет вид url=www.url.ru/cat*. Хотим обратить внимание читателя на то, что на сайте Яндекса этот оператор имеет вид url=www.url.ru/cat/* с косой чертой в конце. Наш опыт показывает, что эта косая черта ухудшает результаты выдачи, поэтому мы рекомендуем записывать оператор без нее, как было показано в начале этого подраздела. Что касается знака «звездочка» в конце адреса, то это символ маски, который означает, что нас устраивает любая страница сайта, адрес которой начинается так, как написано слева от указанного символа. Чтобы воспользоваться оператором, позволяющим проводить поиск на определенном сайте, лучше скопировать этот оператор целиком из таблицы на сайте Яндекса, нежели вводить вручную, а затем заменить в нем адрес на нужный пользователю. Так можно свести к минимуму риск орфографической ошибки. Операторы поиска на определенном сайте можно сгруппировать так, чтобы поиск проводился на группе сайтов. Денис Фурсов приводит такой пример поиска слова «работа» на сайтах www.ko.by и www.superjob.ru, который находит в общей сложности порядка 800 страниц:
12. Оператор ссылки (link). Этот оператор показывает, какие внешние сайты содержат ссылку на сайт, указанный в запросе. Это один из самых важных для конкурентной разведки операторов, поскольку позволяет найти друзей или союзников конкурента, часто ведет на личные странички бывших либо нынешних сотрудников компаний, может обнаружить размещенные членами их персонала объявления о поиске работы или, например, выявить аффилированные структуры. Записывается оператор следующим образом:
Как и в предыдущем случае, мы рекомендуем убирать последнюю косую черту, после которой следует символ «звездочка». Если надо найти ключевое слово в ссылающихся на сайт страницах, то оператор link сочетается с обычными ключевыми словами, отделяясь от них двойным амперсандом. Например, зададим поиск понятия «креатив» в сайтах, ссылающихся на адрес издательства «Вершина»: www.vershinabooks.ru.
При этом можно еще раз проиллюстрировать влияние знака «плюс» на результат выдачи в Яндексе. При запросе:
Остальные страницы, показанные в предыдущем запросе, ссылались на сайт издательства «Вершина», но слова «креатив» не содержали. 13. Оператор поиска в заголовке страницы. Для тех, кто не занимается сайтами профессионально, напомним, что заголовок страницы – это то, что написано на синем (для Windows XP) поле в самом верху экрана, как бы уже за пределами страницы, на ее рамке. А с точки зрения разметки HTML, эта часть сайта заключена внутри тега <TITLE>. Яндекс справедливо считает, что если ключевое слово содержится в самом заголовке страницы, значит, она однозначно имеет непосредственное отношение к запросу. Синтаксис оператора выглядит таким образом (на примере поиска слова «разведка» на страницах, содержащих в заголовке словосочетание «ИПК УГТУ»):
Остальные операторы языка запросов Яндекса представляют меньший практический интерес, хотя и значительно расширяют возможности поиска. Ознакомиться с ними можно на странице помощи в Яндексе,[4] пройдя по ссылкам Помощь > Синтаксис запросов. Поиск в Гугле (Google)Гугл (google.ru) становится все более популярным. За ним стоит колоссальный финансовый ресурс, которым грамотно распоряжаются. Так, по информации из интервью инженера по программному обеспечению Google Мэта Катса, уже в 2002 г. «каждые 28 дней Google индексировал 3 млрд веб-документов, в том числе более трех млн новых страниц каждый день». Этот поисковик в чем-то проигрывает Яндексу, а в чем-то выигрывает у него. Поскольку Для удобства читателя при рассказе об операторах Гугла будем в ряде случаев проводить их сравнение с аналогичными операторами Яндекса. 1. Основы поиска. Чтобы ввести запрос, напечатайте ключевые слова и нажмите ENTER либо щелкните кнопку «Поиск в Google». Гугл использует интеллектуальную технику анализа текстов, которая позволяет искать важные и вместе с тем релевантные страницы по вашему запросу. Для этого система анализирует не только саму страницу, которая соответствует запросу, но и те, которые на нее ссылаются, чтобы определить ценность этой страницы для целей вашего поиска. Кроме того, Гугл предпочитает страницы, на которых ключевые слова, введенные вами, расположены недалеко друг от друга. 2. Показ ключевых слов в результатах. Каждый раз в списке найденных страниц Гугл показывает отрывок из текста на странице, выделяя в нем ключевые слова. Тем самым облегчается их обнаружение по всему тексту. Второй способ увидеть ключевые слова – загрузить страницу по ссылке «Сохранено в кэше». Недостаток данного способа (хотя конкурентной разведкой это нередко рассматривается как преимущество) – в том, что вы видите не ту страницу, которая есть сегодня, а т у, которая сохранена в базе Гугла. Изначально эта опция была придумана для того, чтобы сохранить возможность просмотра страницы даже в тех случаях, когда сервер, на котором она расположена, недоступен. Третий способ – традиционный для просмотра текста в браузере – заключается в использовании сочетания клавиш CTRL+F. В результате должно появиться окно «найти», в которое необходимо ввести искомые слова. Раскладка клавиатуры, установленная в этот момент на компьютере, значения не имеет. 3. Логическое «И». В отличие от Яндекса, в Гугле всего одно логическое «И», оно наиболее близко к рассмотренному ранее поисковому механизму «&&» в сочетании с оператором «плюс», поставленным перед каждым словом запроса. Это логическое «И» позволяет выдавать документы, которые принудительно содержат ключевые слова в любом месте текста. По умолчанию при написании слов запроса через пробел Гугл ищет документы, содержащие все слова запроса.
Интересно, что Гугл может показать и те источники, кoтopые ключевых слов не содержат, однако они присутствуют в ссылках на показанную страницу. В таком случае при просмотре информации с помощью ссылки «Сохранено в кэше» будет видна надпись: «Эти слова присутствуют только в ссылках на эту страницу». Описанный механизм работы Гугла хорошо виден, если посмотреть ключевые слова на странице сайта о работе в Самаре, сохраненной в кэше. Эти слова выделены:
А это слова присутствеют только в ссылках на страницу:
4. Логическое «ИЛИ». Оно пишется с помощью оператора OR. Обратите внимание: оператор этот должен быть написан заглавными буквами и отделен пробелами с обеих сторон от слов, расположенных перед ним и после него. Важно знать, что, в отличие от Яндекса, Гугл не поддерживает такой оператор, как скобки.
5. Заглавные буквы или строчные? В отличие от Яндекса Гугл не различает регистр букв. Все буквы воспринимаются как строчные, вне зависимости от того, как их вводили в поисковую строку. Запросы:
дадут одинаковые результаты. Результат поиска на момент написания книги:
6. Стоп-слова. Во вспомогательных инструкциях (хэлпах) написано, что Гугл, подобно большинству поисковых систем, игнорирует стоп-слова. Кроме того, хэлпы утверждают, будто, как и многие другие поисковики, Гугл имеет механизм принудительного включения стоп-слов в результаты поиска. К таким элементам относится большинство артиклей английского языка, союзов и предлогов русского языка. В реальности ситуация, похоже, складывается иначе.
7. Оператор «Плюс» (+). Тем не менее, бывают ситуации, когда надо принудительно включить в текст какое-либо слово, которое может иметь варианты написания. В хэлпе Гугла приводится пример с запросом «Star Wars Episode I», где римская единица представляет собой латинскую букву «I» («ай»). Если сделать запрос просто как:
то результат будет следующий:
В том числе в выдаче появятся слова
Если сделать запрос:
то результат будет такой:
И в него войдут только тексты, содержащие слово «Episode I». 8. Морфология слов. Гугл не поддерживает морфологию слов. Их изначально следует вводить в нужных формах. Правда, отчасти это компенсируется интеллектуальной системой поиска, которая может найти нужную словоформу в ссылках на страницу. Чтобы проверить утверждение об отсутствии поддержки морфологии, возьмем такое языковое сочетание, по которому можно увидеть все без исключения результаты. А сочетание следующее: «Глоклая куздра».
Правда, это не мешает Гуглу иногда выделять по запросу «площадь» слово «площади» как релевантное. Однако подобное встречается на странице выдачи, но не в кэше. Просто для сравнения приведем результат Яндекса. По всем трем запросам о «глоклой куздре» система дала на момент написания книги одинаковый результат:
9. Улучшение запроса во время поиска. Поскольку Гугл выдает все слова, которые вы вводите в запросе, имеет смысл составлять новые запросы, содержащие те слова, которые вы забыли ввести в начале поиска, но обнаружили в ходе его выполнения в найденных текстах. В ряде случаев это помогает улучшить результат. Подчеркнем особо – это должны быть именно отдельные запросы. Добавление же новых слов к уже имеющемуся списку порой приводит к излишнему сужению диапазона результатов, ведь Гугл будет пытаться выдать документ, в котором содержатся все искомые слова. 10. Исключение слов из запроса. Логическое «НЕ». Как известно, часто при составлении запроса встречается информационный мусор. Чтобы его удалить, стандартно используется оператор исключения – логическое «НЕ». В Гугле такой оператор представлен знаком «минус». Здесь он идентичен поисковому механизму Яндекса «двойная тильда» («~~»), исключающему слово из всего документа. Используя его, можно исключать из результатов поиска те страницы, которые содержат в тексте определенные слова.
11. Поиск точной фразы. Найти точную фразу, как мы уже говорили, требуется либо для поиска текста определенного произведения, либо для поиска определенных продуктов или компаний, в которых название или часть описания представляет собой стабильно повторяющееся словосочетание. В отличие от Яндекса, который может менять формы слов, входящих в текст, заключенный в кавычки, Гугл такой способностью не обладает. Мы отмечали, что эта система словоформы вообще не поддерживает. Чтобы справиться с поиском точной фразы при помощи Гугла, требуется заключить запрос в кавычки (имеются в виду двойные кавычки, которые применяются, например, для выделения прямой речи). Забавным, но показательным примером может быть задание из учебника русского языка для 7 класса под ред. Н. М. Шанского, где на стр. 45 предлагается разделить текст на абзацы. Автор – М. Шолохов. Произведение не указано. Приведем фрагмент текста:
Введем этот текст в кавычках в Гугл и получим следующий результат:
Как выяснилось, этот фрагмент относится к произведению «Тихий дон» (книга четвертая). Курьез же состоит в том, что у М. Шолохова этот текст оказался вообще не разбитым на абзацы. Гугл воспринимает в качестве знаков, связывающих слова в единую фразу, не только кавычки, но и такие символы, как дефис, слэш (косая черта), точка, знак равенства, апостроф.
Во всех вышеприведенных случаях первым в выдаче стоит текст, фрагмент которого приведен ниже:
При этом все три слова:
рассматриваются как отдельные, но стоящие рядом и в этой же самой последовательности. Интересно, что по запросу:
оказалось на 100 документов больше, чем по остальным, но если взять это слово в кавычки, то результат уравнивается:
Чтобы прояснить этот казус, введем следующий запрос:
В итоге получим:
В выдаче появятся тексты такого содержания:
12. Количество слов в строке поиска. Во многих источниках встречается информация, согласно которой поисковая строка Гугла вмещает 10 слов или что Гугл проводит поиск лишь по 10 словам. Проведенный нами эксперимент эти данные не подтвердил. Так, введем запрос из 23 слов:
В КЭШе подчеркнуты все 23 слова, и в тексте они также присутствуют. Если изменить запрос, используя логическое «ИЛИ» вместо логического «И», то результат прогнозируемо меняется, но все слова в выдаче по-прежнему выделены Гуглом.
13. Стемминг (а также wildcard). Стемминг – возможность усечения слова до его корня. После усечения слова до его корня производится поиск релевантных вариантов слов, производных от этого корня. Другими словами, стемминг позволяет искать все однокоренные слова. Техника поиска по маске (wildcard) предствавляет собой написание базового слова (или части слова), после которых идет символ маски – «звездочка» (*), заменяющая собой любое возможное продолжение слова. Таким образом, если поисковая машина поддерживает поиск по маске, то ищутся все слова, которые одинаково начинаются. Эта техника особенно удобна, когда вам неизвестно точное написание конкретного слова, либо когда вы хотите включить все возможные варианты слова в свой поиск. Например, когда по запросу
получают как «тарталетку», так и «тартар». Так вот, Гугл эти технологии не поддерживает (как, впрочем, и Яндекс). Зато он поддерживает вариант, когда вместо целого слова вводится звездочка. Например, по запросу:
будет выдано:
с подчеркиванием всех этих слов, в том числе буквы «и». В какой-то степени это похоже на поиск с расстоянием между словами, применяемый в Яндексе. По запросу:
будут получены результаты:
где слово «Семеновская» не считается релевантным и не подчеркивается Гуглом. 14. Дополнительные операторы. 14.1. Оператор cache: Поисковая машина хранит версию текста, которая проиндексирована поисковым пауком, в специальном хранилище в формате, называемом кэшем. Кэшированную версию страницы можно извлечь, если оригинальная страница недоступна (например, не работает сервер, на котором она хранится). Кэширо-ванная страница показывается в том виде, в котором она хранится в базе данных поисковой машины, и при показе пользователю сопровождается надписью наверху страницы о том, что это страница из кэша. Там же содержится информация о времени создания кэшированной версии. На странице из кэша ключевые слова запроса подсвечены, причем каждое слово для удобства пользователя подсвечено своим цветом. Например:
Можно создать запрос, который сразу будет выдавать кэшированную версию страницы с определенным адресом: Так, запрос:
будет сразу выдавать версию страницы www.bstm.ru из кэша, а не проверять ее нынешнее состояние. Внимание: пробела между оператором cashe: и URL’ом запрашиваемой страницы быть не должно. Если вы хотите, чтобы ключевые слова на кэшированной версии страницы были подчеркнуты, их надо через пробел указать после оператора cashe: и адреса страницы. Например:
14.2. Оператор info: Оператор info: позволяет увидеть информацию, которая известна Гуглу об этой странице. Например, запрос:
дает следующий результат:
Внимание: пробела между оператором info: и URL’ом запрашиваемой страницы быть не должно. 14.3. Оператор site: Этот оператор ограничивает поиск конкретным доменом. То есть, если сделать запрос:
то результаты будут получены со страниц, содержащих слова «маркетинг» и «разведка» именно в домене «acfor-tc.ru», а не в других частях Интернета. Если сделать запрос:
то будут получены документы, содержащие слово «scip» и расположенные в доменной зоне «.ru». Внимание: пробела между оператором site: и URL’ом запрашиваемой страницы быть не должно. 14.4. Оператор link: Этот оператор позволяет увидеть все страницы, которые ссылаются на страницу, по которой сделан запрос. Например, по запросу: будут получены известные Гуглу ссылки на статью о поиске через Яндекс, написанную liveuser. Внимание: пробела между оператором link: и URL’ом запрашиваемой страницы быть не должно. 14.5. Оператор allintitle: Если запрос начать с оператора allintitle:, что переводится как «все – в заголовке», то Гугл выдаст тексты, в которых все слова запроса содержатся в заголовках (внутри тега Title в HTML). Например, запрос:
даст результаты, где слова «википедия» и «яндекс» содержатся внутри тега Title на просмотренных поисковой машиной страницах. На момент написания статьи результат был таким:
14.6. Оператор intitle: Показывает страницы, в заголовке которых содержится слово, расположенное непосредственно после опретора intitle:,; все остальные слова запроса могут находиться в любом месте текста. Если поставить оператор intitle: перед каждым словом запроса, это будет эквивалентно использованию оператора allintitle:
На момент написания статьи результат был таким:
Внимание: пробела между оператором intitle: и последующим словом быть не должно. 14.7. Оператор allinurl: Если запрос начинается с оператора allinurl:, то поиск ограничивается теми документами, в которых все слова запроса содержатся исключительно в адресе страницы, то есть в URL. Так, на момент написания статьи для запроса:
результат был таким:
Внимание: оператор allinurl: работает лишь со словами, а никак не со служебными фрагментами URL. Такие специальные символы, как слэш или точка, не окажут положительного влияния на результат. Напротив, влияние будет отрицательным, поскольку они могут быть восприняты Гуглом как попытка ввести в запрос точную фразу. Например, запрос:
равно как и
результата не дал вообще. 14.8. Оператор inurl: Слово, написанное слитно с оператором inurl:, будет найдено лишь в адресе страницы Интернета, а остальные слова – в любом месте такой страницы. Например, для того, чтобы найти слово «разведка „на сайтах, содержащих в адресе сочетание букв «tc“, можно сделать такой запрос:
Результат на момент написания статьи:
Был представлен следующим текстом: «Otryady-5
Если оператор inurl: поставить перед каждым словом запроса, это будет эквивалентно использованию оператора allinurl:. Внимание: пробела между оператором inurl: и последующим словом быть не должно. Внимание: оператор inurl: работает только со словами и не работает со служебными фрагментами URL. Такие специальные символы, как слэш или точка, не окажут положительного влияния на результат. Влияние будет отрицательным, так как они могут быть восприняты Гуглом как попытка ввести в запрос точную фразу. Например, запрос
равно как и
результата не дал вообще. Результат мог бы быть, если бы в адресе какой-то страницы содержалась точная фраза «tc/razvedka» или «tc.razvedka». В этом можно убедиться, введя запрос:
И этот результат начинается с текста:
По запросу:
И этот результат начинается с текста:
14.9. Оператор related: Этот оператор описывает страницы, которые «похожи» на какую-то конкретную страницу. Так, запрос
дает результат:
Мы не считаем, что все страницы действительно подобны странице сайта it2b. ru, с точки зрения человека, а не робота. Хотя некоторые из них действительно посвящены схожей тематике. На самом деле первым в выдаче стоит сайт it2b.ru, который специализируется на вопросах использования технологий разведки для бизнеса. А вот вторым – сайт компании «SW-Trans», предлагающей услуги по перевозке грузов. Можем предположить, что основанием для сравнения двух сайтов послужило упоминание на ресурсе грузовой компании услуг по охране маршрутов, их сопровождению машинами со спецсигналами, о предусмотренных в таких случаях пропусках и о «решении всех возможных дополнительных проблем, возникающих при транспортировке». Наряду с транспортной компанией, Гугл включил в «подобные» страницы и такие источники, как журнал «Sales/Business (Продажи)», в котором встречается немало публикаций о предпринимательских рисках и о конкурентной разведке, а также компанию «Информзащита», работающую в области обеспечения информационной безопасности. Внимание: пробела между оператором related: и последующим словом быть не должно. 14.10. Оператор define: Этот оператор выполняет роль, своего рода, толкового словаря, позволяющего быстро получить определение того слова, которое введено после оператора. Например:
Результат:
Интересная особенность оператора define: состоит в его способности искать толкования конкретных выражений. В качестве фразы он понимает все слова, написанные после оператора, в том числе и без кавычек, просто через пробел. Например:
Результат:
Правда, иногда этот оператор может и повеселить, представив материал, в котором мало кто разберется. Например, по запросу
результат будет следующим:
А по запросу:
результат такой:
ВНИМАНИЕ: наличие или отсутствие пробела между оператором define: и последующим словом на результате не сказывается. 14.11. Поиск синонимов В хэлпе Гугла сказано, что если вы хотите найти тексты, содержащие не только ваши ключевые слова, но и их синонимы, то можно воспользоваться оператором «~». Нам не удалось найти подтверждения этому заявлению. Так, мы сравнили два запроса и не нашли разницы:
14.12. Поиск числовых значений Для тех, кому приходится работать с цифрами, Гугл дал возможность искать диапазоны между числами. Для того чтобы найти все страницы, содержащие числа в неком диапазоне «от – до», надо между этими крайними значениями поставить две точки. Например, по запросу
будут выданы страницы:
с выделенным числом «1914», а также:
с выделенным числом «1915». Подобный пример приведен в хэлпе Гугла на примере цены DVD:
14.13. Кнопка «Мне повезет» (в английском варианте – «I'm Feeling Lucky») Кнопка «Мне повезет» расположена на главной странице Гугла. На наш взгляд, это замечательная идея. По этой кнопке система выдает наиболее релевантный, с ее точки зрения, результат. Обычно это помогает при быстром поиске какой-то фактической информации, когда не требуется подробного изучения вопроса. После нажатия кнопки «Мне повезет» вы попадаете непосредственно на сайт, который Гугл предлагает в качестве искомого. Например, запрос по указанной кнопке:
открывает непосредственно сайт одноименной консалтинговой компании Поиск в РамблереОператоры Рамблера в данном разделе рассматриваются в сравнении с операторами Яндекса и Гугла. И, соответственно, те из них, которые имеют аналоги в двух других поисковых системах, здесь будут описаны не слишком подробно. Детальную характеристику мы сочли необходимым дать отличиям Рамблера от Яндекса и Гугла. Рамблер, на наш взгляд, – третья по значимости поисковая машина для работы с русскоязычными текстами. Причем, это третье место находится на очень значительном расстоянии от первых двух. Мы нечасто обращаемся к Рамблеру, поскольку, в зависимости от задачи, обычно начинаем поиск с Яндекса, после чего переходим в Гугл, или наоборот – начинаем с Гугла, а затем уточняем результат в Яндексе. В большинстве случаев этого бывает достаточно при работе с каким-то фактическим материалом, главным критерием которой выступает не полнота ответа, а его правильность. Вместе с тем, и специалисты конкурентной разведки, и представители других специальностей, которым часто приходится заниматься профессиональным поиском в Интернете, сходятся во мнении, что лишь использование нескольких поисковых машин может дать результат, претендующий на полноту ответа на вопрос. Одна поисковая система не способна справиться с подобной задачей. Связано такое положение вещей с тем, что, во-первых, поисковые роботы физически не успевают угнаться за стремительно растущим Интернетом, а во-вторых, с тем, что у разных поисковых машин – разные алгоритмы обработки собранной информации, а значит, и разные результаты этой обработки. Как следствие, нет и не может быть полного совпадения результатов поиска, особенно когда речь идет о редком запросе. Например, поиск во всех трех системах точной фразы (фрагмента песни) «дым, дым в твоих глазах» дал на момент написания статьи такие результаты:
Это не значит, что Рамблер лучше всех. Знать заранее, в какой поисковой системе и что именно удастся найти, невозможно. В этом смысле показателен пример с поиском фразы – фрагмента редкой песни: «аэропорт аэропорт ночное зарево огней».
Итак, перейдем к рассмотрению работы с Рамблером. Основу этой работы составляет раздел «Помощь», расположенный по адресу: http://www.rambler. ru/doc/help.shtml – и форма расширенного поиска, находящаяся по адресу: http://www.rambler.ru/cgi-bin/advanced.cgi?set=www. 1. Какие ресурсы Рамблер индексирует. По утверждению создателей системы, Рамблер индексирует сайты, размещенные в следующих доменах первого уровня:
Сайты, находящиеся в других доменах, поисковик игнорирует. Для тех, кто хочет, чтобы их сайт, расположенный в другой доменной зоне, был проиндексирован Рамблером, эта поисковая машина оставляет небольшую надежду на успех.
Кроме того, Рамблер утверждает, что «умеет извлекать гиперссылки из объектов Macromedia Flash», но не индексирует непосредственно сами тексты flash-объектов. Для таких технически продвинутых сайтов специалисты поисковой системы советуют создавать HTML-копию. 2. Поддержка морфологии слов. По умолчанию, Рамблер поддерживает морфологию слов. Отключение поддержки морфологии предусмотрено, но требует использования специального оператора – слово должно быть взято в кавычки. Наш эксперимент подтвердил, что система морфологию слов действительно поддерживает. 3. Скобки. Рамблер позволяет использовать скобки для группировки слов и применения ко всем словам, расположенным в скобках, одного оператора, который пишется перед скобкой. В этом описываемая в данном разделе система ничем не отличается от Яндекса, поэтому подробнее применение скобок мы рассматривать не станем. 4. Транслитерация. Люди довольно часто делают ошибки при вводе текста и вместо русских букв печатают их английских «близнецов». Например, букву «с». Рамблер говорит, что старается исправлять такие огрехи, однако не гарантирует результата. Эксперимент показал, что система действительно справляется с опечатками транслитерации, если количество таких ошибок в слове невелико. Убедитесь сами.
Чтобы не загружать читателя лишними примерами, скажем лишь, что при трех опечатках правильный поиск еще проводился, но после появления четвертой неправильно написанной буквы результат поиска стал нулевым. Рамблер в комментариях к результату поиска в этом случае просто порекомендовал пользователям быть внимательнее при вводе текста. 5. Регистр букв. Как правило, Рамблер не учитывает регистр букв, причем он распространяет это правило не только на слова запроса, но и на операторы. Действительно, запросы «глоклая куздра» и «ГлоКЛаЯ КУздРа» дали одинаковые результаты.
Однако Рамблер сообщает, что он делает исключение из этого правила: если в запросе, как минимум, два слова, идущих подряд, написаны с заглавной буквы, система, как утверждают ее создатели, старается искать эти слова также с заглавной буквы. То есть, Рамблер пытается помочь тем, кто ищет имена собственные или географические названия. Проведенный нами эксперимент этого не подтвердил. Запросы:
выдали в Рамблере одинаковое количество страниц в выдаче.
Совершенно идентичные предыдущим результаты были получены и на запросах из трех слов:
6. Стоп-слова и оператор «кавычки». Подобно Яндексу, Рамблер при обработке запроса может проигнорировать стоп-слова. Авторы системы утверждают, что для принудительного включения указанных элементов (или каких-либо других, подобных им) в выдачу, нужное слово следует заключить в кавычки. Эксперимент расставил акценты иначе. Стоп-слова, независимо от того, закавычены они или нет, одинаково попадают в выдачу. А вот остальным словам (не входящим в список стоп-слов), которые необходимо в обязательном порядке включить в выдачу, кавычки действительно обеспечивают обязательное включение в результат. Это эквивалентно оператору «плюс» в Яндексе и Гугле.
Пример работы кавычек в иных случаях, а не только со стоп-словами, приведен в следующем разделе – Логическое «И». Кроме того, как мы уже говорили, кавычки могут выступать аналогично оператору «восклицательный знак» в Яндексе. Слово, указанное в запросе в кавычках, будет присутствовать в результатах поиска лишь в той форме, в которой вы его зададите. 7. Логическое «И». Как и в Яндексе с Гуглом, роль логического «И» в Рамблере выполняет пробел. В принципе, можно ввести вместо пробела слово AND, но на практике, по вполне понятным причинам, так обычно не делается. Подобно Яндексу, Рамблер достаточно вольно обращается со словами, которые соединены пробелом – он может легко выдать не только те документы, где присутствуют ВСЕ слова запроса, но и те, где на одно-два слова меньше. В этом можно убедиться, сравнив два запроса:
и
Во втором случае все без исключения элементы запроса принудительно включены в выдачу – за счет кавычек, поэтому документов в выдаче значительно меньше. 8. Логическое «ИЛИ». Написание этого оператора приспособлено как для любителей Яндекса, так и для тех, кто предпочитает работать с Гуглом. Как и в Яндексе, в Рамблере логическое «ИЛИ» может быть представлено вертикальной чертой |. Для тех, кто привык к логическому «ИЛИ» Гугла, данная система предоставляет возможность пользоваться также оператором OR. Приоритета нет ни у одного из этих двух указанных вариантов. Наример:
9. Логическое «НЕ». Логическое «НЕ» в Рамблере похоже на таковое в Гугле и распространяется на весь документ. Сузить запрос, подобно Яндексу, до предложения, эта система не позволяет. Записывается логическое «НЕ» как NOT.
10. Стемминг (а также wildcard). Рамблер НЕ поддерживает ни стемминг, ни вилдкард. 11. Поиск с заданным расстоянием. Рамблер не очень качественно поддерживает поиск с расстоянием, несмотря на то, что его «Помощь» утверждает обратное. Рамблер говорит о том, что когда он ищет слова «в документе», то он реально ищет их на расстоянии не более 40 слов друг от друга. Это, конечно, не поиск с расстоянием, а скорее ограничение расстояния, но, по крайней мере, это прямо заявленное ограничение. Однако при этом Рамблер утверждает, что уменьшить расстояние в 40 слов можно. Запрос, при котором слова должны находиться рядом, в «Помощи» выглядит так:
Интересно, что при проверке этого утверждения мы обнаружили, что поисковик, похоже, – рекордсмен по числу сайтов, которые можно реально открыть в результатах запроса. Так, в случае с запросом про «красную армию» Рамблер показал более двух с половиной тысяч сайтов и был готов демонстрировать их и дальше, если бы мы не прекратили свой эксперимент. Результат можно увидеть по адресу:
Еще нам показался необычным (и неудобным) способ перехода к следующей группе сайтов в результатах выдачи. Так, если в Яндексе можно уйти, например, на 20-ю страницу выдачи, после чего внизу страницы с результатами последней доступной для просмотра в группе страниц станет 30-я, то в Рамблере для того, чтобы эта 30-я страница стала видна, требуется сначала выбрать переход к следующей группе сайтов вверху страницы, под строкой с запросом, и только после этого можно выбрать последнюю страницу следующей группы сайтов и перейти на нее. Подобная организация перехода в два приема совершенно непонятна. Однако вернемся к непосредственным результатам запроса
который, согласно хэлпу Рамблера, должен рассматривать цифру «2» как служебную информацию о расстоянии между словами, и выдавать результаты, где слова «красная» и «армия» находятся рядом. Наше внимание привлекло то, что цифра «2», которая в поиске должна была играть роль элемента оператора запросов, в выдаче обозначалась как слово, релевантное искомому. Чтобы не пролистывать результаты по «красной армии» до 47-тысячного сайта, мы попробовали испытать поиск с расстоянием, как он описан в разделе «Помощь», на другом запросе и не полчили положительного результата. Для того чтобы провести такую работу, мы взяли за основу фразу из песни: «Майскими короткими ночами, отгремев, закончились бои».
В выдачу попали документы, не содержащие слова запроса непосредственно рядом друг с другом, более того, цифра «2» опять оказалась рассмотрена в качестве части введенного в поисковую строку выражения:
Остальные операторы Рамблера вынесены в «Форму расширенного поиска», расположенную по адресу: http://www.rambler.ru/cgi-bin/advanced.cgi?set=www. 11.1. Поиск в заголовках страниц (<title>). Этот оператор, существующий в Яндексе и Гугле как самостоятельный, в Рамблере тоже есть, но в «Помощи» системы он не указан и найти его нам удалось лишь в «Форме расширенного поиска». Ссылка на форму расширенного поиска находится непосредственно справа от поисковой строки Рамблера. 11.2. Поиск ссылающихся страниц (link). Этот оператор также встретился нам только в «Форме расширенного поиска». Возможность использования его на практике проверена. Работает. 12. Язык документа. Принудительное назначение конкретного языка документа возможно в «Форме расширенного поиска». При этом Рамблер предлагает на выбор один из трех языков: русский, украинский или английский. По умолчанию в поле выбора языка отмечен вариант «любой». 13. Формат документа. Выбор форматов, как и языков, по современным меркам не впечатляет. Предлагаются HTML, Word (.doc) и Adobe Acrobat (.pdf). 14. Дата документа. Рамблер, подобно Яндексу, предлагает интересную возможность выбора даты в «Форме расширенного поиска», но если Яндекс, помимо конкретного диапазона с датами, позволяет выбрать, скажем, «последние 2 недели» или «последний год», то в Рамблере можно провести выборку лишь в конкретном временном диапазоне. 15. Поиск на определенном сайте. Представлен строкой в «Форме расширенного поиска» с названием: «Искать документы только на следующих сайтах:». Таким образом, на наш взгляд, Рамблер представляет определенный интерес для поиска страниц, когда требуется полнота выборки, но чаще эта поисковая система выполняет роль «запасного игрока» – на тот случай, если запросы, введенные в Яндекс и Гугл, не дадут желаемых результатов. Сам Рамблер, похоже, с этим смирился и не стремится каким-либо образом менять ситуацию, о чем косвенно свидетельствует довольно бедный набор возможностей настройки запроса. Однако порой система может быть весьма полезна, что вновь и вновь подтверждается практикой. Визуальный поисковик Quintura SearchНаряду с рассмотренными выше поисковыми машинами, существует довольно необычный продукт – визуальный поисковик. Примером такой системы служит бесплатная программа Quintura Search. Вы можете выбрать поисковую машину, на которой будет основываться дальнейший поиск (на момент написания книги в дистрибутив по умолчанию входили Яндекс, Google и Рамблер, но на сайте программы можно было добавить плагины, позволяющие пользоваться практически любым известным поисковиком). Затем вы получаете результаты в виде слов, расположенных вокруг ключевого понятия. Справа от этого круга расположены непосредственно результаты поисковых запросов по этим словам. При наведении курсора на какое-то одно из них, результат в правом окне меняется – он содержит те ключевые слова, на которые наведен курсор. Так, например, если ввести слово «электровоз», то в правом окне появятся сайты, которые Яндекс выдает в ответ на этот запрос. Вокруг него размещены слова, которые встречаются рядом с ним в системе – такие, как «грузовой», «постоянный», «контактный», «купить» и другие. Это видно на рис. 3. При наведении курсора на любое из этих слов справа появляются дополнительные слова, и в левой части окна программы запроса набор их также меняется (рис. 4). Вот как характеризуют программу Quintura Search специалисты, которые ее создали. Quintura Search ищет так, как ищут люди. Теперь поиск в интернете – это уже не просто поиск слов запроса, это визуализированный поиск с учетом контекста запроса, а также группировка результатов, визуализация и управление контекстом. Quintura Search предлагает для уточнения смысла запроса использовать термины (подсказки), которые по смыслу связаны со словами запроса |
|
||
Главная | В избранное | Наш E-MAIL | Добавить материал | Нашёл ошибку | Вверх |
||||
|