Пошук інформації в Інтернеті
Методики пошуку інформації в Інтернеті, сутність концепції повнотекстового пошуку та етапи її реалізації. Особливості багатомовних запитів. Визначення параметрів пошуку, найпопулярніші українські та російські пошукові системи та їх основні переваги.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | контрольная работа |
Язык | украинский |
Дата добавления | 22.05.2009 |
Размер файла | 335,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Міністерство науки і освіти України
Українська Академія Друкарства
Реферат
На тему:
«Пошук інформації в iнтернеті»
Львів-2007 р.
Вступ
Почнемо, мабуть, з того, що Інтернет не завжди був глобальним. Саме в епоху його становлення, коли ця мережа ще не була тим, що вона представляє для нас зараз, зародилася концепція пошуку інформації в цій тоді ще, по більшій частині, недоступній для всіх мережі. Число комп'ютерів, підключених до Мережі, росло. Інформації ставало усе більше й більше. У наслідок чого виникла нова проблема, що стояла перед людством, а в першу чергу, перед програмістами. Потрібно було структурувати інформацію так, щоб будь-яка людина, змогла знайти те, що хоче.
До цього часу людство вже знало одну досить «обкачану» технологію пошуку інформації, що, зокрема, використовувалася й використовується зараз у бібліотеках різного рівня. Це реалізація каталогів. Спочатку на них була покладена важлива функція структурування інформації. Так, це допомогло, але ефект був тимчасовим і видний лише частково.
У цей період зародилася концепція повнотекстового пошуку інформації, коли машина обробляла тексти на сторінках, завантажувала спеціальним образом оброблені дані у свій індекс (базу), по якій, у наслідку, проводився пошук спеціальною програмою. Завдання для людини практично недосяжне, тому що для цієї мети явно б не вистачало людських ресурсів. Реалізація цього завдання була покладена на машини-роботи, база яких була заснована на комп'ютерному мисленні, тобто логічній обробці різних текстових даних.
Першим етапом цієї концепції пошуку були каталоги, що й не дивно. Каталоги в міру свого росту ставали громіздкими, що ускладнювало роботу з ними рядовому користувачеві.
Одним з перших й авторитетніших каталогів був Yahoo.com, у наслідку перерослий у повноцінну пошукову систему. На ньому була впроваджена функція пошуку по каталозі.
Але на цьому прогрес людської думки не закінчився. Згодом були створені повноцінні пошукові системи, які працювали по описаній вище схемі. Робот регулярно сканував нові ресурси або обновляв інформацію про старі, переходячи по посиланнях, які знаходились на сторінках, і додавав нові й змінені сторінки в індекс, свого роду базу пошукової системи. Пошук же здійснювався, за допомогою програмного аналізу зібраної інформації й видачі релевантних (найбільш підходящих) по запиті даних.
Перша пошукова система в Інтернеті з'явилася в 1992 році, ім'я якої було Veronіca. Свого роду пробний проект дав ґрунт для розвитку теми пошуку в Інтернеті. Слідом за нею з'явилися такі системи, як Altavіsta, Yahoo, Lycos, HotBot.
Другим етапом розвитку інформаційного пошуку в Інтернеті варто вважати появу на сцені одного з фаворитів веб-пошуку - пошукової системи Google. На сьогоднішній день ця пошукова система має найбільшу базу проіндексованих сторінок, найвищу швидкість індексації документів і сучасні просунуті технології пошуку й ранжирування отриманої інформації.
З розвідувачів Рунета варто відмітити такі пошукові системи як: Rambler, Webalta, Aport й Яндекс. Яндекс займає лідируючі позиції пошуку в Рунеті, має просунуті способи аналізу слів і більшу базу даних проіндексованих документів.
Набагато меншою активністю володіють Rambler й Aport. Вони, швидше за все, уже перебувають у стадії свого заходу. Більші надії покладені на пошукові системи Webalta й Gogo.ru. Вони порівняно молоді гравці пошуку в Рунеті.
В Уанеті більш-менш популярною є Мета, яка займається пошуком українських веб-ресурсів.
Усі, хто проводить пошук, використовують Інтернет, але наскільки точними є знайдені в Інтернеті документи і чи дійсні ті лінки, які були відображені по результату пошуку?
Документи, знайдені в Інтернеті, ставлять особливу проблему для тих, хто проводить пошук по попередньо заданому ключовому слову. Сторінки Ітернету можуть змінюватися в будь-який час при малій можливості з'ясування того, як виглядала визначена сторінка навіть незадовго до цього часу, документи можуть у будь-який час збільшитися або скоротитися, можуть бути переміщені, їхнє розташування видозмінене або їхні сторінки динамічно змінені. Адже щогодини створюється або видозмінюється два мільйони веб-сторінок.
Коли саме певний документ був поміщений в Інтернет?
Указівки дати (наприклад, «опублікований тоді-то», «останній раз обновлений тоді-то», «завантажений тоді-то», «авторське право»), що з'являються на сторінці, звичайно розглядаються як дійсні покажчики дати доступності для публіки, якщо немає причини сумніватися в цій інформації.
З іншого боку, якщо документ знайдений і немає вказівки, коли він був опублікований точно в такому виді, мається ряд способів одержати, принаймні, приблизну вказівку дати його публічної доступності, навіть якщо це не обов'язково погодиться з тим, коли він був останній раз видозмінений або коли він був доданий у каталог сервера, або коли вперше був здійснений доступ до нього пошуковим механізмом.
У випадку файлів у PDF або аналогічному форматі, указівки «створений тоді-то» або «останній раз видозмінений тоді-то» не забезпечують достовірної вказівки дати публічного розкриття, тому що документ може бути збережений без того, щоб автоматично стати доступним привселюдно. Проте, при використанні другого документа іноді можливо зробити висновок про те, коли став доступним зміст першого, значимого документа. Наприклад, якщо відомо дату публікації документа, що посилається на перший документ, то маються підстави припустити, що перший документ був опублікований до дати другого документа. Однак у деяких випадках посилання може відноситися до документа, що з якихось причин ніколи не був випущений для публічного поширення. У цьому випадку другий документ не достатній для визначення доступності першого документа. Для пошуків, що є частиною процедури видачі європейського патенту, Відділ пошуку повинний постаратися зняти всі сумніви, але навіть якщо залишається невизначеність, у звіті про пошук варто дати відповідне посилання на документ.
Чи залишається зміст електронного документа постійним з часом?
Багато сторінок Інтернету часто обновляються і виправляються, деякі можуть навіть містити окремі частини інформації, що були опубліковані в різні дні. Доти, поки не буде загальної системи ідентифікації версій однієї і тієї ж сторінки, єдиним вибором є прийняти дату публікації, якщо вона є, останньої доступної версії як представляє всю сторінку.
Щоб побільше дізнатися про пошукові системи можна для прикладу розглянути пошук в META - Українська пошукова система. http://www.meta.ua/ua
Повнотекстова пошукова машина словникового типу, підтримує розвинуту мову запитів, пошук по окремих полях документів, обмеження по даті; передбачені різні форми видачі результатів, об'єднання копій документа, що перебувають на різних серверах, реконструкція тексту та інші сервісно-пошукові функції.
Пошукова система <МЕТА> надає цілий ряд можливостей, які дозволяють вести більш доцільний пошук. Однак, пошукова система - тільки інструмент, тож головний внесок в швидке отримання точних результатів робите Ви, коли формулюєте свій запит.
Пошукові прикмети - це перелік пошукових прийомів, які, як ми сподіваємося, дозволять Вам більш ефективно організувати пошук і оперативно знайти те, що треба.
Скільки слів використовувати у запиті
По статистиці користувачі зарубіжних пошукових систем використовують в середньому 1,5 слова у запиті. Наші користувачі більш «багатослівні» - 2,5 слова на один запит.
У тому випадку, якщо Вам потрібна загальна інформація, що має хоч якесь відношення до теми, досить одного слова. Напевно серед декількох сотень документів, які видасть Мета буде документ, який відповідає темі Вашого пошуку. Однак, де буде цей документ - в першій десятці результатів або десятій десятці - справа випадку.
Щоб отримати добірку результатів, яка буде більш точно відповідати темі Вашого запиту та одночасно зекономити час на перегляд відповідей пошукової машини, краще шукати відразу за декількома словами, що характеризують Ваш запит більш детально.
Які слова використовувати у запиті
Основне смислове навантаження в мові несуть іменники. Цікаво, що таке становище наочно виявляється, коли автор web-сторінки прописує ключові пошукові слова (метатегі), які потім використовуються багатьма пошуковими машинами (Метою в тому числі) для індексування та пошуку. Основна маса цих ключових слів - це іменники. Значно рідше використовуються прикметники, і зовсім рідко дієслова, прислівники, прийменники, сполучники.
Прикметники у запиті - просто незамінні, якщо Ви полюбяєте та хочете знайти в Інтернет саме «голландський сир», з «баварським пивом» в «нічному клубі».
Дуже ефективний засіб для швидкого отримання точних посилань - це використання рідкісних слів. До таких слів можна віднести спеціальні терміни, назви місцевості, організації, імена людей та інше. Наприклад, поливинилхлорид, Пномпень, УКРНИИЛХА, Лорак тощо. Використання точних слів відразу «занурює» Вас в потрібну тематику.
Стоп-слова
Існує цілий ряд слів, котрі нехтуються пошуковими системами під час запиту і пошук по них неможливий. Це так звані стоп-слова, наприклад: на, що, це, для.
Стоп-слова настільки часто зустрічаються у мові (в нашому випадку в тексті документа), що шукати по них дуже скрутно - їх дуже багато. Цікаво, що в такі списки стоп-слів на деяких машинах вже входять такі слова як Інтернет, комп'ютер, Мережа - ці слова вже настільки поширені, що «нічого не означають».
До речі, не всі прийменники входять до списку стоп-слів - справа в омонімії мови. Наприклад, прийменник «при» одночасно є формою дієслова «переть» в російській мові, а також складовою частиною такого слова, як «Гран-при». У випадку з українською мовою виходить зовсім цікава історія. За запитом «при» можна отримати документи, в яких зустрічаються слова «перших», в значенні - «те, что перли».
Багатомовні запити
По статистиці Мети більша частина запитів поступає російською мовою. В той же час пошукова база Мети містить документи російською, українською та англійською мовами.
Така багатомовність задає свої особливості пошуку на Меті. До прикладу, для того, щоб отримати повний список сторінок, що мають відношення до освіти, необхідно крім слова «освіта» також задіяти слова «образование» та «education». Якщо Вас цікавить повнота пошуку-то це найбільш короткий шлях, щоб отримати посилання на весь масив цікавлячих Вас документів.
Звісно, великий масив відповідей буде містити однакову інформацію, яку просто подано різними мовами. Однак, за нашими дослідженнями, значна кількість сторінок не перекриваються, тобто містять інформацію, яка залучає до списку результатів тільки за запитом певною мовою.
Українсько-російські збіги
Однакове написання різних по значенню слів (омонімія) при пошуку по ключовим словам може привести до появи в списку відповідей досить несподіваних результатів. Наприклад, слово «лист». Додатково до омонімії російської мови: «лист каштана» і «лист бумаги», під час пошуку на Меті додається ще значення «лист» з української. Тобто крім омонімії в російській та українській мовах окремо, з'являється ще українсько-російська омонімія: приклад перекладу - приклад ружья, свято перемоги - свято верить, важкий стан - прокатный стан, Влада народу - позвать Влада тощо.
Частково зняти таку неоднозначність можна за допомогою оператора нормальної форми (поставити поперед «підозрілим» словом у запиті знак вигуку). Якщо ж використати пошук по фразі, омонімія мови майже не впливає на видачу результатів пошуку.
Ключова фраза
У своїй промові ми використовуємо безліч стійких виразів, словосполучень. Творці інтернет-сторінок користуються такими ж поєднаннями слів в своїх документах, і тому, запит з використанням стійких фраз і виразів, що відносяться до теми Вашого пошуку - один з могутніх засобів швидко отримати добротну добірку результатів.
Для пошуку у таких випадках треба використати лапки (дужки) або оператори відстані. (див. Як скласти запит). Іншими словами, треба шукати не слова, а словосполучення. Наприклад, за запитом «Век живи» - в лапках Мета з великою точністю видасть сторінки, де міститься прислів'я «Век живи - век учись» і його варіації, при цьому в короткій анотації ресурсу буде підсвічена саме ключова фраза. Запити по фразі «Комп'ютерна периферія», «курс валют», «прайс-лист» тощо значно скорочують загальне число знайдених документів та дозволяють уточнити пошук.
Концепт Вашого запиту
У самому загальному вигляді концепт - це смисл, який Ви вкладаєте у запит. Питання в тому, яким чином передати те, що Ви хочете відшукати в ключових словах Вашого запиту?
Можна спробувати пошукати інформацію в лоб - просто ввести ключові слова, які відповідають Вашому запиту. Як правило, цього досить. Якщо ж результатів пошуку немає зовсім або вони не точні, то треба спробувати переформулювати запит (тобто використати інші ключові слова, синоніми, які відповідають змісту Вашого пошуку).
Можливо зробити інакше. Документи, які містять цікавлячу Вас інформацію, можуть не бути присутні в індексі Мети, однак, те, що вони існують десь в українському Інтернеті - більш ймовірно. Залишається тільки добратися до них, використовуючи більш загальні по смислу категорії, які включають Ваші ключові слова.
Наприклад, якщо Вам потрібен конкретний український закон, то краще шукати сервера, присвячені українському законодавству, якщо ж поштова адреса якої-небудь організації - краще спробувати знайти Жовті сторінки тощо.
Як скласти запит
Найпростіший пошук
Найпростіший пошук так само простий, як 1, 2, 3:
1. Ввести ключові слова запиту в довільній формі в пошуковий рядок;
2. Якщо необхідно, вибрати одну або декілька підрубрик пошуку (Київ, Харків, Зарубіжжя);
3. Натиснути Enter (кнопку «Знайти/Find»).
Можливо, це все, що Вам зажадається для того, щоб знайти цікавлячу інформацію. У іншому випадку можна пошукати її інакше.
Простий пошук
Звичайно, запит являє собою одне або декілька слів, наприклад:
швидкий пошук інформації
За таким запитом Ви отримаєте документи, в яких зустрічаються всі слова запиту. Виняток складають сполучники, прийменники, вигуки тощо. Ці слова (так звані стоп-слова) можна не писати в запиті, оскільки самі по собі вони не несуть смислового навантаження і будуть нехтуватися. Наприклад, за запитом: погода в Криму будуть знайдені всі документи, в яких зустрічаються одночасно два слова: «погода» и «Крим». Де саме в документі розташовані слова, в якій граматичній формі вони знаходяться - не важливо. Слово «в», що є прийменником, нехтується. Отже наведений запит можна написати і так:
Крим в погоді
або
погода Крим
Результат пошуку буде таким, як і в першому випадку.
Звертаемо Вашу увагу на важливу особливість пошуку: незалежно від того, в якій граматичній формі Ви писатимите слово у запиті, воно буде знайдено в документах у всіх своїх формах. Наприклад, за запитом:
дитина йшла
буде знайдено серед інших і документи, які містять текст «діти йдуть». Таке розпізнавання форм працює для звичайних слів української/російської мови (базова лексика), тобто для яких-небудь специфічних слів, термінів, неологізму і т. п. воно не спрацює.
Розширений пошук
Різниця між простим і розширеним засобами пошуку в тому, що при розширеному пошуку використовуються групи операторів, які дозволяють точно указати, яким чином повинні бути зв'язані між собою слова запиту, указати відстань між ними тощо.
Перша група - це логічні оператори.
Оператор |
Синоніми |
Описання |
|
ТА |
AND |
Логічне ТА мається на увазі, його можна опускати, тобто потрібна інформація повністю эквивалентний запиту потрібна та інформація. По будь-якому з цих запитів будуть знайдені документи, що містять обидва слова. |
|
АБО |
OR |
Логічне АБО дозволяє шукати документи, що містять хоч би одне з слів в запиті. Так, за запитом швидкий або пошук будуть знайдені документи, що містять будь-яке з вказаних слів або обидва слова одночасно. |
|
НЕ |
NOT |
Логічне НЕ обмежує пошук документами, що не містять слово, вказане після оператора. Наприклад, за запитом напій не кава будуть знайдені документи, що містять слово «напій», але не містять слово «кава». |
|
() |
Круглі дужки задають порядок дії логічних операторів. Наприклад, Ви друкуєте запит швидкий або якісний пошук. За таким запитом Ви отримаєте документи, що містять або слово «швидкий», або одночасно слова «якісний» та «пошук» (оскільки оператор ТА мається на увазі і діє першим). Якщо ж Ви напишете запит (швидкий або якісний) пошук, то отримаєте документи, де зустрічаються одночасно слова «швидкий» та «пошук», або «якісний» та «пошук». |
Друга група операторів дозволяє задати відстань між словами запиту.
Оператор |
Синоніми |
Описання |
|
«» |
Подвійні лапки дозволяють знаходити словосполучення, вказане в них, або близьке до нього. Останнє застереження пов'язано з двома обставинами. По-перше, стоп-слова (прийменники, сполучники тощо) в лапках нехтуються, як у звичайному запиті. По-друге, граматична форма слів також лапками не фіксується (щодо запитів росйською мовою). Наприклад за запитом «погода в Криму» будут знайдені документи, що містять наступні словосполучення: «погода в Криму», «погода та Крим», «погода над Кримом», «погода Крим» тощо. |
||
сл2 (…) |
с2 (…) |
Обмеження вiдстанi у словах (двiйка вказана як приклад). Якщо Ви потребуєте, щоб заданi Вами слова зустрiчались, скажiмо, у межах 5 слiв, треба написати: сл5 (сонце вітер вода). У цьому випадку будуть знайденi документи, де мiж словами «сонце», «вітер» та «вода» розташовано не бiльш двох iнших слiв (тобто загальне число слiв у фрагментi не перевищує 5). Порядок, в якому зустрiчаються заданi слова - не важливий. |
|
пр2 (…) |
п2 (…) |
Обмеження вiдстанi у реченнях (двiйка вказана як приклад). Якщо Ви потребуєте, щоб заданi Вами слова зустрiчались, скажiмо, у межах 1 речення, треба написати: пр1 (сонце вітер вода). |
Ще один поширений випадок - пошук за адресами Web-серверів.
Оператор |
Синоніми |
Описання |
|
url= |
url: |
Обмеження пошуку одним або декількома серверами, або навіть частиною сервера. Ось декілька прикладів. Приклад 1. Запит: url=www.kharkiv.com За таким запитом будуть видані всі документи, проіндексовані машиною на сервері www.kharkiv.com. У цьому разі документи видаються у випадковому порядку. Приклад 2. Запит: url=www.kharkiv.com & довідкова & інформація За таким запитом будут выдані усі документи сервера www.kharkiv.com, що містять слова «довідкова» та «інформація». Приклад 3. Запит: url=www.kharkiv.com/assistance/* За таким запитом будуть видані усі документи, проіндексовані Метою на сервері www.kharkiv.com у каталозі assistance та його підкаталогах. Приклад 4. Запит: url=*.kharkiv.com За таким запитом будуть видані всі документи, проіндексовані машиною на серверах kharkiv.com, users.kharkiv.com тощо. Запити такого типу можуть оброблятися досить довго. Не варто давати запит типу *.uа, оскільки видача декількох сотен тисяч документів не допоможе Вам знайти потрібну інформацію, а система може і взагалі «роздумати» повертати Вам результати пошуку. |
Окрім позначених вище можна користуватися спеціалізованими операторами - зрізання та нормальної форми.
Оператор |
Синоніми |
Описання |
|
* |
Оператор зрізання. Зірочка наприкінці слова замінює довільне число будь-яких літер. Отже за запитом вол* окрім «вола» буде знайдено документи, що містять слова «воля», «Волинь», «вольт» та інші у будь-якій грамматичній формі. |
||
! |
Оператор нормальної форми. Іноді деякі форми різних слів співпадають за написанням. До прикладу, слово «лада» - це нормальна форма іменника жіночого роду та одночастно родовий відмінок слова «лад». Для того, щоб усунути таку неоднозначність, Ви можете поставити поперед слова у запиті знак вигуку (!). Таким чином Ви підкреслюєте, що це нормальна форма, та відтинаєте деяку частину непотрібних словоформ та якось обмежуєте видачу результатів. За запитом! лад не буде знаходитись словоформа «ладой», що є тільки у іменника жіночого роду «лада». |
Параметри пошуку
На відміну від операторів розширеного пошуку, які встановлюють взаємозв'язок між словами, оператори параметрів запиту дозволяють обмежити область пошуку (як за часом створення, так і за рядом службових полів документа).
Оператор обмеження інтервалу дат:
Оператор |
Синоніми |
Описання |
|
дата= |
дата: |
Цей оператор дозволить Вам обмежити пошук тільки тими документами, які попадають в заданий інтервал дат. Ось декілька прикладів. Приклад 1. Запит: Україна дата=01/01/99-01/02/99 За таким запитом будуть видані всі документи, що містять слово «Україна», і що мають дату від 1 січня 1999 року до 1 лютого 1999 року. Приклад 2. Запит: date=01/01/99 Україна За таким запитом будуть видані всі документи, що містять слово «Україна», і що мають дату 1 січня 1999 року. Приклад 3. Запит: дата:<01/02/99 Україна дата: - 01/02/99 Україна За таким запитом будуть видані всі документи, що містять слово «Україна», і що мають дату не пізніше 1 лютого 1999 року. |
Оператори пошуку по службових полях документа:
Оператор |
Синоніми |
Описання |
|
з= |
t= заг= title= |
Слово, що вказане пiсля знаку рiвняння (або складна конструкцiя у дужках) буде шукатись у назвах документiв (попереду дужок знак рiвняння можна не друкувати). За запитом t=(море або сонце) буде знайдено документи, що мiстять в назвi слово «море» або слово «сонце», або обiдва слова одночасно. |
|
кл= |
kw= клсл= keywords= |
Вказане після знака рівності слово (або складова конструкція в круглих дужках) будуть шукатися в полі META KEYWORDS документів (перед круглими дужками знак рівності можна опускати). За запитом kw (море та сонце) будуть знайдені документи, для яких автор Web-сторінки в ключових словах указав обидва слова: «море» та «сонце». |
|
р= |
a= рис= alt= |
Вказане після знака рівності слово (або складова конструкція в круглих дужках) будуть шукатися в полях ALT (коментарі до картинок). За запитом alt=weather будуть знайдені документи, в яких є картинка з коментарем, що містить слово «weather». |
|
сс= |
L= ссылка= link= |
Вказане після знака рівності ім'я интернет-серверу буде шукатися в посиланнях, що є в HTML-документах. Цей пошук ведеться тільки по посиланнях, де вказане повне ім'я сервера (шлях до конкретного файла нехтується). За запитом link=www.kharkiv.com будуть знайдені документи, в яких є посилання на документи з сервера www.kharkiv.com, в тому числі будуть знайдені й локальні посилання в межах самого www.kharkiv.com, але тільки в тому випадку, якщо в посиланні вказане повне ім'я сервера. |
|
ком= |
c= к= comment= |
Вказане пiсля знаку рiвняння слово (або складова конструкцiя у дужках) буде шукатись у полях COMMENT (коментарi). За запитом с=(файли у мережі) будуть знайдені документи, в коментарях до котрих зустрiчаються обидва слова: «файл» та «мережа». |
|
текст= |
x= |
Вказане після знаку рівності слово (або складова конструкція в круглих дужках) будуть шукатися тільки в звичайному тексті. За умовчанням слова запиту шукаються як в тексті, так і у всіх вказаних вище полях. Щоб шукати тільки по тексту, який Ви бачите в основному вікні програми перегляду (browser), користуйтесь цим оператором. За запитом text=(підсумки або коментарі) будуть знайдені документи, в яких будь-яке з вказаних слів зустрічається в межах основного тексту документа. |
Інший, більш швидкий шлях вибору області пошуку - перейти на сторінку ПАРАМЕТРИ ЗАПИТУ та вибрати необхідні значення.
Результати пошуку
Декілька слів про форму представлення результатів пошуку.
Загальна кількість результатів пошуку показується на початку сторінки.
Найбільш релевантні запиту відповіді показуються вгорі списку, з вказівкою кількості речень, відповідаючих запиту.
Крім посилання на знайдений документ (з вказівкою дати створення і кодування документа) видається назва сторінки, дата створення файла і кодування документа. У тому випадку, якщо один і той же документ розташований на різних серверах, або поданий в різному кодуванні, буде показана тільки одна відповідь з декількома посиланнями.
Текстовий опис ресурсу настроюється зі сторінки ПАРАМЕТРИ ЗАПИТУ. Можна вибрати коротку форму видачі результату, при якій буде показана тільки назва документа, середню форму - при цьому показується 2-3 релевантних речення із знайденого документа і докладну форму - текстовий фрагмент документа до 10 релевантних речень.
У другому і третьому випадках ключові слова запиту будуть підсвічені.
Після натисненні на посилання знайденого документа буде відкрите інше вікно. Якщо Ви хочете відкрити посилання в цьому ж вікні - натисніть на іконку . Крім того, є можливість прямо зі сторінки результатів завантажити в новому вікні головну сторінку сервера, на якому розташований знайдений документ. Для цього натисніть іконку .
У тому випадку, якщо знайдений документ не доступний або істотно змінився з моменту індексації, можна використати «Реконструкцію тексту». У цьому випадку буде відкрите інше вікно із змістом сторінки.
Підсвітка
Якщо ключові слова Вашого запиту зустрічаються не в основному тексті документа, а в будь-якому службовому полі, буде видана вказівка, до якого поля сторінки належить даний фрагмент тексту, одночасно з цим результати пошуку будуть підсвічені іншим кольором.
Для поля META KEYWORDS: Keywords:…
Для поля ALT: Малюнок:…
Для поля COMMENT: Коментар:…
Для поля A HREF: Посилання:…
Правило навпівжирного зображення ключових слів Вашого запиту діє і в цьому випадку.
Пошук в знайденому
Ви можете уточнити результати з використанням параметра «Шукати в знайденому», який доступний з усіх сторінок результатів пошуку. Для цього необхідно відмітити check-box (поставити галочку) та ввести додаткові ключові слова. При цьому пошук буде проводитися по вже знайденому масиву результатів. У іншому випадку пошук буде проведено по всій базі.
Якщо Вам необхідно відшукати деяку інформацію у мережі Інтернет, скористайтеся можливостями нижче наведених служб, спеціально призначених для цілей пошуку даних різноманітними засобами.
Тематичні каталоги
Trifle http://www.qp.dp.ua/
Український сервер, що підтримує інформацію за тематичними групами, надає можливість пошуку.
Мета http://meta-ukraine.com/
Український пошуковий сервер.
«Super World Links» http://www.swlinks.dn.ua/
Самый лучший классифицированный каталог русскоязычного Интернета.
Росія-Он-Лайн http://www.online.ru/rmain/
Російський сервер, що підтримує інформацію за тематичними групами, надає можливість пошуку.
Yahoo! http://www.yahoo.com/
Один із кращих тематичних каталогів мережі, також підтримує могутню функцію пошуку.
Sesna Ukrainian Search http://www.geocities.com/Athens/Forum/7131
Sesna Ukrainian Search - довідкова сторінка про українські сайти. Тематичні списки ресурсів (мистецтво, бізнес, освіта, політика, спорт); є можливість додання свого ресурсу. Дошка безкоштовних об'яв.
Пошукові системи
Alta Vista http://www.altavista.digital.com/
Швидкодіюча пошукова система компанії DEC. Підтримує інформацію щодо понад 60-ти мільйонів WWW-сторінок. Дозволяє здійснювати пошук по російських словах.
Lycos http://www.lycos.com/
Пошукова система компанії Lycos Inc. дозволяє здійснювати пошук по заголовках і «тілу» документів. Містить один із найбільших індексів мережі, що створюється спеціальним автоматом, який «сканує» Інтернет і щоденно реєструє тисячі нових документів.
Rambler http://www.rambler.ru/
Російська пошукова система, що спеціалізується на російськомовній інформації.
Excite http://www.excite.com/
Одна із найбільших пошукових систем. Дозволяє здійснювати «інтелектуальний» пошук по запитах англійською мовою.
InfoSeek http://www2.infoseek.com/
InfoSeek являє собою детальну і досить точну систему для пошуку інформації у WWW. Запит може бути сформульований у вигляді простого речення англійською мовою або у вигляді ключових слів і виразів.
Press Rover http://www.russianstory.com/rover
Повнотекстовий пошук по архивам російської періодики відткрит для всіх користувачів Internet - простий интерфейс, упорядкованість результатів, можливість безпосереднього огляду текста окремої статті й оригінала всієї публикації.
Українські ресурси Internet http://el.visti.net/
Інформаційно-пошукова система про українські ресурси Internet на основі декількох баз даних (база українських web-серверов, індексований український Usenet, база реферативних описів web-серверов).
SoftSeek Internet http://www.softseek.com/Internet
Пошукова система по програмному забезпеченню: безкоштовні, умовно-безкоштовні та демо-версії програм, IP-утіліти, ігри.
Пошук людей та компаній
Who Where! http://www.whowhere.com/
«Хто Де!» - Один із довідників електронних адрес приватних осіб і компаній.
Switchboard http://www.switchboard.com/
Найкраще місце для пошуку будь-кого у США: 90 мільйонів приватних осіб і 10 мільйонів компаній. Містить адреси, номери телефонів, а також, в разі наявності, електронні адреси.
Four 11 http://www.four11.com/
Довідник електронних адрес приватних осіб і компаній.
Infospace http://www.infospace.com/
Один із найповніших довідників електронних адрес приватних осіб і компаній.
Протягом усієї своєї історії людство знаходиться в пошуку. Але з недавнього часу мільйони людей стурбовані ще однією проблемою - пошуком в Інтернеті. В Інтернеті є майже усе. Для того щоб знайти те, що вам потрібно, і існують пошукові системи, причому їхня кількість достатньо велика. На сьогоднішній день в англомовному і російськомовному Інтернеті чітко позначилися беззастережні лідери - Google (http://www.google.com/) та Яndex (http://www.yandex.ru/). В українському Інтернеті «Мета-Україна» (http://www.meta-ukraіne.com/).
Yahoo |
Webcrawler |
|||
HotBot |
Gelaxy |
|||
Lycos |
Infospace |
|||
Altavista |
7search |
|||
Go |
Excite |
|||
Askjeeves |
|
|||
РОСІЇ |
||||
Rambler |
Tela |
TELA |
||
Aport |
Yandex |
|||
Rocit |
Atrus |
|||
УКРАЇНИ |
||||
Uaportal |
Ukrinfo |
|||
Meta-ukraine |
Robota |
|||
Uazone |
Market |
|||
Susanin |
Holms/ |
|||
Atas |
Silver |
|||
NSearch |
UaNet |
|||
ElVisti |
Pathfinder |
|||
UkrMaxFind |
Lviv |
Пошуковi сервери:
СВІТУ
Alta Vista
http://www.altavista.com/
Англомовна пошукова система містить близько 550 млн. індексованих сторінок. Alta Vista, дозволяє шукати також за російськими словами.
Lycos
http://www.lycos.com/
Пошукова система дозволяє вести пошук по заголовкам документів і по їх змісту. Вона містить один з найбільших індексів мережі, а також засоби для пошуку адрес різних осіб та пошуку зображень.
Excite
http://www.excite.com/
Одна з крупних пошукових систем. Дозволяє вести «інтелектуальний» пошук для запитів на англійській мові, в службах новин і публікує огляди Web-сторінок.
Yahoo!
http://www.yahoo.com/
Англомовна пошукова система володіє найбільш розвиненою структурою каталогів і різних сервісів. Містить масу додаткової інформації і є одним з найбільших Web-порталів.
Who Where!
http://www.whowhere.com/
Довідник електронних адрес приватних осіб і компаній.
Switchboard
http://www.switchboard.com/
Пошук в США: 90 мільйонів приватних осіб і 10 мільйонів компаній. Адреси, номери телефонів і електронні адреси.
Infospace
http://www.infospace.com/
Один з найповніших довідників електронних адрес приватних осіб і компаній.
сhttp://www.yahoo.com/; http://www.hotbot.com/; http://www.lycos.com/; http://www.altavista.com/; http://www.go.com/; http://askjeeves.com/; http://www.webcrawler.com/; http://galaxy.einet.net/; http://www.infospace.com/; http:// 7search.com/; http://www.excite.com/; http://www.google.com/
РОСІЇ
http://www.google.ru/
Російськомовна версія пошукової машини.
Яndex
http://www.yandex.ru/
Індексує в основному російськомовні ресурси. Пошук можна здійснювати точно або в будь-яких словоформах, з обмеженням по даті, з вказівкою сайту або його піддиректорії. Можна вести пошук з урахуванням індексу цитованості, шукати новини, зображення, скрипти, задавати мову документа. Має «полегшену» версію (з мінімумом елементів дизайну) на http://www.ya.ru/
Рамблер
http://www.rambler.ru/
Популярна російська пошукова система. Окрім якісного «звичного» пошуку пропонує пошук в новинах і товарах. Можливий пошук на сторінках окремого сайту.
Апорт
http://www.aport.ru/
Пошукова система з урахуванням російської морфології. Уточнення пошуку по розділам каталога і серверам. Переклад запитів (англ-рос.-англ).
Mail. Ru
http://go.mail.ru/
Колишній List.ru. Найбільший каталог Рунета, більше 130 000 сайтів. Ресурси відсортовані за тематичною ознакою. З сайтів каталогу автоматично формуються «паралельні», регіональні каталоги (доступ до них - в нижній частині основної сторінки, www.mail.ru.
http://www.rocit.ru/; http://tela.dux.ru/; http://www.atrus.ru/
УКРАЇНИ
Google http://www.google.com.ua/
Пошукова система українською мовою. Пошук web-сторінок зі світу або з України.
UKROP.com - Український об`єднаний портал. http://www.ukrop.com/
Інформація про Україну, новини зі всієї України та світу, діаспора, ресурси українського Інтернету.
ІнтерNетрi
http://www.internetri.net/
Тематичний і географічний каталог інтернет-ресурсів з системою пошуку.
UaPortal
http://www.uaportal.com/ukr
Багаторівневий каталог ресурсів (тематична і регіональна класифікації), пошук по ключовим словам. Курси валют, тематичні новини та інше.
MavicaNET. http://www.mavicanet.com/directory/ukr
Багатомовний пошуковий каталог.
META - Українська пошукова система. http://www.meta.ua/ua
Повнотекстова пошукова машина словникового типу, підтримує розвинуту мову запитів, пошук по окремих полях документів, обмеження по даті; передбачені різні форми видачі результатів, об'єднання копій документа, що перебувають на різних серверах, реконструкція тексту та інші сервісно-пошукові функції.
Пошуковий сервер Search.i.ua. http://search.i.ua/
Новий український пошуковий сервер, який індексує виключно українські веб-ресурси.
http://meta-ukraine.com/;
http://www.uazone.net/;
http://www.susanin.com/;
http://www.atas.com.ua/;
http://www.search.kiev.ua/;
http://el.visti.net/;
http://www.max.odessa.ua/search/index.rus.html;
http://www.ukrinfo.net/;
http://robota.com.ua/;
http://market.od.ua/;
http://holms.ukrnet.net/;
http://silver.kiev.ua/;
http://www.uanet.com.ua/search/;
http://www.pups.kiev.ua/;
http://www.lviv.ua/
Характеристика пошукової системи Rambler
Rambler (у перекладі з англ. - мандрівник, подорожній, мандруючий) - одна з наймолодших пошукових машин (осінь 1996 г.), автори якої врахували досвід і помилки попередніх спроб створити пошукову машину. На сьогодні це наймогутніша і найпопулярніша пошукова машина в російській частині Internet. Об'єм її індексу - більше 2 мільйонів сторінок, щодня додається і оновлюється більше 10 тисяч нових документів і статей з безкоштовних груп Relcom. Rambler підтримує всі кодування російської мови, володіє високою швидкодією, крім того, останнім часом система функціонує постійно і працює дуже стабільно, що для російських систем такого типа поки є досягненням а не нормою. На Rambler функціонує також рейтингова система Rambler's Top 100 (http://www.rambler.ru/top100), в якій можна знайти найбільш відвідувані сайти з певної тематики. Можливо, це коли-небудь стане повноцінним каталогом. Інтерфейс у Рамблера простій і зрозумілий - в центрі екрану знаходиться поле введення і дві великі кнопки - «Go» і «Advanced» (чомусь не перекладені російською мовою), з їх допомогою можна почати пошук за запитом і перейти до розширеного пошуку. Зліва декілька посилань дозволяють перейти до довідкової інформації, посилання вверху сторінки дозволяють змінити кодування для російського тексту. Запитів на природній мові Рамблер не підтримує, тому треба вводити ключові слова, бажано без закінчень. До послуг користувача введення масок (? - будь-яка буква * - будь-яке закінчення слова). На сторінці результатів пошуку Рамблер виводить вичерпну інформацію по кожному результату - посилання, назва сторінки, розмір сторінки, кодування, контекст в якому зустрічається слово і відсоток релевантности. Крім того, виводиться кількість результатів для всіх часткових пошуків (збіг 1 слова), натиснувши на відповідне посилання ці результати можна переглянути. На жаль, релєвантність результатів для простого пошуку на Rambler залишає бажати кращого. Засоби для складного пошуку на Rambler досить багатообразні - Rambler є кращим кандидатом на звання «Російська Альтавіста». Крім стандартних логічних операцій над термінами, пропонуються такі засоби як призначення вагових коефіцієнтів словам (для цього перед словом потрібно поставити декілька плюсів - дуже бажана присутність слова - або мінусів - слово небажано), пошук тільки в певній частині документа, пошук по URL.
Відмічена зручна особливість Рамблера, якщо випадково російське слово було набрано в латинській розкладці клавіатури, то він все одно «зрозуміє» помилку користувача і знайде інформацію за запитом.
Характеристика пошукової системи Google
http://www.google.com.ua/
У 1998 році два студенти Стендфордського університету Сергій Брін і Ларрі Пейдж, яка вже одержала визнання. PageRank використовувана в Google в основному заснована на link popularity. Тобто при обчисленні релевантности сторінки найбільший внесок має кількість і якість посилань на сторінки з інших сторінок. Зараз link popularity використовується у всіх основних пошукових системах миру (у тому або іншому ступені). До речі, в російськомовних пошукових системах також використовується цей параметр, наприклад, в Яндекс, цей параметр називається індекс цитування. Google добився успіху завдяки цій технології. Його трафік стійко збільшується за останні 2 роки. У червні 2000 р., такий Інтернет-гігант, як Yahoo!, вибрав Google, як додаткового постачальника результатів, замість Inktomi. Google недавно почав використовувати додатково результати від Open Directory Project, ця програма носить назву AdWords.
Назву пошукової системи Google було утворено в результаті гри букв в слові «googol». Цим компанія хоче підкреслити їх намір індексувати і обробляти великі об'єми інформації.
За заявою Google, на даний момент їх база даних налічує більше 1,346,966,000 проіндексованих сторінок.
Можна шукати в Google на 10 різних мовах. Ви також можете набудувати інтерфейс на потрібну вам мову. Наприклад, якщо ви шукайте німецький сайт, то ви можете вводити запит на німецькій мові, і всі допоміжні написи інтерфейсу будуть на німецькій мові.
Відмітні особливості. Дуже зручною функцією є «cache». Завдяки цією функцією користувач може проглянути проіндексовану сторінку навіть якщо ця сторінка видалена або сервер, на якому розташована сторінка недоступний. Ви також можете використовувати цю функцію для дослідження ваших конкурентів, це також допомагає краще зрозуміти принцип індексування сторінки пошуковим павуком (роботом). За допомогою Google можна знайти сторінки, які не міститися в його базі даних. Це можливо тому що пошуковий павук індексує текст посилань із сторінок.
Результати пошуку за допомогою Google беруться з наступних джерел: Google's index (власна БД), Open Directory Project (каталог ODP), RealNames
Велика частина результатів береться з власної бази даних Google і ранжирується в соответсвии з їх алгоритмом. Проте у користувачів також є можливість проглядати результати від ODP.
Т.ч., Google володіє такими відмітними особливостями:
1) найбільша в світі база даних (близько 10 млрд. документів);
2) система обслуговується наймогутнішою і найбільшою в світі обчислювальною системою;
3) найшвидша система в світі;
4) точність і якість ранжирування результатів (page rank - pr-учитывает кількість цих посилань і їх питома вага; підхід індексу цитирования- ИЦ);
5) найвикористовуваніша система в світі (60% користувачів застосовують її), включає до 32 видів пошуку;
6) &nbsр найбагатомовніша система.
Характеристика пошукової системи Yandex
Російськомовна пошукова система. На сьогодні має найбільшу базу даних, яка має кластерну структуру і розміщена на декількох серверах. Популярність цієї пошукової системи за останні місяці серйозно збільшилася. Yandex включає елементи каталога, наприклад, рубрикацію даних. Володіє розгорненою системою формування запиту. Наприклад, допускається введення завдання для пошуку на природній мові; в цьому випадку всі необхідні розширення проводяться автоматично. Є режим «Розширений пошук», в якому застосовується система багатоступінчатих меню. Є, також, крім можливості реєстрації, і можливість видалення зареєстрованих сторінок. Список результатів може мінятися залежно від завантаженості серверів. Оскільки база даних має кластерну структуру і рознесла на декілька серверів.
У формулу обчислення релевантности включений Індекс Цитування (кількість посилань на сайт). Чим більше - тим краще.
Розроблена технологія визначення спама, але поки вона є украй не ефективною. Часто зустрічаються спамерские сторінки. Але команда розробників працює над цим.
Характеристика пошукової системи Yahoo
Дивно, але ця неймовірно популярна система, обслуговуюча мільйони запитів ежеденевно, зародилася як проста колекція закладок, яку поповнювали всього 2 людини - Девід Філо і Джері Янг. На сьогодні Yahoo, це вже не просто каталог, це ціла група різноманітних сервісів, серед яких такі як каталог Yahooligans - Yahoo для дітей, система персональых каналів My Yahoo, безкоштовний E-mail сервіс, система «Shop with Yahoo» (купуйте з Yahoo), сумісний з MTV проект MTV unfURLed і багато що інше. Серед всіх розглянутих систем, Yahoo - єдина чисто каталоговая, на Yahoo немає власної пошукової машини. Зате список категорій на Yahoo є якнайповнішим і простішим - на відміну від інших каталогів, на Yahoo завжди легко визначити, в якому розділі знаходиться потрібна інформація. Заголовна сторіночка Yahoo вантажиться дуже швидко - хоча на ній дуже багато посилань, але всі вони текстові. Центральна частина сторінки, звичайно, зайнята вікном пошуку і списком категорій. Посилання вверху сторінки (графічні) забезпечують доступ до такої інформації, як «що нового», «що хорошого», «More Yahoos». Останнє посилання рекомендується відвідати - вона приводить на сторінку з огормным кількістю посилань на різноманітні Yahoo-каталоги і сервіси. У нижній частині основної сторінки Yahoo розташовано велику кількість посилань на найбільш популярні розділи Yahoo. При введенні ключових слів з основної сторінки Yahoo, запит обробляється по методу «Intelligent default», тобто Yahoo шукає найбільш відповідні результати в таких областях: у категоріях Yahoo; у Web-сайтах, зареєстрованих на Yahoo; на Altavista (запит передається за відсутності результатів); у новинах. Такий інтелектуальний пошук займає досить багато часу. При завданні критеріїв пошуку для Yahoo потрібно пам'ятати, що Yahoo шукає ці слова тільки в назві і описі сторінки, оскільки повнотекстового індексу на Yahoo немає. Тому не слід указувати при пошуку дуже багато терміни або синоніми - кількість результатів з Yahoo знизиться або навіть буде нульовим. При введенні ключових слів із сторінки каталога, потрібно вибрати область пошуку - весь каталог Yahoo або тільки його поточний розділ. Це робиться за допомогою радіокнопок під полем введення. На сторінці з результатами пошуку виводяться що спочатку задовольняють критерію пошуку категорії, а потім сайти. Біля кожної категорії в дужках стоїть число - це кількість сайтів в даній категорії. У випадку якщо на Yahoo немає результатів, відразу виводяться результати з Altavista. Вгорі і внизу сторінки виводиться маленька табличка, за допомогою якої можна одним натисненням кнопки миші провести пошук в категоріях Yahoo, на Altavista, в новинах і подіях.
Кількість результатів пошуку на Yahoo, природно, невелика, зате більшість з них є релевантною. Можлива проблема з відсутніми сторінками, оскільки вебмастера звичайно забувають видалити свої сайти з пошукових систем, а на Yahoo немає механізму автоматичного оновлення. Для розширеного пошуку Yahoo пропонує не дуже великий, але дуже корисний набір инструметов. Щоб потрапити на сторіночку розширеного пошуку, треба перейти по посиланню «options» з основної сторінки Yahoo. Серед засобів розширеного пошуку - обмеження результатів по даті, пошук в Yahoo, Usenet і серед E-mail адрес, використання логічних операцій над термінами і пошук конкретної фрази. Також присутня можливість шукати слова з довільними закінченнями, указувати слова, які повинні або НЕ повинні бути присутніми в документі, і т.д. Чисто російські ресурси в Yahoo не додаються, тому що в Yahoo Inc. просто нікому дивитися і оцінювати їх вміст. Але ті запити, які не дали результатів на Yahoo передаються на Altavista, а там є хороший індекс російських ресурсів.
Література
1. mailto:patent@km.ua
2. http://librportal.org.ua/index.php
3. http://mehanik.blog.net.ua/2007/08/29/istoriya-poshukovoho-internetu/
4. http://masters.donntu.edu.ua/
5. http://meta-ukraine.com/ua/pages/help.asp
Подобные документы
Методи результативного пошуку інформації в Інтернеті. Уявлення про пошукові служби, їх призначення та структура. Основні типи пошукових служб: пошукові каталоги, рейтингові системи, індексні бази даних. Спрямованість тематики і широта охоплення ресурсів.
реферат [33,5 K], добавлен 23.04.2010Технологія пошуку інформації в мережі Інтернет. Можливості спеціальних служб, індексів. Інформаційні ресурси у каталогах. Системи мета-пошуку, пошуку в конференціях Usenet, пошуку людей. Знаходження інформації із застосуванням серверів глобального пошуку.
реферат [38,8 K], добавлен 20.05.2011Історія розвитку і створення Інтернет. Протоколи передачі даних. Способи організації пошуку інформації Інтернет. Пошукові системи та сервіси: Яндекс, Google, шукалка. Послідовність виконання пошуку необхідної інормації за допомогою браузера Mozilla.
дипломная работа [4,9 M], добавлен 22.07.2015Особливості та методика пошуку інформації та об’єктів у зовнішній пам’яті комп’ютера, в мережі або операційній системі Windows. Специфіка використання автономної й онлайнової довідки операційної системи. Параметри пошуку в прихованих або системних папках.
конспект урока [885,7 K], добавлен 03.01.2010Проблема порушення авторських прав в Інтернеті. Системи та сервіси пошуку плагіату. Захист електронних видань від плагіату в Інтернеті. Алгоритми аналізу, подання і порівняння текстової інформації. Вибір методу пошуку текстових документів з запозиченнями.
магистерская работа [1,0 M], добавлен 14.06.2013Дослідження можливостей пошуку в Google за тематикою. Використання можливості розширеного тематичного пошуку для підвищення релевантності пошуку за встановленим завданням. Розширений пошук зображень. Особливості пошуку щодо країн та наукових знань.
контрольная работа [4,6 M], добавлен 03.02.2014Використання автоматичних систем інформаційного пошуку для зменшення "інформаційного перевантаження". Методи організації пошуку: атрибутивний, повнотекстовий і вибірка видань. Тематичні каталоги та пошукові машини. Системи Yandex, Rambler та Google.
реферат [333,0 K], добавлен 18.05.2011Принципові рішення, що покладені в основу концепції створення єдиних реєстрів. Критерії для відбору стратегії пошуку правової інформації в Інтернеті. Модель ділового процесу, її використання у Workflow-системах. Організаційне забезпечення ІС ОВС України.
контрольная работа [23,3 K], добавлен 20.07.2011Аналіз властивостей безкоштовних пошукових та поштових серверів Інтернету. Огляд методики ранжирування результатів пошуку в інформаційно-пошукових системах бібліотек. Вивчення можливостей пошукової системи "Мета", пошуку по реєстру українських сайтів.
курсовая работа [142,9 K], добавлен 17.11.2011Cтворення системи для впорядковування інформації про файли, що зберігаються на компакт-дисках або інших знімних носіях. Загальні вимоги до розробки. Технології розробки Windows-додатків. Опис функціональних можливостей і програмної реалізації системи.
дипломная работа [891,7 K], добавлен 25.10.2012