Проблеми організації пошуку в Інтернет

Інформаційно-пошукові системи Інтернет. Принцип дії серверів. Методі визначення релевантності. Складові пошукових систем. Характеристики систем Google, Yahoo, AltaVista, Rambler, Yandex. Підвищення ефективності пошуку інформаційних ресурсів Інтернету.

Рубрика Программирование, компьютеры и кибернетика
Вид контрольная работа
Язык украинский
Дата добавления 13.04.2009
Размер файла 38,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Міністерство освіти та науки України

Національний університет «Львівська політехніка»

Комплексна контрольна робота

з дисципліни

Організація наукових інформаційних ресурсів Інтернет

на тему:

«Проблеми організації пошуку в Інтернет»

Львів - 2008

Зміст

Вступ

1. Інформаційно - пошукові системи Інтернет

2. Складові пошукових систем

3. Характеристики пошукових систем

4. Проблеми використання пошукових систем Інтернет

5. Підвищення ефективності пошуку інформаційних ресурсів Інтернету

Висновок

Список використаної літератури

Вступ

Поява всесвітньої мережі Інтернет називають одним з важливих досягнень сучасної цивілізації. І справа не тільки в тім, що вже зараз Інтернет - це практично нескінченний інформаційний ресурс, а в тім, що він є дійсно всесвітнім джерелом знань, глобальним і загальнодоступної по своїй суті. І це джерело постійно поповнюється все новими і новими знаннями, поєднує їх, дає можливість використовувати необхідну інформацію тоді, коли вона дійсно потрібна.

Простір Інтернет воістину величезний, і немає необхідності докладно розповідати про те, що саме можна в ньому знайти. В даний момент уже практично неможливо перелічити всі області знань, що охоплює ця всесвітня мережа. Однак не секрет, що для більшості користувачів перша ж спроба пошуку чого-небудь у цьому морі інформації звичайно розчаровує.

Дійсно, разом зі збільшенням обсягів доступної інформації усе гостріше встає проблема пошуку дійсно потрібних користувачу даних. Варто визнати, що це дійсно складна задача, оскільки обсяг даних, доступних через Інтернет, воістину величезний, а серйозної класифікації представленої там інформації просто не існує.

1. Інформаційно - пошукові системи Інтернет

За тисячі років свого існування і безперервного потягу передової його частини до наукових знань, людство накопичило величезну кількість інформації з різноманітних областей науки, техніки культури і т.п. Попри всі намагання до наукових знань найбільшою перепоною до швидкого прогресу, на мій погляд була не відсутність знань, а відсутність інформації про те, що такі знання вже є, хтось зробив уже такі дослідження і треба всього лиш отримати інформацію про них. Таким чином конче необхідним було об'єднати всі цю інформацію про життєдіяльність людей і зробити її досяжною для тих, кому вона потрібна. Ситуація змінилася докорінно з появою Інтернету. Він зумів об'єднати знання сотень поколінь землян в єдиний інформаційний простір, що відкритий для кожного, хто б цього забажав. Неможливо перерахувати що є в Інтернеті ( власне як і чого нема).

Ці глобальні інформаційні ресурси знаходяться в стані постійної систематизації, тобто людство постійно вишукує найбільш оптимальні способи зберігання і пошуку необхідної інформації. Для цього в Інтернеті існує купа пошукових і файлових серверів, DNS серверів. В Інтернеті є багато ресурсів, але офіційній перелік їх відсутній. Кожен хто має вихід в Інтернет може в любий момент, нікому не кажучи створити новий ресурс, тому складність заключається в тому, щоб з'ясувати, що ж насправді є в Інтернет. Треба пам'ятати, що Інтернет - динамічна система і що її період напіврозпаду складає близько чотирьох років.

Це значить, що за рік ресурси в мережі Інтернет старіє приблизно 25% даних. Ще одна проблема в тому, що якість мережевих ресурсів не однакова. Одним словом в глобальній інформаційній мережі приховані глобальні інформаційні ресурси і отримати їх може кожен, але найбільшого успіху досягне той, хто знає як це зробити.

Пошук інформації в Інтернет неможливий без спеціальних механізмів, що допомагають людині знайти в цьому безмежному просторі потрібну інформацію. І, звичайно ж, такі механізми існують. З'явившись у середині 70-х років, вони одержали назву інформаційно-пошукових систем, і з тих пір постійно удосконалюються.

Як вже говорилося, пошукові системи існують уже давно. З появою Інтернет вони відразу ж зайняли своє місце й у цій області інформаційних технологій. У загальному випадку інформаційно-пошуковою системою називається система, що забезпечує пошук і добір необхідних даних на основі інформаційно-пошукової мови і відповідних правил.

На сьогоднішній день" всесвітнє павутиння" включає декілька десятків (по різним оцінкам - від 50 до 80) мільйонів серверів, на кожному з яких доступно від декількох мегабайт до десятків гігабайт інформації. Для пошуку незліченної інформації в Інтернеті на допомогу приходять тематичні та індексні пошукові системи.

Типовий приклад тематичного каталогу - пошукова система Yahoo (http://www.yahoo.com). Це спеціалізований сервер WWW, на якому зберігаються списки інших серверів з їх стислими описами. Інформація згрупована за смисловими категоріями і має ієрархічну структуру; наприклад, на цьому сервері можна знайти розділи "Комп'ютери та Інтернет-мультимедіа - Журнали", "Розваги - Музика - Групи і виконавці - Елтон Джон", "Країни - Україна - Бізнес в Україні", а також безліч інших. Передбачена на сервері система шукає дані тільки в каталозі Yahoo і не заглядає на сторінки згаданих в ньому серверів. Користуватися такою системою (а також будь-якою іншою, аналогічною їй, наприклад, списком російських серверів WWW за адресою http://www.ru) надзвичайно просто. Треба знайти потрібний розділ і після цього - підходящий сервер за його стислим описом, наведеним там же. Такі каталоги мають недоліки: низька оперативність зміни інформації, відносна складність пошуку (за стислою таі інколи помилковою адресою сервера), порівняно невелика "область охоплення" простору WWW.

Існує більш зручний і ефективний засіб пошуку необхідних відомостей. Це так звані індексні пошукові системи (пошукові механізми - search engines). Основою їх є спеціалізовані комп'ютери, що періодичні проводять індексацію документів на серверах "всесвітнього павутиння", і дозволяють шукати інформацію на цих серверах за одним або кількома ключовими словами і, можливо, за деякими додатковими ознаками.

До кінця 1997 р. в мережі Інтернет налічувалося близько двох тисяч різноманітних пошукових серверів, які відрізняються один від одного типом, спеціалізацією, сферою охоплення (кількістю індексованих сторінок) і популярністю. Більша частина цих серверів має порівняно вузьку спеціалізацію - наприклад, пошук музики в форматі МР3 або пошук інформації на серверах у галузі молекулярної хімії. Існує декілька надзвичайно популярних універсальних пошукових серверів, призначених для пошуку за ключовими словами на якомога більшому числі сторінок системи WWW. Найбільш відомими є сервери AltaVista (http://altavista.digital/com), InfoSeek (http://www.infoseek.com), Excite (http://www.excite.com), HotBot (http://www.hotbot.com), Lycos (http://www. lycos. com).

Принцип дії більшості таких серверів простий. Для пошуку інформації використовується індекс, створений спеціальною програмою-роботом. Програма-робот періодично обходить відомі їй адреси мережі, зчитує з них сторінки, що зберігаються WWW, індексує всі слова з усіх сторінок (разом з адресами URL) і розміщує їх в загальний індекс. Для зберігання цього індексу потрібен величезний обсяг пам'яті, а для його обробки - чимала обчислювальна потужність. Наприклад, основний механізм одного з найпотужніших пошукових серверів AltaVista (повного індексу, що претендує на всю мережу Інтернет), включає 16 потужних комп'ютерів Alpha Server 8400 5/440. На кожному з цих комп'ютерів встановлено по 12 центральних процесорів, 8 гігабайт оперативної пам'яті (обсяг, еквівалентний обсягу пам'яті 500 стандартних сучасних персональних комп'ютерів) і дисковий масив RAID ємкістю 300 гігабайт. Вся ця система з'єднана з магістральною мережею Інтернет каналом зв'язку з пропускною спроможністю 100 Мбіт/с. Загальний обсяг на сервері індексних файлів, що зберігаються, в яких виробляється пошук, - понад 200 гігабайт.
Ще одна категорія пошукових серверів - так звані "метапошукові" сервери (метасервери). Найбільш відомий з них - WebCrawler (http://www.webcrawler.com). Сервери такого типу передають отриманий від користувача запит на пошук інформації іншим пошуковим серверам, об'єднують результати пошуків і повертають результат користувачу. Застосування подібних серверів має як переваги, так і недоліки. Найцінніша перевага полягає в економії часу на однотипових запитах до різноманітних серверів. Проте, позначки в синтаксисі запитів змушують користувачів метасерверів дотримуватися найзагальнішої форми запиту, без можливості вдаватися до потужніших засобів пошуку. Незважаючи на це, метасервери - непоганий засіб оперативної оцінки того, наскільки широко представлена в системі WWW та чи інша інформація.

2. Складові пошукових систем

Пошукові cистеми зазвичай мають три компоненти:

· агент (павук, кроулер або робот), який переміщується по мережі і збирає інформацію;

· база даних, яка містить інформацію, що зібрано павуками;

· пошуковий механізм, який користувачі використовують як інтерфейс для взаємодії з базою даних.

Засоби пошуку типу агентів, павуків, кроулерів і роботів використовуються для збору інформації про документи, які знаходяться в мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в мережі, збирають гіпертекстові посилання з цих сторінок і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожний пошуковий механізм має власний набір правил, якими визначається збір документів.

· Агенти є найінтелектуальнішими з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати транзакції від імені користувача. Вже зараз вони можуть шукати сайти специфічної тематики і повертати списки сайтів, відсортованих за їх відвідуваністю. Агенти можуть обробляти вміст документів, знаходити та індексувати інші види ресурсів, не лише сторінки. Вони можуть бути запрограмовані для витягання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад до бази даних пошукового механізму.

· Павуки здійснюють загальний пошук інформації в Інтернет. Павуки повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму.

· Кроулери переглядають заголовки і повертають тільки перше посилання.

· Роботи можуть бути запрограмовані таким чином, щоб переходити по різним посиланням різної глибини вкладеності, виконувати індексацію і перевіряти посилання в документі. Але, вони можуть застрягати в циклах, адже, проходячи за посиланнями, їм потрібні значні ресурси мережі. Існують методи, що забороняють роботам пошук по сайтах, власники яких не бажають, щоби вони були проіндексовані.

Агенти збирають та індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у документі, в той час як інші індексують тільки 100 найбільш важливих слів в кожному документі, індексують розмір документу і кількість слів в ньому, назву, заголовки і підзаголовки і так далі. Вигляд побудованого індексу визначає, який пошук може бути проведений пошуковим механізмом і як отримана інформація буде інтерпретована.

Агенти знаходять інформацію, після чого її розміщують в базі даних пошукового механізму. Адміністратори пошукових систем визначають, які сайти або типи сайтів агенти мають відвідати та проіндексувати. Проіндексована інформація відправляється до бази даних пошукового механізму.

Користувачі можуть розміщувати інформацію прямо в індексі, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних. Коли користувач хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує потрібну йому інформацію. Тут можуть використовуватись ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, які використовуються агентами при індексації інформації, яку вони знайшли при переміщені по мережі. База даних відшукує предмет запиту, що базується на інформації, яка вказана в заповненій формі, і виводить відповідні документи, що підготовані базою даних. Для того, щоб визначити порядок, в якому перелік документів буде показано, база даних застосовує алгоритм ранжування. В ідеальному випадку, розташованими першими в списку будуть документи, що є найбільш релевантними до запиту користувача.

Релевантність - основне поняття при індексації документа в пошукових системах. Релевантність - міра відповідності, тобто це відповідність змісту знайденої сторінки до запиту користувача. Але комп'ютер - не людина, і тому пошукові системи використовують спеціальні алгоритми для визначення релевантности. Теоретичних методів визначення релевантності більш ніж 20. Але виділяють два основні напрями: лінгвістичне (Рамблер, Яндекс) і статистичне (Google).

Основні російські пошукові системи (зокрема Рамблер) використовують лінгвістичний напрям, тобто пошуковий робот, переглядаючи сторінку, звертає увагу на "літературність" її написання ("чом ти не прийшов" буде більш релевантною, ніж "чом ти не травень прийшов").

Різні пошукові системи використовують різні алгоритми ранжування, однак основними принципами визначення релевантності є наступні:

· Кількість слів запиту у текстовому вмісті документу (тобто в html-коді).

· Теги, в яких ці слова розташовуються.

· Місцеположення шуканих слів у документі.

· Питома вага слів, відносно яких визначається релевантність, у загальній кількості слів документу.

Ці принципи застосовуються всіма пошуковими системами. А наведені нижче використовуються деякими, але достатньо відомими (наприклад, AltaVista).

· Час - як довго сторінка знаходиться в базі пошукового сервера. Спочатку здається, що це недолугий принцип. Але в Інтернет існує багато сайтів, час життя яких складає близько місяця. Якщо ж сайт існує досить довго, це значить, що його власник є досвідченим за даною темою і користувачу більше підійде сайт, що існує вже кілька років, ніж той, який з'явився тиждень тому за цією ж темою.

· Індекс цитованості - як багато посилань на дану сторінку веде з інших сторінок, що зареєстровані у базі пошуковика.

База даних виводить ранжований таким чином перелік документів з HTML і повертає його користувачу, який зробив запит. Різні пошукові механізми вибирають різні способи показу отриманого переліку - деякі відображають лише посилання, інші виводять посилання з декількома першими реченнями документу або заголовок документу разом з посиланням.

3. Характеристики пошукових систем

Українська пошукова система "МЕТА"

Українська пошукова система "МЕТА" є найвідомішим проектом компанії - ЗАТ «МЕТА» - розробника пошукових і інформаційних рішень. Сьогодні "МЕТА" -- один з найбільш відвідуваних українцями сайтів і найбільший рекламний майданчик України.«Мета.ua» - проект український, він створений і працюватиме тільки для України.А технології, які були створені в процесі роботи, цілком можуть бути використані в інших країнах. Пошукові технології компанії працюють у внутрішніх мережах Верховної Ради і кабінету міністрів України, на сайтах національного банку України, фонду Разумкова, сайті Віктора Ющенка. За 2005 рік аудиторія збільшилася більш ніж в два рази. «Мета» - це безкоштовний сервіс, який не має ніяких зобов'язань перед власниками сайтів і не гарантує «правильного» місця видачі.Нові сервіси пошукової системи "МЕТА" можна поділити на три типи: пошукові, інформаційні і комунікаційні. З пошукових сервісів хочеться відзначити «Метановини». Це найпопулярніший розділ після великого пошуку і каталогу. Зараз там збираються новини від більше як 200 українських інтернет-джерел, близько 10 000 новин в день. Весь цей масив в режимі реального часу індексується, групується по темах і стає доступним для пошуку.

«Пошук рефератів». Практично єдиний сервіс в СНД, що дозволяє шукати не тільки по назві і опису, але і по всьому тексту. В період сесій і іспитів студенти і школярі активно користуються цим сервісом.

З останніх пошукових проектів - інтерфейс до бази законодавства України, що розроблено спільно з апаратом Верховної Ради. У базі більш як 80 000 різних юридичних документів. Автоматичний переклад запитів дає можливість задавати запит на російській або українській мовах. З інформаційних сервісів цікавими є «Карти» і «Розклади потягів». В «Картах» зібрано найбільшу кількість карт по містах і областях України, що є доступними в Інтернеті, а «Розклади» - є найповнішими та найточнішими.

Комунікаційні сервіси - форум, який став найбільшим українським неполітичним форумом. Поштовий сервіс розроблявся значно пізніше за тих, що є зараз на ринку, тому в ньому вдалося обійти відомі недоліки і він вийшов зручним і функціональним. Пошта зараз самий швидкозростаючий сервіс на «Мете».

Пошуковому сервісу доводиться збільшувати потужність одночасно в двох площинах - з одного боку збільшується кількість запитів, з іншої - зростає об'єм індексу. З схожими проблемами працює всього декілька компаній в світі, і тому на вирішення технічних проблем, пов'язаних з швидким зростанням витрачається багато зусиль. Впроваджено і відпрацьовано технологію, що дозволяє швидко масштабувати систему, Мета може без проблем збільшити розмір індексу і обробити число запитів на порядок більше.

З останніх вдосконалень - «перевірка» правопису в запитах і додавання нових форматів документів - doc, pdf, xls, ppt.

«Повільна індексація» - це вже легенда, яка залишилася у минулому. Черги на розміщення в каталог зараз немає, бо технічних потужностей вистачає. Якщо сайт через 4-5 днів після додавання в каталог не потрапив в індекс, це означає, що він є або недоступним, або не піддається індексації. Окрім цього є спеціальний кластер, документи в якому оновлюються двічі у день.

За статистикою користувачі зарубіжних пошукових систем використовують в середньому 1,5 слова в запиті. Наші користувачі більш "багатослівні" -- 2,5 слова на один запит.

В тому випадку, якщо потрібна загальна інформація, що має певне відношення до теми, достатньо одного слова. Напевно серед декількох сотень документів, які видасть Мета буде документ, який відповідає темі пошуку. Проте, де буде цей документ - у першій десятці результатів або десятій десятці - справа випадку.

Щоб отримати підбірку результатів, яка буде точніше відповідати темі запиту і попутно заощадити час на переглядання відповідей пошукової машини краще шукати відразу за декількома словами, що характеризують запит детальніше.

Опис зарубіжних пошукових систем

Більше як 80% всього пошуку в Інтернеті доводитися на 3 основні системи: Google, Yahoo!, MSN.

GOOGLE

З невеликої компанії, яка заснована у вересні 1998 року Ларрі Пейджем і Сергієм Бріном, Google перетворилася на найбільший галузевий концерн, що пропонує послуги простого і швидкого пошуку інформації в Інтернеті по більш ніж 8 млрд. мережних адрес, плюс множина інших, не менш цікавих сервісів. За ці роки багато що змінилося, але незмінною і зростаючою залишилася динаміка розвитку Google. Особливо вражає успішне і послідовне зростання компанії на тлі поголовного краху, що зачепів в минулі роки більшість дот-комів.

Нині феноменальний успіх Google пов'язують не лише з вибраною бізнес-моделлю і вдалим напрямом діяльності. Карколомний успіх компанії не був би досягнутий без тонкого підбору співробітників і вмілого керівництва. З серпня 2001 року на посту CEO компанії знаходиться Ерік Шмідт, якій перейшов в Google з Novell і поставив за головну мету збільшення капіталізації за рахунок виходу на нові ринки. Минулі роки підтвердили правильність вибраної стратегії і тепер Google є тим, чим є - близько 5 тисяч співробітників у всьому світі, бренд, що відомий без коментарів в будь-якому куточку земної кулі.

Бренд Google було введено як співзвуччя математичному терміну Googol (гугол), придуманому Мілтоном Сироттой, племінником американського математика Едварда Каснера. Він позначає одиницю з сотнею нулів і чудово ілюструє невичерпні можливості Інтернету, які компанія Google постійно систематизує і організовує, полегшуючи доступ до різних даних.

Спочатку була поставлена мета по організації всієї світової інформації, щоб зробити її максимально доступною і корисною для кожного відвідувача Інтернету. Для цього засновники компанії Леррі Пейдж і Сергій Брін розробили новий алгоритм пошуку. Ідея створення універсального пошуковика і стала запорукою нинішнього успіху компанії. Більш того, в нинішньому своєму втіленні пошуковий движок доступний не лише з головної сторінки Google: можна вести пошук через панель інструментів Google, через Google Deskbar в панелі завдань Windows без відкривання браузера, а також з різних мобільних платформ, включаючи телефони в режимах WAP та І-mode.

Оскільки пошуковик Google є безкоштовним, основний дохід компанії складається з надання рекламодавцям можливості поширювати рекламу, що є релевантною до інформації на даній сторінці. Тисячі рекламодавців використовують програму Google AdWords для просування своїх товарів і послуг за допомогою цілеспрямованих оголошень, тисячі менеджерів сайтів використовують Google AdSense для показу оголошень, що є релевантними до змісту сайтів. Від початку розробники Google відмовилися від типового використання потужностей декількох серверів, продуктивність яких зменшується при пікових навантаженнях, і почали використовувати можливості розподілених у мережі комп'ютерів. Пошуковий движок Google проводить серії одночасних розрахунків тривалістю частки секунди і використовує технологію PageRank для вивчення всієї структури посилань Інтернету та об'єктивного визначення найважливіших сторінок шляхом розрахунку рівняння з більше як 500 змінними і 2 мільярдами термінів. Пошуковик Google аналізує якісний зміст сторінок - шрифти, підрозділи, точне місцеположення кожного слова, плюс зміст сусідніх сторінок для забезпечення максимальної релевантності результатів пошуку. В компанії Google створено технологію пошуку для бездротових пристроїв з моментальним перетворенням HTML у формати для режимів WAP, І-mode, J-SKY і EZWeb. Результатом багаторічного розвитку пошукової системи Google стала поява національних пошукових сервісів: підтримується різномовний інтерфейс і алгоритму пошуку адаптуються до локальних особливостей. Коли пошуковий сервіс Google стартував в Китаї, то, не дивлячись на численні складнощі, пов'язані з своєрідним трактуванням свободи слова китайськими властями (Google.com не доступний китайським користувачам приблизно 10% часу; Google News зовсім не працює, Google Images доступний лише час від часу), сервіс працює і набирає популярність.

Google забезпечує пошук по гіпертекстових документах, що знаходяться в різних мовних зонах - українською, російською, англійською, німецькою і ін. Пошукова система Google має власні піддомени для більшості країн, наприклад, для України - google.com.ua, для Росії - google.ru. Це одна з найбільших пошукових баз в світі.

Переваги

· Використання механізму PageRank, який відображає "важливість" сайту і впливає на видачу результатів пошуку. PageRank схожий на індекс цитування у Яндекса (теж залежить від кількості і якості посилань на ресурс). Але на відміну від Яндекса, вплив PageRank у Google не настільки значний, тому люди в Google знаходять саме те, що і шукають.

· Google шукає не лише гіпертекстові файли (html), але і файли у форматі PDF, DOC, PostScript, Corel Word Perfect і ін.

· Пошукова система Google має можливість пошуку зображень. При цьому у запиті можна вказати бажаний розмір, глибину кольору, формат файлу.

· На відміну від багатьох пошуковиків, роботи Google індексують всі сторінки, а не лише найголовніші.

· Всі сторінки Google кешує (заносить в свою базу), і дозволяє користувачеві переглядати документ у кеші Google, не відкриваючи його в першоджерелі (що зазвичай є набагато швидше).

· Google дозволяє обрати мову інтерфейсу, мовні зони для поуку, кількість повідомлень при видачі результатів та ін.

· Користувачі Microsoft Internet Explorer, Mozilla Firefox і Opera можуть встановити собі програму Google Toolbar, яка створює нову панель інструментів, що дозволяє шукати в Google, не заходивши на сам сайт.

· Рядок пошуку в Google можна використати і як калькулятор. Якщо ввести (48-26)*21, Google видасть правильний результат.

YAHOO

Yahoo було засновано в 1994, і на сьогоднішній день це найстаріший і якнайповніший каталог Інтернет-ресурсів. Ця неймовірно популярна система, що обслуговує мільйони запитів щодня, зародилася як проста колекція закладок, яку поповнювали всього 2 людини - Девід Філо і Джері Янг. Yahoo є найпопулярнішим пошуковим засобом і секрет його успіху Yahoo криється в людях. Над складанням та редагуванням вмісту каталогів Yahoo працюють понад 150 редакторів. Yahoo має базу даних в більш, ніж 1 млн. проіндексованих сайтів. Також, у разі браку власної бази даних, Yahoo використовує базу даних Google (до липня 2000 року Yahoo користувався базою даних Inktomi).

ALTA-VISTA

AltaVista почала надавати свої послуги в грудні 1995 року і на сьогоднішній день є однією з найбільш великих пошукових систем (за кількістю проіндексованих сторінок). Як особливість пошуковика можна зазначити можливість пошуку за ускладненими критеріями відбору. AltaVista пропонує додаткові послуги у вигляді пошуку по каталогах (взятими з Open Directory and LookSmart), а також службу під назвою "Ask AltaVista" ("запитай AltaVista"), результати якої беруться з Ask Jeeves. На даний час AltaVista є власником пошукової системи Raging Search.

MSN

Пошуковик розроблено та запущено компанією Microsoft у 1997 року.

На відміну від інших пошукових систем, раніше у MSN ніколи не було власного павука або каталога. З 1997 року для видачі результатів пошуку використовувалися різні бази даних, такі як: Yahoo!, LookSmart, Altavista, DirectHit, Inktomi і RealNames. Тільки з початку 2005 року MSN запустив бета-версию власного пошукового алгоритму. Користувачі MSN Search можуть здійснювати пошук як по всьому Інтернету, так і по окремих тематичних категоріях, у тому числі і по енциклопедії Microsoft Encarta. Новий движок містить можливість локалізованого пошуку (Near Me) - система здатна автоматично визначати місцезнаходження користувача за IP-адресою його комп'ютера.

Опис Російських пошукових систем

В Рунеті основними є пошукові системи Яndex, Rambler та Mail.ru На діаграмі представлена питома вага різних пошукових машин Рунету.

YANDEХ

Yandex виконує пошук по словяномовній частині Інтернету з урахуванням морфології словянських мов. Маючи могутній механізм підбору сайтів під запити, ця пошукова машина допомагає знайти найбільш відповідні веб-сторінки. Яндекс щодня переглядає сотні тисяч веб-сторінок у пошуках змін або нових посилань, і їх база постійно зростає. Слово "Яndex" означає "Мовний index", або, якщо по-англійськи, "Yandex" - "Yet Another indexer". За 10 роки публічного існування Яndex виникали і інші тлумачення. Наприклад, якщо в слові "Index" перекласти з англійського першу букву ("I" - "Я"), вийде "Яndex".

Офіційно пошукова машина Yandex.Ru була анонсована 23 вересня 1997 року на виставці Softool. Вже тоді пошуковик мав певні переваги - можливість перевірки документів на унікальність, облік морфології словянських мов, можливість пошуку з врахуванням відстані (наприклад, при пошуку точного словосполучення). Основною відмінною рисою Yandex є ретельно розроблений алгоритм оцінки відповідності відповіді запиту (релевантності), який враховує не лише кількість слів запиту, знайдених у тексті, але і "контрастність" слова (його відносну частоту для даного документа), відстань між словами, і положення слова документі.

Згідно даних глобальної статистики Рунету, сьогодні більше 50% пошукового трафіку генерується саме цим пошуковиком (для порівняння, на долю Rambler'a доводиться близько 20%, і ще менше - на долю Google'a).

Реєстрація відбувається за адресою http://yandex.ru/addurl.html. В Яндекса достатньо швидкий пошуковий робот. Завдяки ньому реєстрована сторінка з'явиться в пошукових результатах протягом 2-4 годин. Але це лише первинна індексація. Після повної індексації, вона може зникнути з пошукових результатів, якщо пошуковий робот визнає її за спам. Тому положення web-сторінки в результатах пошуку потрібно відстежувати до тих пір, поки не пройде повна індексація. Перелік результатів може мінятися залежно від завантаженості серверів, оскільки база даних Яндекса має кластерну структуру і рознесена на декілька серверів.

Яндекс любить документи середніх розмірів, насичені текстом (статті і т.п.). Слід помірно повторювати ключові слова. Ключові слова можна писати в описі, але вага слів у цьому тегу є нижчою. Добре індексуються сторінки, що створено за допомогою скриптів .cgi, .php. Це стосується гостьових книг, форумів і т.п. Для індексації решти (окрім головної) сторінок сайту потрібно приблизно 2 тижні.

Хороших позицій допомагають досягати ключові слова в мета-тегах, де варто зазначати слова, які зустрічаються в тексті сторінки. Мета-теги, використовуються також і для видачі опису сторінки в результатах пошуку. Це потрібно враховувати при його складанні, оскільки, користувач по цьому опису приймає рішення відвідати вас, чи ні. Важливо розміщувати ключові слова і в тегу "title", заголовках (h1-h6), змісті сторінки, "ALT"-тегах.

RAMBLER

Цей пошуковик займає сьогодні друге місце серед пошуковиків Ренета. Він був першою пошуковою програмою, що створено спеціально для російського Інтернету програмістом компанії Stack Ltd Дмитром Крюком у 1996 році. Слово "Rambler" перекладається як «гуляща людина», «бродяга» по Інтернету.

Rambler постійно вдосконалює свій пошуковий алгоритм. Проводяться роботи по оптимізації роботи системи для точності та актуальності пошуку. Як і більшість російських пошукових машин, Rambler враховує морфологію російської мови. При видачі результатів вплив має положення сайту в рейтингу Rambler's Top100. Rambler індексує сайти в зонах ru .su, .ua, .by, .kz, .kg, .uz, .ge, а також славяномовні сайти в доменах .com, .net або .org.

На сьогодні Rambler є в величезним інтернет-холдингом, до складу якого входять портал Рамблер, новинна інтернет-газета Лента.ру, медичний сайт Doctor.ru, онлайновий клуб батьків Mama.ru, картографічний сервіс NaKarte.ru, телекомунікаційний підрозділ "Рамблер Телеком".

На Рамблері реалізовано розумну систему, яка виводить в результатах поушуку слова, які є синонімами запиту. Ще однією функцією системи є видача контекстної реклами не лише за конкретними ключовими словами, але і за фразами, що тісно пов'язані з ними.

Не реєструються сайти в доменах .com, .net, або .org. Якщо ж зміст сайту з цих зон має відношення до російськомовного Інтернету, то користувач має відправити лист на search.support@rambler-co.ru з проханням проіндексувати сайт.

Рамблер (на відміну від інших пошукачів) вміє витягувати гіперпосилання з об'єктів Macromedia Flash. Якщо сайт має заставку або навігаційні панелі, що виконані з використанням цієї технології, Рамблер обробляє їх, знаходить адреси всіх сторінок сайту і індексує весь сайт. Тексти flash-об'єктів не індексуються. Для сайтів, які цілком складаються з flash-об'єктів, рекомендується створити HTML-копію і зареєструвати її в пошуковій машині. Роботи Рамблера також справляються з конструкціями фреймів.

Роботи Рамблера ігнорують більшість мета-тегів. Коментарі в документі роботи Рамблера теж не сканують, але більшої уваги звертають на заголовки і виділення в документі. Базові поняття і ключові для даного сайту слова доцільно включати в наступні HTML-теги (у порядку значущості): "title", "h1"..."h4", "b", "strong", "u".

APORT

Пошукову систему "Апорт!" було розроблено компанією "Агама" за підтримки Intel і вперше продемонстровано в лютому 1996 року на прес-конференції "Агамы" з приводу відкриття "Російського клубу". Тоді вона шукала лише по сайту russia.agama.com.

Найважливішими особливостями першої версії "Апорту" були переклад запиту і результатів пошуку англійською мовою і зворотно, а також відновлення всіх проіндексованих сторінок з власної бази (що надає можливість переглядання сторінок, вже неіснуючих в оригіналі).

До кінця 1999 року було представлено нову версію Апорт - "Апорт 2000", який став першим російським пошуковиком, що побудований на основі видачі результатів по окремо взятих сайтах. "Апорт 2000" практично реалізував дві базові технології американської пошукової машини Google: облік "рангу сайту" (Page Rank), і обробка запиту, орієнтуючись на HTML-код сторінки. Серед недокументованих особливостей - більший пріоритет сайтам, які мають вищу та елітну лігу у каталозі AtRus.

Aport є повнотекстовою пошуковою системою, тобто вона індексує всі слова, які б побачила на екрані людина, що переглядатиме конкретну сторінку. В результаті будь-яке слово з тексту документів може бути критерієм для подальшого пошуку. Апорт також індексує тексти гіперпосилань на документ з інших сторінок, що знаходяться, як всередині сайту, так і за його межами, а також складені (або перевірені) редакторами описи сайтів з каталогу.

Результати пошуку впорядковуються за частотою використання шуканих термінів. Разом з посиланням відображається фрагмент тексту, де зустрічається термін, вказується індекс відповідності до запиту і дата останньої модифікації файлу. "Апорт!" у виданому фрагменті тексту виділяє червоним кольором запитані слова.

Реєстрація сайту в Апорті проводиться із сторінки http://www.aport.ru/addurl.asp. Ця сторінка доступна з будь-якої сторінки Апорту, наприклад, з головної сторінки Апорту. Додавати в пошукову систему Апорт слід російськомовні сайти, а також сайти, що мають безпосереднє відношення до російського Інтернету. У разі відмови в автоматичному додаванні сайту можна звернутися з проханням про додавання сайту за addurl-nr@aport.ru.

З моменту додавання сайту в Апорт до моменту його появи в пошуковій базі проходить від двох-трьох днів до двох тижнів.

При перегляданні вмісту сервера для індексування Апорт обов'язково перевіряє файл ROBOTS.TXT. Отже можна його використати, щоб обмежити 'діяльність' Апорту на своєму сервері. Апорт за умовчанням не індексує динамічні документи, в адресах яких зустрічається символ '?'.

Для документів HTML, окрім основного тексту документа індексуються також: заголовок документа "TITLE", ключові слова "KEYWORDS", описи сторінок "DESCRIPTION" і підписи до картинок "ALT". Апорт пропонує декілька варіантів направленої реклами http://www.aport.ru/adv, проте немає можливості купити вищі місця для свого сайту в результатах пошуку.

Ключові слова не мають визначального значення при визначенні релевантности документа. Але розумне використання цього тега рекомендується.

На відміну від багатьох інших пошукових систем, Апорт не застосовує спеціальних санкцій до сайтів, що намагаються обдурити пошукову систему за допомогою спаму, але досягнути подібним чином бажаного результату не вийде. Тому не варто писати невидимі тексти, набирати сотні ключових слів, що не мають жодного відношення до змісту документа і т.д.

4. Проблеми використання пошукових систем Інтернет

Усі відомі і популярні пошукові системи мають дуже простий інтерфейс, розрахований на недосвідченого користувача, мають безліч настроювань і досить прості у використанні. Але від користувача залежить тільки формулювання запиту, пошук же здійснює убудований механізм пошукової системи. Без правильного планування стратегії пошуку, знайомства з основними принципами роботи інформаційно-пошукових систем важко ефективно використовувати навіть такі сучасні і могутні пошукові служби. При роботі з цими системами варто враховувати ряд факторів.

По-перше, усі пошукові системи в Мережі мають свою спеціалізацію. Наприклад, Lycos і AltaVista містять одні з найбільших масивів посилань і відомі швидкістю додавання нових ресурсів мережі, однак багато ресурсів Інтернет недовговічні і рухливі, і посилання можуть указувати на відсутні ресурси. Infoseek - це найбільш стабільна база даних, де зручно знаходити відомі матеріали, але не слід шукати що-небудь нове, і т.д. у залежності від пошукової системи. У випадку пошуку якої-небудь спеціалізованої інформації користувачу треба відразу настроїтися на тривалу і кропітку працю.

Якщо в звичайній бібліотеці існує зрозуміла класифікація і досвідчений персонал, що розставляє книжки і журнали відповідно до предметного каталогу, загальним для всіх бібліотек, то - у Інтернет такого стандарту нема, і кожна інформаційна служба виробляє свою власну систему класифікації.

Крім того, зовсім очевидно, що Інтернет - це світовий інформаційний ресурс. Сюди поміщається усе, що так чи інакше цікавить людей в усьому світі, тому перш ніж починати що-небудь шукати, варто тверезо оцінити імовірність того, чи може дана інформація взагалі потрапити в мережу і де найбільш логічне для її місце.

По-друге, варто розуміти, що пошук здійснюється не природною мовою і не по всьому тексту документа. Звичайно документ представлений набором ключових слів - пошуковим образом документа (ПОД), а користувач здійснює пошук не в наборі документів, а в наборі їхніх пошукових образів. Крім того, для кожної пошукової системи характерний свій механізм створення ПОД. Природно, що це впливає на результати пошуку.

По-третє, самі запити і їхня інтерпретація в інформаційних системах Інтернет реалізовані по-різному, хоча поза залежністю від типу інформаційно-пошукової мови багато систем містять можливість сформулювати простий запит і запит з урахуванням специфіки пошукового апарата системи.

Простий запит - це фраза природною мовою без загальних слів, союзів і приводів. Складний запит - це запит, що враховує специфіку системи і дозволяє користувачу варіювати різні параметри пошуку. Після завершення обробки запиту користувачу видається список посилань на документи, де вже можна використовувати гіпертекстові посилання для перегляду. Ці посилання можуть указувати як на Web-сторінки, так і на одиниці збереження інших інформаційних ресурсів Інтернет.

По-четверте, у даний час для управління інформацією Web у пошукових вузлах застосовуються два різних механізми -- покажчики і каталоги, і різні пошукові системи використовують у своїй роботі різні механізми.

Покажчики Web являють собою громіздкі бази даних, формовані комп'ютером в автоматичному режимі й утримуючі інформацію про мільйони сторінок Web. Коли користувач уводить ключові слова чи фрази, пошукова система шукає ці терміни в існуючій виданий момент базі даних і видає посилання на усі відомі їй сторінки із шуканими термінами. Покажчики Web будуються так званими краулерами Web -- програмами, що переглядають і індексують вміст HTML-сторінок, виявляють гіпертекстові зв'язки, що містяться в них, і читають відповідні сторінки. Багато сотень таких програм із заданою періодичністю переглядають весь доступний вміст Інтернет.

Каталоги Web -- це зв'язані між собою гіпертекстовими посиланнями списки вузлів Web, упорядковані по тематичних категоріях.

Каталоги Web створюються людьми, а не комп'ютерами і часто містять рекомендації чи анотації до вузлів. Вони охоплюють значно менше тим, чим зібрані комп'ютером покажчики Web, але незмінно краще сплановані.

Таким чином, кожна система має велику кількість унікальних характеристик, своїх особливостей, що накладають відбиток на результат пошуку в Мережі. Більш того, багато пошукових систем відрізняються друг від друга досить значно, оскільки побудовані на різних методах пошуку й індексування інформаційних ресурсів. Але проте цілком реально розібратися в тім, на: якому принципі заснована робота більшості пошукових систем Мережі, як у загальному випадку здійснюється пошук документальних ресурсів у Інтернет.

Хотілося б сказати, що існуючі на даний момент пошукові системи - це досить могутні і здебільшого досить гнучкі інструменти пошуку інформації. Якщо точно знати, що ж вам дійсно потрібно в Мережі і відповідно до цим уміло скласти запит, практично всі ІПС видадуть на ваш запит достатнє (і навіть надлишкове) кількість посилань на ресурси Інтернет, у яких не так вже і складно знайти потрібну вам інформацію.

Але не можна не сказати, що при єдності основних принципів пошуку всі нині існуючі пошукові системи мають ряд відмінних риc. Знання цих особливостей буває не тільки корисно, але іноді і необхідно при пошуку якої-небудь рідкої чи специфічної інформації. Ці особливості не вносять кардинальних змін у механізм пошуку, але кожна пошукова система має свій алгоритм і свої особливості роботи, що в остаточному підсумку впливають на результати пошуку. Користувач повинний чітко розуміти, який ІПС краще скористатися в кожнім конкретному випадку.

5. Підвищення ефективності пошуку інформаційних ресурсів Інтернету

Як краще працювати з пошуковими системами Інтернету? Передусім треба пам'ятати, що складання запитів на пошук інформації - це свого роду мистецтво. Ідеальний запит видасть користувачу посилання тільки на ті сторінки, що йому потрібні. Просто грамотний запит може видати користувачеві кілька десятків сторінок, пошук серед яких виявиться не таким уже й складним.

Користувачу слід мати на увазі, що жодна пошукова система не в стані повністю індексувати всі сторінки і документи на всіх серверах Інтернету. Кожний пошуковий сервер проводить відбір і індексування сторінок за своїми власними правилами.

В ефективному пошуку інформаційних ресурсів Інтернету допомагають декілька правил.

1. Грамотне використання можливостей одного пошукового сервера може бути ефективніше, ніж звернення з тим самим запитом до великої кількості серверів.

Коли користувач вперше потрапляє на сторінки незнайомого пошукового сервера, слід в першу чергу прочитати його опис і правила користування, а також вивчити засоби і можливості пошуку. Однак не слід захоплюватися вивченням пошукових серверів; після деякої практики з'являються 2-3 улюблені сервери, що найповніше індексують сферу в Інтернеті, яка цікавить користувача.

2. У запиті слід використовувати ті слова, що точніше за все характеризують тему, яка цікавить користувача.

Вибір слів може грунтуватися на двох різних підходах:

- можна почати із загального запиту і поступово його конкретизувати, спостерігаючи за зміною результатів пошуку;

- можна почати з конкретного запиту і поступово його поширювати, відштовхуючись від найбільш важливих і специфічних слів.

3. Для більшості пошукових серверів має значення послідовність слів у запиті, тому найбільш важливі і характерні терміни треба розміщувати на початку запиту і додавати до них менш значущі терміни.

4. Фрази і словосполучення слід брати в лапки, оскільки в противному разі вони будуть сприйняті пошуковим сервером просто як набір ключових слів.

5. У запиті можна зазначати одне або кілька власних імен.

6. Рекомендується вживати синоніми - їх використання дозволяє не тільки поширити діапазон пошуку, а й надає більше ваги власне смисловій частині запиту.

7. Не рекомендується користуватися поширеними словами типу "комп'ютер", "інформація", "дані" тощо.

8. Багато пошукових систем припускають можливість використання в запитах логічних операторів "І" (AND), "або" (OR), "не" (NOT). Їх грамотне використання дозволяє зробити пошук надзвичайно точним і направити його саме туди, куди потрібно.

9. Якщо серед перших 20-30 посилань, отриманих від пошукового сервера, немає потрібного посилання, слід подумати про те, щоб радикально змінити набір ключових слів або скористатися іншим сервером.

10. Слід пам'ятати, що WWW-сторінка, на яку користувач потрапляє при першому підключенні до пошукової системи, найчастіше являє собою спрощений бланк запиту на пошук інформації. Щоб отримати доступ до найбільш потужних засобів опису, треба перейти на сторінку ускладненого пошуку (Advanced Search).

Висновок

Поява принципово нового засобу масової інформації -- Інтернету -- викликала появу нових можливостей, і разом з тим нових проблем. І, як бачимо, проблеми та переваги Всесвітньої мережі приблизно однакові. Поки професори та журналісти обговорюють, гарні чи погані ті нововведення, якi приніс у наше життя Інтернет, студенти просто користуються цим новим зручним інструментом для своїх досліджень і скоро, напевно, важко буде собі уявити, що колись люди діставали освіту, жодного разу не сівши за комп'ютер і не набравши «www...»

Список літератури

1. Архипов В.Ю. Інформаційно-пошукові системи Internet. // Секретарська справа. - 2001. - № 2. - С. 85-89.

2. Пауль Д. Перри “Секреты Worl Wide Web”. -К.: Изд. Группа BHV,1997

3. Петров М. Информационные системы: Учебник для вузов. - СПб: - 2001. - 688 с.

4. Мелюхин И.С. Проблемы информации //Состояние и тенденции развития рынка комерческих онлайнових услуг.-№2.-96

5. Колесников А. Microsoft Office в бюро. -К.-1996.

6. http://distance.education.ru/index.htm;

7. http://www.semi.com.ua/dist_obuch.html

8. http://robot0.ge.uiuc.edu/~carlosp/cs317/cft.HTML;

9. http://www.ncsa.uiuc.edu/sdg/software/mosaic/docs/fill-out-forms/over view.HTML

10. www.victoria.lviv.ua/gim/6.html - 74k

11. epoha.smila.com/prgects/progect2/111.doc


Подобные документы

  • Використання автоматичних систем інформаційного пошуку для зменшення "інформаційного перевантаження". Методи організації пошуку: атрибутивний, повнотекстовий і вибірка видань. Тематичні каталоги та пошукові машини. Системи Yandex, Rambler та Google.

    реферат [333,0 K], добавлен 18.05.2011

  • Історія розвитку і створення Інтернет. Протоколи передачі даних. Способи організації пошуку інформації Інтернет. Пошукові системи та сервіси: Яндекс, Google, шукалка. Послідовність виконання пошуку необхідної інормації за допомогою браузера Mozilla.

    дипломная работа [4,9 M], добавлен 22.07.2015

  • Аналіз властивостей безкоштовних пошукових та поштових серверів Інтернету. Огляд методики ранжирування результатів пошуку в інформаційно-пошукових системах бібліотек. Вивчення можливостей пошукової системи "Мета", пошуку по реєстру українських сайтів.

    курсовая работа [142,9 K], добавлен 17.11.2011

  • Технологія пошуку інформації в мережі Інтернет. Можливості спеціальних служб, індексів. Інформаційні ресурси у каталогах. Системи мета-пошуку, пошуку в конференціях Usenet, пошуку людей. Знаходження інформації із застосуванням серверів глобального пошуку.

    реферат [38,8 K], добавлен 20.05.2011

  • Дослідження можливостей пошуку в Google за тематикою. Використання можливості розширеного тематичного пошуку для підвищення релевантності пошуку за встановленим завданням. Розширений пошук зображень. Особливості пошуку щодо країн та наукових знань.

    контрольная работа [4,6 M], добавлен 03.02.2014

  • Методи результативного пошуку інформації в Інтернеті. Уявлення про пошукові служби, їх призначення та структура. Основні типи пошукових служб: пошукові каталоги, рейтингові системи, індексні бази даних. Спрямованість тематики і широта охоплення ресурсів.

    реферат [33,5 K], добавлен 23.04.2010

  • Принципи та особливості роботи пошукових роботів. Аналіз відмінностей каталогів від пошукових систем. Шляхи та параметри оцінювання обсягів індексації сучасних пошукових систем. Загальні рекомендації щодо додавання сайту до пошукової системи чи каталогу.

    реферат [101,3 K], добавлен 18.11.2010

  • Рассмотрение поисковых систем интернета как программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации. Виды поисковых систем: Archie, Wandex, Aliweb, WebCrawler, AltaVista, Yahoo!, Google, Яндекс, Bing и Rambler.

    реферат [24,3 K], добавлен 10.05.2013

  • Національні інформаційні ресурси України, моніторинг згадувань об’єктів, подій у мережі Інтернет. Експертне оцінювання характеристик інформаційно-пошукових систем мережі Інтернет. Організаційне середовище та структура інформаційних потоків організації.

    курс лекций [936,5 K], добавлен 12.11.2010

  • Структура и принципы построения сети Интернет, поиск и сохранение информации в ней. История появления и классификация информационно-поисковых систем. Принцип работы и характеристики поисковых систем Google, Yandex, Rambler, Yahoo. Поиск по адресам URL.

    курсовая работа [3,6 M], добавлен 29.03.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.