Пошукові системи мережі Інтернет
Поняття про пошукові системи. Методи пошуку інформації в Інтернет. Вимоги при застосуванні пошукових систем. Методика вибору пошукових систем. Підвищення ефективності пошуку інформаційних ресурсів Інтернету. Опис зарубіжних і українських пошукових систем.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | украинский |
Дата добавления | 16.08.2010 |
Размер файла | 128,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
30
- ЗМІСТ
- Вступ
- 1. Загальне поняття про пошукові системи. Методи пошуку інформації в Інтернеті
- 1.1 Загальні вимоги при застосуванні пошукових систем
- 1.2 Методика вибору пошукових систем
- 1.3 Підвищення ефективності пошуку інформаційних ресурсів Інтернету
- 2. ОПИС ЗАРУБІЖНИХ ПОШУКОВИХ СИСТЕМ
- 2.1 GOOGLE - http://www.google.com
- 2.2 YAHOO - http://www.yahoo.com
- 2.3 ALTA-VISTA - http://www.alta-vista.com
- 2.4 MSN - http://www.msn.com
- 3. ОПИС РОСІЙСЬКИХ ПОШУКОВИХ СИСТЕМ
- 3.1 YANDEX.RU (Спрощено - http://ya.ru)
- 3.2 RAMBLER.RU (Спрощений - http://www.r0.ru)
- 3.3 APORT.RU
- 4. УКРАЇНСЬКІ ПОШУКОВІ СИСТЕМИ
- 4.1 Українська пошукова система "Мета"
- 4.2 Пошук по реєстру українських сайтів
- Висновок
- Список використаних джерел
Вступ
Основна мета користувача при роботі з мережею Internet - це отримання інформації, оскільки в першу чергу Internet є гігантським інформаційним ресурсом.
Завдання пошуку інформації в умовах стрімкого розвитку і постійної зміни мережі і її інформаційного наповнення є нетривіальним!
Випадково знайти потрібну адресу в мережі можна різними способами: просто подорожуючи по вузлах, дізнатися у знайомих, побачити в рекламі і т.д. Цілеспрямований пошук явно або неявно вимагає формулювання мети пошуку, розуміння того, що є об'єктом пошуку, обґрунтованого вибору засобу пошуку і ефективної методики.
Мета визначає характеристики об'єктів пошуку, об'єм і терміни виконання роботи, перелік засобів пошуку і способи їх застосування.
Як об'єкт пошуку може розглядатися будь-яка інформація, якщо є можливість представлення її в Internet, що стосується заданої теми.
Як ключові слова в запиті використовувалися якомога точніші слова або словосполучення, які найповніше характеризують об'єкт пошуку.
1. Загальне поняття про пошукові системи. Методи пошуку інформації в Інтернеті
1.1 Загальні вимоги при застосуванні пошукових систем
На сьогоднішній день" всесвітнє павутиння" включає декілька десятків (по різним оцінкам - від 50 до 80) мільйонів серверів, на кожному з яких доступно від декількох мегабайт до десятків гігабайт інформації. Як уже відзначалося (див. заняття 8), для пошуку незліченної інформації в Інтернеті на допомогу приходять тематичні та індексні пошукові системи.
Типовий приклад тематичного каталогу - пошукова система Yahoo (http://www.yahoo.com). Це спеціалізований сервер WWW, на якому зберігаються списки інших серверів з їх стислими описами. Інформація згрупована за смисловими категоріями і має ієрархічну структуру; наприклад, на цьому сервері можна знайти розділи "Комп'ютери та Інтернет-мультимедіа - Журнали", "Розваги - Музика - Групи і виконавці - Елтон Джон", "Країни - Україна - Бізнес в Україні", а також безліч інших. Передбачена на сервері система шукає дані тільки в каталозі Yahoo і не заглядає на сторінки згаданих в ньому серверів. Користуватися такою системою (а також будь-якою іншою, аналогічною їй, наприклад, списком російських серверів WWW за адресою http://www.ru) надзвичайно просто. Треба знайти потрібний розділ і після цього - підходящий сервер за його стислим описом, наведеним там же. Такі каталоги мають недоліки: низька оперативність зміни інформації, відносна складність пошуку (за стислою та інколи помилковою адресою сервера), порівняно невелика "область охоплення" простору WWW[7].
Існує більш зручний і ефективний засіб пошуку необхідних відомостей. Це так звані індексні пошукові системи (пошукові механізми - search engines). Основою їх є спеціалізовані комп'ютери, що періодичні проводять індексацію документів на серверах "всесвітнього павутиння", і дозволяють шукати інформацію на цих серверах за одним або кількома ключовими словами і, можливо, за деякими додатковими ознаками.
До кінця 1997 г. в мережі Інтернет налічувалося близько двох тисяч різноманітних пошукових серверів, які відрізняються один від одного типом, спеціалізацією, сферою охоплення (кількістю індексованих сторінок) і популярністю. Більша частина цих серверів має порівняно вузьку спеціалізацію - наприклад, пошук музики в форматі МР3 або пошук інформації на серверах у галузі молекулярної хімії. Існує декілька надзвичайно популярних універсальних пошукових серверів, призначених для пошуку за ключовими словами на якомога більшому числі сторінок системи WWW. Найбільш відомими є сервери AltaVista (http://altavista.digital/com), InfoSeek (http://www.infoseek.com), Excite (http://www.excite.com), HotBot (http://www.hotbot.com), Lycos (http://www. lycos. com).
Принцип дії більшості таких серверів простий (заняття 9). Для пошуку інформації використовується індекс, створений спеціальною програмою-роботом. Програма-робот періодично обходить відомі їй адреси мережі, зчитує з них сторінки, що зберігаються WWW, індексує всі слова з усіх сторінок (разом з адресами URL) і розміщує їх в загальний індекс. Для зберігання цього індексу потрібен величезний обсяг пам'яті, а для його обробки - чимала обчислювальна потужність. Наприклад, основний механізм одного з найпотужніших пошукових серверів AltaVista (повного індексу, що претендує на всю мережу Інтернет), включає 16 потужних комп'ютерів Alpha Server 8400 5/440. На кожному з цих комп'ютерів встановлено по 12 центральних процесорів, 8 гігабайт оперативної пам'яті (обсяг, еквівалентний обсягу пам'яті 500 стандартних сучасних персональних комп'ютерів) і дисковий масив RAID ємкістю 300 гігабайт. Вся ця система з'єднана з магістральною мережею Інтернет каналом зв'язку з пропускною спроможністю 100 Мбіт/с. Загальний обсяг на сервері індексних файлів, що зберігаються, в яких виробляється пошук, - понад 200 гігабайт.
Ще одна категорія пошукових серверів - так звані "метапошукові" сервери (метасервери). Найбільш відомий з них - WebCrawler (http://www.webcrawler.com). Сервери такого типу передають отриманий від користувача запит на пошук інформації іншим пошуковим серверам, об'єднують результати пошуків і повертають результат користувачу. Застосування подібних серверів має як переваги, так і недоліки. Найцінніша перевага полягає в економії часу на однотипових запитах до різноманітних серверів. Проте, позначки в синтаксисі запитів змушують користувачів метасерверів дотримуватися найзагальнішої форми запиту, без можливості вдаватися до потужніших засобів пошуку. Незважаючи на це, метасервери - непоганий засіб оперативної оцінки того, наскільки широко представлена в системі WWW та чи інша інформація.
1.2 Методика вибору пошукових систем
Яку пошукову систему треба вибрати, щоб знайти необхідну інформацію? Це залежить від того, що саме і як користувач збирається шукати. В цьому випадку можна запропонувати такі рекомендації.
Для перегляду всіх серверів за певною темою скористатися каталогом Yahoo або Magellan (http://mckinley.com).
Для пошуку інформації на максимальній кількості серверів Інтернету скористатися AltaVista або InfoSeek[9].
Для знаходження повідомлень телеконференцій Usernet придатні AltaVista, InfoSeek або WebCrawler, а найкраще - спеціалізований сервер DejaNews (http://dejanews.com).
Щоб знайти важкодоступний документ, можна скористатися AltaVista.
Для знаходження відомостей про конкретний товар або продукцію - HotBot.
Для отримання максимальної кількості результатів - InfoSeek, AltaVista або спеціальний метасервер, наприклад, WebCrawler.
Для знаходження інформації на відомому сервері, вже оціненому незалежними фахівцями, - Magellan або Yahoo.
Для пошуків інформації російською мовою - використати спеціальний розділ сервера AltaVista або сервер Ремблер (http://www.rambler.ru).
Щоб знайти інформацію на сервері в одній з країн СНД, придатний пошуковий сервер Ремблер або каталог російських серверів за адресою http://weblist.ru;
1.3 Підвищення ефективності пошуку інформаційних ресурсів Інтернету
Як краще працювати з пошуковими системами Інтернету?
Передусім треба пам'ятати, що складання запитів на пошук інформації - це свого роду мистецтво. Ідеальний запит видасть користувачу посилання тільки на ті сторінки, що йому потрібні. Просто грамотний запит може видати користувачеві кілька десятків сторінок, пошук серед яких виявиться не таким уже й складним.
Користувачу слід мати на увазі, що жодна пошукова система не в стані повністю індексувати всі сторінки і документи на всіх серверах Інтернету. Кожний пошуковий сервер проводить відбір і індексування сторінок за своїми власними правилами.
В ефективному пошуку інформаційних ресурсів Інтернету допомагають декілька правил[5].
1. Грамотне використання можливостей одного пошукового сервера може бути ефективніше, ніж звернення з тим самим запитом до великої кількості серверів.
Коли користувач вперше потрапляє на сторінки незнайомого пошукового сервера, слід в першу чергу прочитати його опис і правила користування, а також вивчити засоби і можливості пошуку. Однак не слід захоплюватися вивченням пошукових серверів; після деякої практики з'являються 2-3 улюблені сервери, що найповніше індексують сферу в Інтернеті, яка цікавить користувача.
2. У запиті слід використовувати ті слова, що точніше за все характеризують тему, яка цікавить користувача.
Вибір слів може ґрунтуватися на двох різних підходах:
- можна почати із загального запиту і поступово його конкретизувати, спостерігаючи за зміною результатів пошуку;
- можна почати з конкретного запиту і поступово його поширювати, відштовхуючись від найбільш важливих і специфічних слів.
3. Для більшості пошукових серверів має значення послідовність слів у запиті, тому найбільш важливі і характерні терміни треба розміщувати на початку запиту і додавати до них менш значущі терміни.
4. Фрази і словосполучення слід брати в лапки, оскільки в противному разі вони будуть сприйняті пошуковим сервером просто як набір ключових слів.
5. У запиті можна зазначати одне або кілька власних імен.
6. Рекомендується вживати синоніми - їх використання дозволяє не тільки поширити діапазон пошуку, а й надає більше ваги власне смисловій частині запиту.
7. Не рекомендується користуватися поширеними словами типу "комп'ютер", "інформація", "дані" тощо.
8. Багато пошукових систем припускають можливість використання в запитах логічних операторів "І" (AND), "або" (OR), "не" (NOT). Їх грамотне використання дозволяє зробити пошук надзвичайно точним і направити його саме туди, куди потрібно.
9. Якщо серед перших 20-30 посилань, отриманих від пошукового сервера, немає потрібного посилання, слід подумати про те, щоб радикально змінити набір ключових слів або скористатися іншим сервером.
10. Слід пам'ятати, що WWW-сторінка, на яку користувач потрапляє при першому підключенні до пошукової системи, найчастіше являє собою спрощений бланк запиту на пошук інформації. Щоб отримати доступ до найбільш потужних засобів опису, треба перейти на сторінку ускладненого пошуку (Advanced Search).
2. ОПИС ЗАРУБІЖНИХ ПОШУКОВИХ СИСТЕМ
Більше як 80% всього пошуку в Інтернеті доводитися на 3 основні системи: Google, Yahoo!, MSN.
2.1 GOOGLE - http://www.google.com
З невеликої компанії, яка заснована у вересні 1998 року Ларрі Пейджем і Сергієм Бріном, Google перетворилася на найбільший галузевий концерн, що пропонує послуги простого і швидкого пошуку інформації в Інтернеті по більш ніж 8 млрд. мережних адрес, плюс множина інших, не менш цікавих сервісів. За ці роки багато що змінилося, але незмінною і зростаючою залишилася динаміка розвитку Google. Особливо вражає успішне і послідовне зростання компанії на тлі поголовного краху, що зачепів в минулі роки більшість дот-комів.
Нині феноменальний успіх Google пов'язують не лише з вибраною бізнес-моделлю і вдалим напрямом діяльності. Карколомний успіх компанії не був би досягнутий без тонкого підбору співробітників і вмілого керівництва. З серпня 2001 року на посту CEO компанії знаходиться Ерік Шмідт, якій перейшов в Google з Novell і поставив за головну мету збільшення капіталізації за рахунок виходу на нові ринки. Минулі роки підтвердили правильність вибраної стратегії і тепер Google є тим, чим є - близько 5 тисяч співробітників у всьому світі, бренд, що відомий без коментарів в будь-якому куточку земної кулі.
Бренд Google було введено як співзвуччя математичному терміну Googol (гугол), придуманому Мілтоном Сироттой, племінником американського математика Едварда Каснера. Він позначає одиницю з сотнею нулів і чудово ілюструє невичерпні можливості Інтернету, які компанія Google постійно систематизує і організовує, полегшуючи доступ до різних даних.
Спочатку була поставлена мета по організації всієї світової інформації, щоб зробити її максимально доступною і корисною для кожного відвідувача Інтернету. Для цього засновники компанії Леррі Пейдж і Сергій Брін розробили новий алгоритм пошуку. Ідея створення універсального пошуковика і стала запорукою нинішнього успіху компанії. Більш того, в нинішньому своєму втіленні пошуковий движок доступний не лише з головної сторінки Google: можна вести пошук через панель інструментів Google, через Google Deskbar в панелі завдань Windows без відкривання браузера, а також з різних мобільних платформ, включаючи телефони в режимах WAP та І-mode.
Оскільки пошуковик Google є безкоштовним, основний дохід компанії складається з надання рекламодавцям можливості поширювати рекламу, що є релевантною до інформації на даній сторінці. Тисячі рекламодавців використовують програму Google AdWords для просування своїх товарів і послуг за допомогою цілеспрямованих оголошень, тисячі менеджерів сайтів використовують Google AdSense для показу оголошень, що є релевантними до змісту сайтів.
Від початку розробники Google відмовилися від типового використання потужностей декількох серверів, продуктивність яких зменшується при пікових навантаженнях, і почали використовувати можливості розподілених у мережі комп'ютерів.
Пошуковий движок Google проводить серії одночасних розрахунків тривалістю частки секунди і використовує технологію PageRank для вивчення всієї структури посилань Інтернету та об'єктивного визначення найважливіших сторінок шляхом розрахунку рівняння з більше як 500 змінними і 2 мільярдами термінів. Пошуковик Google аналізує якісний зміст сторінок - шрифти, підрозділи, точне місцеположення кожного слова, плюс зміст сусідніх сторінок для забезпечення максимальної релевантності результатів пошуку.
В компанії Google створено технологію пошуку для бездротових пристроїв з моментальним перетворенням HTML у формати для режимів WAP, І-mode, J-SKY і EZWeb.
Результатом багаторічного розвитку пошукової системи Google стала поява національних пошукових сервісів: підтримується різномовний інтерфейс і алгоритму пошуку адаптуються до локальних особливостей. Коли пошуковий сервіс Google стартував в Китаї, то, не дивлячись на численні складнощі, пов'язані з своєрідним трактуванням свободи слова китайськими властями (Google.com не доступний китайським користувачам приблизно 10% часу; Google News зовсім не працює, Google Images доступний лише час від часу), сервіс працює і набирає популярність.
Google забезпечує пошук по гіпертекстових документах, що знаходяться в різних мовних зонах - українською, російською, англійською, німецькою і ін. Пошукова система Google має власні піддомени для більшості країн, наприклад, для України - google.com.ua, для Росії - google.ru. Це одна з найбільших пошукових баз в світі.
ПЕРЕВАГИ
· Використання механізму PageRank, який відображає "важливість" сайту і впливає на видачу результатів пошуку. PageRank схожий на індекс цитування у Яндекса (теж залежить від кількості і якості посилань на ресурс). Але на відміну від Яндекса, вплив PageRank у Google не настільки значний, тому люди в Google знаходять саме те, що і шукають.
· Google шукає не лише гіпертекстові файли (html), але і файли у форматі PDF, DOC, PostScript, Corel Word Perfect і ін.
· Пошукова система Google має можливість пошуку зображень. При цьому у запиті можна вказати бажаний розмір, глибину кольору, формат файлу.
· На відміну від багатьох пошуковиків, роботи Google індексують всі сторінки, а не лише найголовніші.
· Всі сторінки Google кешує (заносить в свою базу), і дозволяє користувачеві переглядати документ у кеші Google, не відкриваючи його в першоджерелі (що зазвичай є набагато швидше).
· Google дозволяє обрати мову інтерфейсу, мовні зони для пошуку, кількість повідомлень при видачі результатів та ін.
· Користувачі Microsoft Internet Explorer, Mozilla Firefox і Opera можуть встановити собі програму Google Toolbar, яка створює нову панель інструментів, що дозволяє шукати в Google, не заходивши на сам сайт.
· Рядок пошуку в Google можна використати і як калькулятор. Якщо ввести (48-26)*21, Google видасть правильний результат.
СЕРВІСИ GOOGLE
Можливості Google не обмежені лише традиційним "джентльменським набором" пошуковика з розширеними налаштуваннями та новинами. Нижче наведено короткий і неповний список сучасних сервісів Google[3]:
· Google Local - знаходить місцеві підприємства та послуги в Інтернеті
· Google Mac - пошук по сайтах тематики Apple/Macintosh
· Google's University Search - пошук по університетах
· Google Linux - пошук по сайтах тематики Linux
· Google GOV - пошук по всіх державних (*.gov) і військових (*.mil) сайтах
· Froogle - пошук товарів/продукції
· Google Options - опції
· Google Map Site - карта сайту
· Google Features - перелік різноманітних особливостей
· Google Microsoft - пошук по сайтах Microsoft
· Google Labs - сервіси
· Hacker Style Google - у оригінальному стилі
· Google BSD - пошук по BSD-сайтах
· Google Наоборот - google в дзеркальному відображенні
· Google Schoolar - пошук серед статей, книг, оглядів наукової літератури та підручників
· Google Firefox - для фанатів Mozilla Firefox
· Google Fight - поєдинок: потрібно ввести два слова, і пошуковик покаже яке з них посилається на більшу кількість сторінок
· Google Suggest - можливі варіанти того, що потрібне, з показом кількості сторінок по даному запиту
· Cheatoogle - пошук по читам і кодах до ігор
· Google Easter - пасхальний кролик
· Gmail - пошта від Google
· Video google - пошук відео
· Google для мобильников и КПК - міні-версія для зручної роботи з мобільних телефонів і КПК
· Mobie Google - сервіс для мобільного зв'язку
· Google Fan Logos - сайт з логотипами на тему Google
· Google Hiliday Logos - святкові логотипи
· Офіційні та Неофіційні - логотипи Google
· Google April Fools - пошук про все, що пов'язане з днем дурнів
· Google Maps - пошук по картах
· Google Blog - офіційний блог Google
· Google News - новини від Google
· Google Print - пошук Google по мільйонах оцифрованих книг бібліотек Гарварду, Стенфорда, Оксфорда, Мічігану, а також з Нью-йоркської Публічної бібліотеки
· Google Earth - програма для огляду Землі з космосу
· Can't find on google - сайт із переліком запитів, у відповідь на які видається не те, що потрібне
· GoogleGulp- напої від Google
· Uncle Sam - "патріотичний" пошуковик
· Blogsearch - пошук по блогам і ЖЖ
· Google Webmasters Guidelines - інформація та поради Google для веб-розробників
· Google Reader - Google Reader
· Google Code - для кодерів, відкриті ісходники і т.д.
· Google VPN - безкоштовний VPN-сервіс від Google
· Google Alerts - відстежує появу нових сторінок на пошуковий запит і повідомляє про це на e-mail
· Google Answers- можна задати запитання, вказати суму винагороди за відповідь і дочекатися відповіді
· Personalized Google Search- пошук з врахуванням налаштувань та потреб користувача
· GoogleStore- магазин з аксесуарами в стилі і з логотипами Google
· Google Trade Catalogs - каталог товарів
· Google Personalize Homepage - підлаштування пошуку та зовнішнього вигляду Google під себе ;)
· Google Base - база даних від Гугл, можна завантажити будь що
І це далеко не повний перелік можливостей, сервіси Google постійно поповнюються, а їх якість вдосконалюється.
2.2 YAHOO - http://www.yahoo.com
Yahoo було засновано в 1994, і на сьогоднішній день це найстаріший і якнайповніший каталог Інтернет-ресурсів.
Ця неймовірно популярна система, що обслуговує мільйони запитів щодня, зародилася як проста колекція закладок, яку поповнювали всього 2 людини - Девід Філо і Джері Янг.
Yahoo є найпопулярнішим пошуковим засобом і секрет його успіху Yahoo криється в людях. Над складанням та редагуванням вмісту каталогів Yahoo працюють понад 150 редакторів. Yahoo має базу даних в більш, ніж 1 млн. проіндексованих сайтів. Також, у разі браку власної бази даних, Yahoo використовує базу даних Google (до липня 2000 року Yahoo користувався базою даних Inktomi).
2.3 ALTA-VISTA - http://www.alta-vista.com
AltaVista почала надавати свої послуги в грудні 1995 року і на сьогоднішній день є однією з найбільш великих пошукових систем (за кількістю проіндексованих сторінок). Як особливість пошуковика можна зазначити можливість пошуку за ускладненими критеріями відбору. AltaVista пропонує додаткові послуги у вигляді пошуку по каталогах (взятими з Open Directory and LookSmart), а також службу під назвою "Ask AltaVista" ("запитай AltaVista"), результати якої беруться з Ask Jeeves. На даний час AltaVista є власником пошукової системи Raging Search.
2.4 MSN - http://www.msn.com
Пошуковик розроблено та запущено компанією Microsoft у 1997 року.
На відміну від інших пошукових систем, раніше у MSN ніколи не було власного павука або каталога. З 1997 року для видачі результатів пошуку використовувалися різні бази даних, такі як: Yahoo!, LookSmart, Altavista, DirectHit, Inktomi і RealNames[2].
Тільки з початку 2005 року MSN запустив бета-версию власного пошукового алгоритму. Користувачі MSN Search можуть здійснювати пошук як по всьому Інтернету, так і по окремих тематичних категоріях, у тому числі і по енциклопедії Microsoft Encarta.
Новий движок містить можливість локалізованого пошуку (Near Me) - система здатна автоматично визначати місцезнаходження користувача за IP-адресою його комп'ютера.
3. ОПИС РОСІЙСЬКИХ ПОШУКОВИХ СИСТЕМ
В Рунеті основними є пошукові системи Яndex, Rambler та Mail.ru На діаграмі представлена питома вага різних пошукових машин Рунету.
3.1 YANDEX.RU (Спрощено - http://ya.ru)
Yandex виконує пошук по словяномовній частині Інтернету з урахуванням морфології словянських мов. Маючи могутній механізм підбору сайтів під запити, ця пошукова машина допомагає знайти найбільш відповідні веб-сторінки. Яндекс щодня переглядає сотні тисяч веб-сторінок у пошуках змін або нових посилань, і їх база постійно зростає.
Слово "Яndex" означає "Мовний index", або, якщо по-англійськи, "Yandex" - "Yet Another indexer". За 10 роки публічного існування Яndex виникали і інші тлумачення. Наприклад, якщо в слові "Index" перекласти з англійського першу букву ("I" - "Я"), вийде "Яndex"[1].
Офіційно пошукова машина Yandex.Ru була анонсована 23 вересня 1997 року на виставці Softool. Вже тоді пошуковик мав певні переваги - можливість перевірки документів на унікальність, облік морфології словянських мов, можливість пошуку з врахуванням відстані (наприклад, при пошуку точного словосполучення). Основною відмінною рисою Yandex є ретельно розроблений алгоритм оцінки відповідності відповіді запиту (релевантності), який враховує не лише кількість слів запиту, знайдених у тексті, але і "контрастність" слова (його відносну частоту для даного документа), відстань між словами, і положення слова в документі.
Згідно даних глобальної статистики Рунету, сьогодні більше 50% пошукового трафіку генерується саме цим пошуковиком (для порівняння, на долю Rambler'a доводиться близько 20%, і ще менше - на долю Google'a).
Реєстрація відбувається за адресою http://yandex.ru/addurl.html. В Яндекса достатньо швидкий пошуковий робот. Завдяки ньому реєстрована сторінка з'явиться в пошукових результатах протягом 2-4 годин. Але це лише первинна індексація. Після повної індексації, вона може зникнути з пошукових результатів, якщо пошуковий робот визнає її за спам. Тому положення web-сторінки в результатах пошуку потрібно відстежувати до тих пір, поки не пройде повна індексація. Перелік результатів може мінятися залежно від завантаженості серверів, оскільки база даних Яндекса має кластерну структуру і рознесена на декілька серверів.
Яндекс любить документи середніх розмірів, насичені текстом (статті і т.п.). Слід помірно повторювати ключові слова. Ключові слова можна писати в описі, але вага слів у цьому тегу є нижчою. Добре індексуються сторінки, що створено за допомогою скриптів .cgi, .php. Це стосується гостьових книг, форумів і т.п. Для індексації решти (окрім головної) сторінок сайту потрібно приблизно 2 тижні[8].
Хороших позицій допомагають досягати ключові слова в мета-тегах, де варто зазначати слова, які зустрічаються в тексті сторінки. Мета-теги, використовуються також і для видачі опису сторінки в результатах пошуку. Це потрібно враховувати при його складанні, оскільки, користувач по цьому опису приймає рішення відвідати вас, чи ні. Важливо розміщувати ключові слова і в тегу "title", заголовках (h1-h6), змісті сторінки, "ALT"-тегах.
Для визначення релевантности Яндекс використовує Зважений Індекс Цитування, який впливає на рейтинг в результатах пошуку. Звичайний Індекс Цитування використовується тільки при сортуванні сайтів в каталозі Яндекса.
3.2 RAMBLER.RU (Спрощений - http://www.r0.ru)
Цей пошуковик займає сьогодні друге місце серед пошуковиків Ренета. Він був першою пошуковою програмою, що створено спеціально для російського Інтернету програмістом компанії Stack Ltd Дмитром Крюком у 1996 році. Слово "Rambler" [1] перекладається як «гуляща людина», «бродяга» по Інтернету.
Rambler постійно вдосконалює свій пошуковий алгоритм. Проводяться роботи по оптимізації роботи системи для точності та актуальності пошуку. Як і більшість російських пошукових машин, Rambler враховує морфологію російської мови. При видачі результатів вплив має положення сайту в рейтингу Rambler's Top100. Rambler індексує сайти в зонах ru .su, .ua, .by, .kz, .kg, .uz, .ge, а також славяномовні сайти в доменах .com, .net або .org.
На сьогодні Rambler є в величезним інтернет-холдингом, до складу якого входять портал Рамблер, новинна інтернет-газета Лента.ру, медичний сайт Doctor.ru, онлайновий клуб батьків Mama.ru, картографічний сервіс NaKarte.ru, телекомунікаційний підрозділ "Рамблер Телеком".
На Рамблері реалізовано розумну систему, яка виводить в результатах пошуку слова, які є синонімами запиту. Ще однією функцією системи є видача контекстної реклами не лише за конкретними ключовими словами, але і за фразами, що тісно пов'язані з ними.
Реєстрація знаходиться за адресою http://www.rambler.ru/doc/add_site_form.shtml. Не реєструються сайти в доменах .com, .net, або .org. Якщо ж зміст сайту з цих зон має відношення до російськомовного Інтернету, то користувач має відправити лист на search.support@rambler-co.ru з проханням проіндексувати сайт.
Рамблер (на відміну від інших пошукачів) вміє витягувати гіперпосилання з об'єктів Macromedia Flash. Якщо сайт має заставку або навігаційні панелі, що виконані з використанням цієї технології, Рамблер обробляє їх, знаходить адреси всіх сторінок сайту і індексує весь сайт. Тексти flash-об'єктів не індексуються. Для сайтів, які цілком складаються з flash-об'єктів, рекомендується створити HTML-копію і зареєструвати її в пошуковій машині. Роботи Рамблера також справляються з конструкціями фреймів.
Роботи Рамблера ігнорують більшість мета-тегів. Коментарі в документі роботи Рамблера теж не сканують, але більшої уваги звертають на заголовки і виділення в документі. Базові поняття і ключові для даного сайту слова доцільно включати в наступні HTML-теги (у порядку значущості): "title", "h1"..."h4", "b", "strong", "u".
Максимальний розмір документа для роботів складає 200 кілобайт. Документи більшого розміру усікаються до вказаної величини.
3.3 APORT.RU
Пошукову систему "Апорт!" було розроблено компанією "Агама" за підтримки Intel і вперше продемонстровано в лютому 1996 року на прес-конференції "Агамы" з приводу відкриття "Російського клубу". Тоді вона шукала лише по сайту russia.agama.com.
Найважливішими особливостями першої версії "Апорту" були переклад запиту і результатів пошуку англійською мовою і зворотно, а також відновлення всіх проіндексованих сторінок з власної бази (що надає можливість переглядання сторінок, вже неіснуючих в оригіналі)[4].
До кінця 1999 року було представлено нову версію Апорт - "Апорт 2000", який став першим російським пошуковиком, що побудований на основі видачі результатів по окремо взятих сайтах. "Апорт 2000" практично реалізував дві базові технології американської пошукової машини Google: облік "рангу сайту" (Page Rank), і обробка запиту, орієнтуючись на HTML-код сторінки. Серед недокументованих особливостей - більший пріоритет сайтам, які мають вищу та елітну лігу у каталозі AtRus.
Aport є повнотекстовою пошуковою системою, тобто вона індексує всі слова, які б побачила на екрані людина, що переглядатиме конкретну сторінку. В результаті будь-яке слово з тексту документів може бути критерієм для подальшого пошуку. Апорт також індексує тексти гіперпосилань на документ з інших сторінок, що знаходяться, як всередині сайту, так і за його межами, а також складені (або перевірені) редакторами описи сайтів з каталогу.
Результати пошуку впорядковуються за частотою використання шуканих термінів. Разом з посиланням відображається фрагмент тексту, де зустрічається термін, вказується індекс відповідності до запиту і дата останньої модифікації файлу. "Апорт!" у виданому фрагменті тексту виділяє червоним кольором запитані слова.
Реєстрація сайту в Апорті проводиться із сторінки http://www.aport.ru/addurl.asp. Ця сторінка доступна з будь-якої сторінки Апорту, наприклад, з головної сторінки Апорту. Додавати в пошукову систему Апорт слід російськомовні сайти, а також сайти, що мають безпосереднє відношення до російського Інтернету. У разі відмови в автоматичному додаванні сайту можна звернутися з проханням про додавання сайту за addurl-nr@aport.ru.
З моменту додавання сайту в Апорт до моменту його появи в пошуковій базі проходить від двох-трьох днів до двох тижнів.
При перегляданні вмісту сервера для індексування Апорт обов'язково перевіряє файл ROBOTS.TXT. Отже можна його використати, щоб обмежити «діяльність» Апорту на своєму сервері. Апорт за умовчанням не індексує динамічні документи, в адресах яких зустрічається символ '?'.
Для документів HTML[1], окрім основного тексту документа індексуються також: заголовок документа "TITLE", ключові слова "KEYWORDS", описи сторінок "DESCRIPTION" і підписи до картинок "ALT". Апорт пропонує декілька варіантів направленої реклами http://www.aport.ru/adv, проте немає можливості купити вищі місця для свого сайту в результатах пошуку.
Ключові слова не мають визначального значення при визначенні релевантности документа. Але розумне використання цього тега рекомендується.
На відміну від багатьох інших пошукових систем, Апорт не застосовує спеціальних санкцій до сайтів, що намагаються обдурити пошукову систему за допомогою спаму, але досягнути подібним чином бажаного результату не вийде. Тому не варто писати невидимі тексти, набирати сотні ключових слів, що не мають жодного відношення до змісту документа і т.д[4].
Ось перелік основних критеріїв, які Апорт враховує при сортуванні сайтів: густина ключових слів, відстань між ключовими словами в тексті документа, місце, де зустрічаються пошукові слова (заголовок, опис, мета-тег і т.п.), зовнішній вигляд шрифту, яким набрані ключові слова (розмір, грубість, колір), кількість посилань з Інтернету на даний документ, використання ключового слова в тексті посилань з Інтернету на даний документ. Остаточний відсоток відповідності документа до запиту будується як певна функція від всіх цих показників.
4. УКРАЇНСЬКІ ПОШУКОВІ СИСТЕМИ
Мета |
Потужна повнотекстова пошукова система, має оригінальну базу даних. Підтримує розвинену мову запитів, пошук за окремими полями документів. Виконує пошук з урахуванням морфології української, російської та англійської мов. Посилання супроводжуються анотаціями. Зручний та швидкий перегляд результатів. |
|
Uaport |
Портал має потужні пошукові можливості у текстах документів в мережі Інтернет, архівах української преси, українських новинах, товарах та послугах. Пошук виконується не тільки українською, а й російською, англійською, французькою та іншими мовами. |
|
Uaportal |
Великий багаторівневий каталог українських ресурсів (тематична та регіональна класифікація), швидкий пошук за ключовими словами. |
|
Ping |
Каталог українських ресурсів з рейтингом сайтів та пошуковою системою. Має великий арсенал даних. Дозволяє шукати за фразами. Для зручності користувачів кожне знайдене слово із запиту виділяється червоним кольором. |
|
Брама |
Каталог інформаційних ресурсів і пошукова система. |
|
Bigmir |
Український інформаційний портал, каталог українських сайтів, пошук, новини, спорт, суспільство, пошта, радіо. Пошук виконується через Google або через Яндекс. |
|
Холмс |
Інформаційно-пошукова система та каталог. |
|
Silver |
Україна в Інтернеті. Тематичний каталог ресурсів. Пошук у рубриках. |
|
360.com.ua |
Глобальний мета-пошук інформації на пошукових серверах усього світу. Можливість пошуку інформації на музичних сайтах України та Росії. |
|
UaList |
Пошукова система і тематичний каталог українських сайтів. |
|
Sesna |
Пошукова система та каталог є однією з найсерйозніших розробок у сфері рубрикації української та україномовної частини Інтернету. Пошук виконується як за ключовими словами, так і за темами; в межах регіону або країни. |
|
Ukrop |
Український об'єднаний портал: інформація про Україну, останні новини, практично всі ресурси українського Інтернету, пошук необхідної інформації, каталог українських ресурсів. |
|
Старт Украина |
Інформаційно-розважальні та ділові ресурси. Фірми, організації, новини, об'яви, домени. Пошук у каталозі. |
|
AtlasUa |
Функціональний каталог українських сайтів. Має можливість пошуку товарів, послуг, новин, повнотекстових документів. |
|
QS |
Каталог сайтів та пошукова система. Посилання супроводжуються анотаціями. Також є прайс-листи, оголошення, курси валют, погода та ін. |
|
КУСТ |
Пошук в українських ресурсах, різноманітні сервіси, послуги, служби. Статистика сайтів та чемпіонат сайтів. |
4.1 Українська пошукова система "Мета"
Українська пошукова система "МЕТА" є найвідомішим проектом компанії - ЗАТ «МЕТА» - розробника пошукових і інформаційних рішень. Сьогодні "МЕТА" -- один з найбільш відвідуваних українцями сайтів і найбільший рекламний майданчик України.
«Мета.ua» - проект український, він створений і працюватиме тільки для України.
А технології, які були створені в процесі роботи, цілком можуть бути використані в інших країнах.
Пошукові технології компанії працюють у внутрішніх мережах Верховної Ради і кабінету міністрів України, на сайтах національного банку України, фонду Разумкова, сайті Віктора Ющенка.
За 2005 рік аудиторія збільшилася більш ніж в два рази.
«Мета» - це безкоштовний сервіс, який не має ніяких зобов'язань перед власниками сайтів і не гарантує «правильного» місця видачі.
Нові сервіси пошукової системи "МЕТА" можна поділити на три типи: пошукові, інформаційні і комунікаційні[7].
З пошукових сервісів хочеться відзначити «Метановини». Це найпопулярніший розділ після великого пошуку і каталогу. Зараз там збираються новини від більше як 200 українських інтернет-джерел, близько 10 000 новин в день. Весь цей масив в режимі реального часу індексується, групується по темах і стає доступним для пошуку.
«Пошук рефератів». Практично єдиний сервіс в СНД, що дозволяє шукати не тільки по назві і опису, але і по всьому тексту. В період сесій і іспитів студенти і школярі активно користуються цим сервісом.
З останніх пошукових проектів - інтерфейс до бази законодавства України, що розроблено спільно з апаратом Верховної Ради. У базі більш як 80 000 різних юридичних документів. Автоматичний переклад запитів дає можливість задавати запит на російській або українській мовах.
З інформаційних сервісів цікавими є «Карти» і «Розклади потягів». В «Картах» зібрано найбільшу кількість карт по містах і областях України, що є доступними в Інтернеті, а «Розклади» - є найповнішими та найточнішими.
Комунікаційні сервіси - форум, який став найбільшим українським неполітичним форумом. Поштовий сервіс розроблявся значно пізніше за тих, що є зараз на ринку, тому в ньому вдалося обійти відомі недоліки і він вийшов зручним і функціональним. Пошта зараз самий швидкозростаючий сервіс на «Мете».
Пошуковому сервісу доводиться збільшувати потужність одночасно в двох площинах - з одного боку збільшується кількість запитів, з іншої - зростає об'єм індексу. З схожими проблемами працює всього декілька компаній в світі, і тому на вирішення технічних проблем, пов'язаних з швидким зростанням витрачається багато зусиль. Впроваджено і відпрацьовано технологію, що дозволяє швидко масштабувати систему, Мета може без проблем збільшити розмір індексу і обробити число запитів на порядок більше.
З останніх вдосконалень - «перевірка» правопису в запитах і додавання нових форматів документів - doc, pdf, xls, ppt.
«Повільна індексація» - це вже легенда, яка залишилася у минулому. Черги на розміщення в каталог зараз немає, бо технічних потужностей вистачає. Якщо сайт через 4-5 днів після додавання в каталог не потрапив в індекс, це означає, що він є або недоступним, або не піддається індексації. Окрім цього є спеціальний кластер, документи в якому оновлюються двічі у день.
4.2 Пошук по реєстру українських сайтів
Як і при повнотекстовому пошуку, пошук по реєстру ведеться з врахуванням російської, української і англійської морфології.
За замовченням пошук ведеться по повнотекстовій базі даних, для пошуку по Реєстру, слід поставити прапорець "шукати в Реєстрі".
Можна обмежити область пошуку окремою темою або регіоном. Для цього необхідно перейти у відповідну тематичну/регіональну рубрику і поставити прапорець "шукати в розділі:" або "шукати по регіону:", при цьому пошук буде вестися по повнотекстовому індексу. Якщо ж поставити ще один прапорець - "шукати в Реєстрі", то пошук буде проведено тільки по описах сайтів в даному розділі або регіоні.
Висновок
По-перше, визначитися з метою пошуку. При цьому потрібно концентруватися не лише на самій меті, але і на тому, що може її супроводжувати.
У ідеалі процес пошуку повинен виглядати приблизно так. Спочатку робиться загальний запит, отримується відповідь з результатами пошуку, в якому потрібно виділити описи більш-менш відповідних посилань. Потім необхідно додати до запиту загальні ключові слова, які є в описі потрібних посилань і повторити процес. Якщо все робити правильно, то кожен запит повинен наближати до потрібної інформації. Користувач має бути своєрідним зворотним зв'язком, з кожним кроком зменшуючи невідповідність між потрібною інформацією і тим, що видає пошукова система.
Розглянемо невеликий приклад - необхідно знайти розклад потягів що проходять через Київ. Як загальний запит можна так і спробувати "запитати" пошукову систему: розклад всіх потягів що проходять через київ. Проте, по такому запиту, наприклад, Яндекс, знаходить лише розклади потягів, що проходять через Львів, Тернопіль, але Києва серед результатів пошуку не видно. Це у жодному випадку не означає, що цієї інформації в базі пошукової системи немає, просто запит був сформульований не дуже вдало.
Річ у тому, що будь-яка пошукова система прагне знайти сторінки, на яких знаходиться максимальна кількість слів з запиту, більш того, якщо ці слова слідують один за одним, то такі сторінки будуть виведені першими. Тобто, наприклад, якщо в тексті сторінки зустрічається фраза розклад всіх потягів, що проходять через Львів, то за відсутності такої ж фрази розклад всіх потягів, що проходять через Київ система визначить, що вони мають 5 загальних слів, тобто з великою ймовірністю сторінка, що містить цю фразу підійде, хоча це і не так. Тому потрібно такий запит скоректувати, прибравши всі слова-паразити і залишивши лише слова, які точно характеризують вашу потребу. Словами-паразитами є слова всіх, що проходять, через, які можуть зустрічатися на яких завгодно сторінках. Задавши скорегований запит розклад потягів київ, результат буде кращим.
Саме так зараз врешті-решт поступають переважна більшість користувачів, проте, для того, щоб навчитися швидко і ефективно знаходити потрібну інформацію, просто скоректувати запит в більшості випадків недостатньо. Необхідно ще ознайомитися з декількома дуже корисними, а іноді просто незамінними операторами мови запитів пошукової системи. Ці оператори не тільки істотно полегшать роботу, але і допоможуть знаходити таку інформацію, яку за допомогою простих запитів знайти абсолютно неможливо.
Список використаних джерел
1. Англо-український тлумачний словник з обчислювальної техніки, Інтернету, програмування. - К.: СофтПрес, 2006. - 823 с.
2. Бэлза М. И. К вопросу о некоторых особенностях семантической структуры связных текстов. // Семантические проблемы автоматизации информационного поиска. К. 1971, стр. 58-73.
3. Григорьев А.Н., Ландэ Д.В. Адаптивный интерфейс уточнения запросов к системе контент-мониторинга InfoStream//Труды Международного семинара "Диалог'2005". - 2005. - С. 109-111.
4. Дубинский А. Г. Модель мультиагентной системы информационного поиска в глобальной сети // "Искусственный интеллект", №2/99 специальный выпуск, Донецк, ДГИИИ, 1999, стр. 271-279.
5. Дубинский А. Г. Факторы, влияющие на качество информационного поиска //Системный аналіз та інформаційні технології: Зб. тез доп. Міжн. наук.-практ. конф. студ., аспірантів та молод. вчених. - К.: НТУУ "КПІ", 2001. - Ч.2. - С. 43-48.
6. Задорожна Н.Т. Підходи до створення та підтримки порталів //Проблеми програмування: Матеріали П'ятої Міжнар. наук.-практ. конф. з програмування УкрПРОГ'2006, 23-25 трав. 2006 р. / НАН України, Інститут програмних систем. - К., 2006. - №2-3. - С. 569-579.
7. И.В. Успенский ИНТЕРНЕТ-МАРКЕТИНГ Учебник.- СПб.: Изд-во СПГУЭиФ, 2003.
8. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа. - М.: "Вильямс", 2005. - 272 с.
9. Ситник В.Ф., Писаревська Т.А., Єрьоміна Н.В., Краєва О.С. Основи інформаційних систем. Навчальний посібник. Київ: КНЕУ, 2001, 420 с.
10. Современные информационные потоки: Актуальная проблематика / Брайчевский С.М., Ландэ Д.В. // "Научно-техническая информация", серия 1, № 11. - 2005. - С. 21-33.
11. Яковлєва Ю. В. Методика ранжирування результатів пошуку в інформаційно-пошукових системах бібліотек // Реєстрація, зберігання і обробка даних. - К., 2004. - Т. 6, № 3. - С. 66-73.
Подобные документы
Аналіз властивостей безкоштовних пошукових та поштових серверів Інтернету. Огляд методики ранжирування результатів пошуку в інформаційно-пошукових системах бібліотек. Вивчення можливостей пошукової системи "Мета", пошуку по реєстру українських сайтів.
курсовая работа [142,9 K], добавлен 17.11.2011Методи результативного пошуку інформації в Інтернеті. Уявлення про пошукові служби, їх призначення та структура. Основні типи пошукових служб: пошукові каталоги, рейтингові системи, індексні бази даних. Спрямованість тематики і широта охоплення ресурсів.
реферат [33,5 K], добавлен 23.04.2010Принципи та особливості роботи пошукових роботів. Аналіз відмінностей каталогів від пошукових систем. Шляхи та параметри оцінювання обсягів індексації сучасних пошукових систем. Загальні рекомендації щодо додавання сайту до пошукової системи чи каталогу.
реферат [101,3 K], добавлен 18.11.2010Використання автоматичних систем інформаційного пошуку для зменшення "інформаційного перевантаження". Методи організації пошуку: атрибутивний, повнотекстовий і вибірка видань. Тематичні каталоги та пошукові машини. Системи Yandex, Rambler та Google.
реферат [333,0 K], добавлен 18.05.2011Історія розвитку і створення Інтернет. Протоколи передачі даних. Способи організації пошуку інформації Інтернет. Пошукові системи та сервіси: Яндекс, Google, шукалка. Послідовність виконання пошуку необхідної інормації за допомогою браузера Mozilla.
дипломная работа [4,9 M], добавлен 22.07.2015Копіювання або переміщення файлів через буфер обміну або за допомогою правої кнопки миші. Копіювання та переміщення файлів методом перетаскування. Пошукові мережеві системи. Організація пошуку інформації в мережі Iнтернет. Класифікація пошукових систем.
контрольная работа [855,1 K], добавлен 29.01.2010Технологія пошуку інформації в мережі Інтернет. Можливості спеціальних служб, індексів. Інформаційні ресурси у каталогах. Системи мета-пошуку, пошуку в конференціях Usenet, пошуку людей. Знаходження інформації із застосуванням серверів глобального пошуку.
реферат [38,8 K], добавлен 20.05.2011Основні поняття та принципи всесвітньої павутини, пошукові машини в Інтернеті. Гарантування збереження значних обсягів інформації та надання доступу до неї користувачеві або прикладній програмі. Здійснення індексації сайтів в пошукових системах.
реферат [17,0 K], добавлен 20.12.2010Національні інформаційні ресурси України, моніторинг згадувань об’єктів, подій у мережі Інтернет. Експертне оцінювання характеристик інформаційно-пошукових систем мережі Інтернет. Організаційне середовище та структура інформаційних потоків організації.
курс лекций [936,5 K], добавлен 12.11.2010Установки протоколів TCP/IP. Налаштування поштової програми MS Outlook Express. Класифікація пошукових систем та принципи їх роботи. Створення електронних документів в WWW для публікації в мережі Інтернет на мові HTML. Основи впровадження JavaScript.
лабораторная работа [259,9 K], добавлен 06.11.2011