Care motor de căutare a apărut primul? Motoarele de căutare rusești. Cei din umbră

Pe vremea când dezvoltarea Internetului abia începea, cantitatea de informații disponibile era relativ mică și utilizatorii de internet erau puțini. În fazele inițiale ale dezvoltării rețelei, aceasta a fost folosită de angajații universităților și laboratoarelor de cercetare pentru a face schimb de informații între instituții. La acea vreme, căutarea de informații pe internet nu era relevantă, spre deosebire de astăzi.

Prima modalitate de organizare și sistematizare a accesului la resursele informaționale a fost crearea directoarelor site-urilor web. Au început să grupeze legăturile în funcție de subiecte specifice.

Pionierul în zonă a fost Yahoo, care a apărut în aprilie 1994. De-a lungul timpului, numărul de site-uri a crescut și Yahoo a adăugat o opțiune de căutare în director. Nu a fost un motor de căutare în sensul cel mai adevărat, deoarece domeniul de căutare era limitat la resursele directoarelor.

Ulterior, cataloagele s-au răspândit și au început să fie folosite peste tot, dar internetul nu a stat pe loc, ci a continuat să se dezvolte. Odată cu acesta s-au dezvoltat și metode de căutare. În acest moment, directoarele aproape și-au pierdut din popularitate, acest lucru se explică prin faptul că un director modern, chiar dacă conține o cantitate uriașă de resurse, poate oferi acces doar la o mică parte din informațiile conținute în rețea.

În zilele noastre, cel mai mare director de pe web este Open Directory Project, sau DMOZ, care conține informații despre 5 milioane de resurse, dar acesta este relativ mic în comparație, de exemplu, cu motorul de căutare Google, care conține aproximativ 8 miliarde de documente.

Un sistem de căutare cu drepturi depline a fost lansat abia în 1994, a devenit sistemul de căutare WebCrawler.

Un an mai târziu, în 1995, au apărut proiectele de motoare de căutare AltaVista și Lycos. Unul dintre ei, AltaVista, în special, a deținut o poziție de lider în domeniul căutării timp de mulți ani.

Doi ani mai târziu, în 1997, studenții de la Universitatea Stanford, Sergey Brin și Larry Page, au dezvoltat motorul de căutare Google, care este liderul în căutarea astăzi.

Anul acesta a fost și anul în care a fost anunțată oficial crearea motorului de căutare rus Yandex, care este în continuare lider în segmentul în limba rusă al rețelei.

În momentul de față, există doar 3 motoare de căutare care au ajuns la nivel internațional: MSN Search, Yahoo și Google. Aceste sisteme au propriile baze de date și algoritmi de căutare. Majoritatea celorlalte motoare de căutare își folosesc rezultatele. Deci Mail.ru folosește baza de date Yandex, search.aol.com folosește Google, iar Lycos, AltaVista și AllTheWeb folosesc Yahoo.

Liderul de căutare pe internetul rus în acest moment este Yandex, urmat de Rambler, urmat de Google, Mail.ru, A port și KM.ru.

Motoarele de căutare au diferiți algoritmi de operare, iar pentru a ocupa o poziție bună în rezultatele căutării și pentru a atrage vizitatori vizați, trebuie să cunoașteți caracteristicile optimizării SEO pentru diferite motoare de căutare. De exemplu

În primii ani ai dezvoltării comunității internetului, utilizatorii activi de internet erau o minoritate, iar cantitatea de informații despre resursele internetului era relativ mică. În cea mai mare parte, doar angajații laboratoarelor științifice și ai marilor instituții de învățământ aveau acces la rețeaua globală de informații. În general, utilizarea unei resurse de rețea nu a fost la fel de relevantă ca astăzi.

Istoria dezvoltării motoarelor de căutare

Un mare pas spre răspândirea internetului în masă a fost apariția în 1990 a site-ului web info.centr.ch. Acest site a fost primul director accesibil public de site-uri de internet. Creatorul este savantul britanic Tim Berners-Lee, care este considerat și creatorul URI, HTTP, World Wide Web și URL. Din acel moment, site-urile de internet au devenit relevante nu numai în cercurile specializate de utilizatori, ci și în rândul proprietarilor obișnuiți de computere de acasă. În acest catalog, pentru comoditate, resursele informaționale au fost aranjate pe grupuri pe teme similare, ceea ce a facilitat foarte mult căutarea informațiilor.

Dar progresul nu s-a oprit aici și, în 1994, s-a născut o tehnologie de căutare dezvoltată de Universitatea Carnegie, cunoscută sub numele de Lucos. Acest director, care a fost creat de Michael Maldin, a început cu o resursă de peste 50.000 de documente. În Lucos, interogările au luat în considerare potrivirile aproximative ale interogării, iar rezultatul căutării a fost clasat în funcție de potrivirea dintre informațiile de intrare și de ieșire. Și, de asemenea, resursa a fost actualizată constant cu noi pagini de internet. În noiembrie, Lucos avea deja peste 55 de milioane de pagini și documente, mult mai mult decât orice catalog de documente la acea vreme.

La sfârșitul anului 1994 a apărut resursa Infosek. A avut o serie de avantaje în raport cu alte resurse. De exemplu, adăugarea site-urilor de către un utilizator la o bază de date de directoare în timp real.

Noul monstru din industria motoarelor de căutare în 1995 a fost AltaVista. Ea a câștigat rapid popularitate în rândul utilizatorilor de internet și a ocupat o poziție de lider în domeniul său. Caracteristica sa principală a fost capacitatea de a formula interogări într-un limbaj natural, colocvial, iar utilizatorilor li s-a permis, de asemenea, să adauge propriile adrese URL. Dar totuși, principalul merit al AltaVista a fost suportul pentru pachete de limbi multiple, cum ar fi coreeană, japoneză și chineză, precum și rusă.

Un pas uriaș în tehnologia de căutare a fost apariția pe Internet a unui nou motor de căutare, al cărui nume este acum bine cunoscut fiecărui utilizator, și anume Google. În 1997, L. Page și S. Brin de la Universitatea Stanford au introdus noi caracteristici în algoritmii de căutare ai creierului lor. Căutarea a folosit sisteme de relevanță a rezultatelor căutării produse de sistem, iar la efectuarea unei solicitări s-a luat în considerare morfologia și eventualele erori de ortografie.

În prezent, există trei lideri principali pe piața motoarelor de căutare - Bing, Google și Yahoo. Au la dispoziție algoritmi de căutare și baze de date de producție proprie. Multe motoare de căutare, dintre care există multe, folosesc evoluțiile acestor trei titani printre motoarele de căutare.

Datorită motoarelor de căutare, omul obișnuit a devenit mai ușor să descopere vastele întinderi ale câmpului informațional. Fără dezvoltarea lor, este imposibil să se îmbunătățească modalitățile de schimb de informații între oameni.

Care motor de căutare a fost primul în RuNet? Yandex, Aport sau Rambler?

Primele motoare de căutare ale lui Runet (dintre care, potrivit unuia dintre fondatorii Rambler, erau 2 sau 3) s-au scufundat foarte repede în uitare. Printre acestea s-au numărat extensii morfologice ale sistemului AltaVista, care nu ne-au lăsat numele lor. Prin urmare, va trebui să alegem dintre cei care rămân:

Hoinar

Crearea Rambler a început în 1996, când existau doar câteva zeci de site-uri în segmentul rus al internetului. Dezvoltarea a fost finalizată până în toamna acelui an. Domeniul rambler.ru a fost înregistrat pe 26 septembrie, iar 8 octombrie 1996, de ziua unuia dintre creatori, Rambler a fost deschis utilizatorilor.

Rambler - primul motor de căutare din Runet dintre cele existente în prezent.

Motorul de căutare Aport a fost dezvoltat până în februarie 1996, dar la acel moment căuta doar pe site-ul russia.agama.com. Treptat numarul site-urilor a crescut si spre deschiderea oficiala 11 noiembrie 1997 anul, „Aport” a fost deja căutat pe 10.000 de site-uri. Astfel, „Aport” a fost unul dintre primele motoare de căutare de pe RuNet, dar din cauza intervalului limitat de căutare nu poate fi considerat cel mai vechi.

Yandex

CompTek, compania care a dezvoltat Yandex, a fost fondată în 1989. În 1993, CompTek a dezvoltat Yandex, un program de căutare pe hard disk. În 1996, programul a adăugat posibilitatea de a căuta pe Web. În 1997, a fost scris primul robot de căutare, a fost indexat Runetul și 23 septembrie 1997 A avut loc prezentarea oficială a Yandex.

Yandex de la CompTek nu este cel mai vechi, dar tehnologiile lor de căutare și cercetarea în lingvistică și morfologie sunt cele mai vechi din Rusia.








Popularitatea motoarelor de căutare în Rusia, Ucraina și în lume. Istoria dezvoltării motoarelor de căutare. Rambler și Aport sunt dinozauri dispăruți.
Întotdeauna am susținut și voi continua să susțin că un specialist îngust, care nu este interesat de nimic altceva decât detalii pur practice, nu va putea atinge adevărate înălțimi în profesia sa. O astfel de persoană nu devine „îngustă”, ci „îngustă la minte” :-) Prin urmare, să ne uităm la istoria dezvoltării motoarelor de căutare, precum și la ce cotă de piață ocupă în prezent fiecare motor de căutare. Popularitatea motoarelor de căutare în Rusia și Ucraina este un moment foarte important pentru promovare.

Istoria dezvoltării motoarelor de căutare . În anii 90, când internetul abia începea să intre în uz, motoarele de căutare în sensul modern al cuvântului nu existau. Căutarea resursei necesare s-a desfășurat prin directoare de site-uri web, unde proiectele pe Internet disponibile la acea vreme erau organizate pe rubrici. Deoarece erau puțini utilizatori în rețea și puține site-uri web, această metodă de structurare a datelor a fost destul de convenabilă și adecvată.

Primul motor de căutare cu drepturi depline a fost proiectul WebCrawler. Diferența fundamentală față de predecesorii săi a fost că acest motor de căutare a efectuat așa-numitul. căutarea textului integral. Acestea. a căutat nu numai local într-un anume director, nu doar după metaeticheta Cuvinte cheie, ci a analizat textul integral al paginii web, ceea ce a făcut posibilă găsirea cu succes a oricăror fraze (și nu doar pe cele pe care webmasterul le-a indicat în descrierea site-ului său). ca cele cheie).

Personal, numele WebCrawler nu înseamnă nimic pentru mine - este prea departe în trecut, în Rusia la acea vreme nu toată lumea auzise cuvântul Internet :-) Dar Lycos, care a apărut în 1996, este deja binecunoscut printre bătrâni. webmasteri, cel puțin acesta este numele familiar multora. La scurt timp după ce a fost lansat Lykos, cel mai bun motor de căutare al timpului său, AltaVista, probabil că ați auzit acest nume. Până în anul 2000, AltaVista a rămas cel mai important motor de căutare din lume.

Google a fost fondat în 1998. Dezvoltatorii săi, Sergey Brin și Larry Page, au revoluționat calitatea căutării prin dezvoltarea algoritmului PageRank, care permite luarea în considerare a „greutății” unei pagini, în funcție de numărul de link-uri către aceasta. Acest lucru a îmbunătățit calitatea căutării atât de radical, încât Google a început să câștige rapid o audiență și, în câțiva ani, a devenit motorul de căutare lider din lume, ceea ce rămâne până în prezent. Îmi amintesc, în jurul anului 2000, la institut am urmărit o ceartă între doi studenți din grupa noastră despre cât de nasol e Altavista, dar Google caută mai bine :-)

Motorul de căutare Aport . Dezvoltarea companiei Agama, lansată în 1996. Un proiect care timp de câțiva ani a rămas principalul motor de căutare pe Runet. Pe măsură ce scriu asta, încep să mă simt foarte străvechi :-) La urma urmei, cândva, ca studenți, era Aportul pe care îl căutăm. Nu existau alte alternative, și nu era nevoie de ele, pentru că Aport și-a făcut treaba perfect.


Un început excelent, însă, nu a asigurat o dezvoltare la fel de excelentă în viitor. Aportul a fost o bucată atât de gustoasă încât și-a schimbat de mai multe ori proprietarii, vânzându-se de fiecare dată pentru tot mai mult. Acesta este ceea ce, se pare, l-a distrus. „Managementul și marketingul eficient” au apărut în prim-plan, dar suportul tehnic a fost pur și simplu neglijat. După aceasta, utilizatorii Runet au întors spatele lui Aport - din fericire, celelalte două motoare de căutare principale - Rambler și Yandex - se luptau activ pentru un loc la soare.

Nu-mi amintesc datele exacte, dar mai întâi Aport a abandonat propriii algoritmi de clasare, începând să folosească datele Yandex, iar în urmă cu câțiva ani a încetat complet să mai existe ca motor de căutare. Acum pe celebrul domeniu există un magazin online, și nu de cea mai bună calitate.

Eh... dar cândva Aport avea și propriul catalog, în care webmasterii au căutat să intre cu aproape aceeași forță ca acum în Yandex. Apropo, primul design pentru Aport a fost dezvoltat de Artemy Lebedev... aproape simultan cu designul pentru Yandex.

Motor de căutare Rambler . Rambler a fost lansat în 1996 și a rămas unul dintre principalii jucători de pe piață timp de aproape un deceniu. Spre deosebire de Aport, care a „căzut” foarte, foarte repede, Rambler a alunecat la „situația fără adăpost” actuală încet și cu rezistență.


Aproape până în ultimul moment, Rambler a continuat să opereze motorul său de căutare, care, de altfel, a produs o calitate bună. Gândiți-vă doar - timp de mulți ani, Rambler a fost al doilea motor de căutare al Runetului, iar al treilea nu a fost Aportul pe jumătate mort, ci puternicul Google!

Cu toate acestea, cota de piață a lui Rambler a scăzut și a scăzut, iar în 2011 a fost cumpărată de Yandex și a început să producă rezultate identice cu cele ale Yandex. Astfel s-a încheiat povestea lui Rambler, cândva cel mai puternic motor de căutare rus.

Motoarele de căutare Google și Yandex . În prezent, au mai rămas în esență doar două motoare de căutare relevante - Yandex și Google. Toate tipurile de Lukos și Altavists au fost de mult uitate și nu funcționează ca servicii de căutare. Rambler a fost achiziționat de Yandex și acum arată rezultatele acestuia din urmă. Portul s-a transformat într-un magazin online. Yahoo și Bing, motorul de căutare Microsoft, dețin o cotă de piață foarte mică. În Rusia, pe lângă Yandex și Google, există și Mail.ru, dar nu are propriul motor de căutare, ci folosește rezultatele căutării de la Google, făcându-le doar ajustări minore.

Popularitatea motoarelor de căutare în Rusia, Ucraina și în lume . În prezent, piața de căutare din Rusia este împărțită aproximativ după cum urmează:

Yandex – 63%
Google – 26%
Mail.ru – 8%
Rambler – 1,5%
Bing – 0,6%

În Ucraina, raportul este semnificativ diferit, Yandex rămâne cu mult în urma principalului său concurent, dar își crește încet cota de piață:

Google – 60%
Yandex – 29%
Mail.ru – 6%

În căutarea globală există un singur lider, absolut și necondiționat - Google.

Apropo, tu și cu mine putem simți o mândrie binemeritată în țara noastră - doar Rusia și China și-au creat propriile sisteme de căutare. Motoarele de căutare de înaltă calitate nu au apărut nicăieri în lume. În țările europene - Franța, Germania și altele - Google este folosit de până la 97-99% dintre utilizatori, adică. în esență nu există alternativă.

Există și un aspect practic în acest sens - un webmaster rus are șanse mai mari să atragă vizitatori din căutare. Se întâmplă adesea ca Yandex să „iubească” un site, dar Google nu, sau invers. Dar, în ambele cazuri, site-ul are clienți. Colegii noștri occidentali folosesc principiul „totul sau nimic”.

Există un al doilea punct - promovarea în Google și Yandex diferă într-o anumită măsură, iar dorința de a ajunge în vârful ambilor lideri își lasă amprenta pe modelul de promovare a site-ului.

Cartea mea a fost publicată pe hârtie. Dacă acest tutorial s-a dovedit a fi util pentru tine, atunci îmi poți mulțumi nu numai moral, ci și în moduri destul de tangibile.
Pentru a face acest lucru trebuie să mergeți la

Arhitectura motorului de căutare include de obicei:

YouTube enciclopedic

    1 / 5

    ✪ Lecția 3: Cum funcționează un motor de căutare. Introducere în SEO

    ✪ Motor de căutare din interior

    ✪ Shodan - Google negru

    ✪ Motorul de căutare CHEBURASHKA va înlocui Google și Yandex în Rusia

    ✪ Lecția 1 - Cum funcționează un motor de căutare

    Subtitrări

Poveste

Cronologie
An Sistem Eveniment
1993 W3Catalog?! Lansa
Aliweb Lansa
JumpStation Lansa
1994 WebCrawler Lansa
Infoseek Lansa
Lycos Lansa
1995 AltaVista Lansa
Daum Baza
Deschideți text Index web Lansa
Magellan Lansa
Excita Lansa
SAPO Lansa
Yahoo! Lansa
1996 Dogpile Lansa
Inktomi Baza
Hoinar Baza
HotBot Baza
Întreabă-l pe Jeeves Baza
1997 Lumina Nordului Lansa
Yandex Lansa
1998 Google Lansa
1999 AlltheWeb Lansa
Genie Knows Baza
Naver Lansa
Teoma Baza
Vivisimo Baza
2000 Baidu Baza
Exalead Baza
2003 Info.com Lansa
2004 Yahoo!  Căutare
Lansare finală Lansa
A9.com Lansa
2005 Sogou Căutare
Căutare MSN  Lansa
Ask.com Lansa
Nygma Lansa
GoodSearch Baza
2006 Cauta-ma Baza
wikiseek Baza
Quaero Lansa
Cautare in timp real ChaCha
Lansare (beta) ChaCha
2007 Guruji.com Lansa
wikiseek Lansa
Sproose Lansa
Wikia Căutare Lansa
2008 Blackle.com Lansa
DuckDuckGo Lansa
Tooby Lansa
Picolator Lansa
Viewzi Lansa
Cuil Lansa
Boogami ChaCha
LeapFish Lansa
Forestle Lansa
VADLO Lansa
2009 Powerset Lansa
Bing Lansa
KAZ.KZ ChaCha
Yebol Mugurdy
Închidere Lansa
2010 Viewzi Mugurdy
cercetaș ChaCha
Blekko Mugurdy
2012 Viewzi Lansa
2014 WAZZUB ChaCha

Satelit

La începutul dezvoltării internetului, Tim Berners-Lee a menținut o listă de servere web găzduite pe site-ul CERN. Au existat tot mai multe site-uri, iar menținerea manuală a unei astfel de liste a devenit din ce în ce mai dificilă. Site-ul web NCSA avea o secțiune specială „Ce este nou!” (Engleză: Ce este nou!), unde au publicat link-uri către site-uri noi. Primul program de calculator pentru căutarea pe Internet a fost programul Archie

(Arhie engleză - arhivă fără litera „c”). A fost creat în 1990 de Alan Emtage, Bill Heelan și J. Peter Deutsch, studenți la informatică la Universitatea McGill din Montreal. Programul a descărcat liste cu toate fișierele de pe toate serverele FTP anonime disponibile și a construit o bază de date care putea fi căutată după numele fișierelor. Cu toate acestea, programul lui Archie nu a indexat conținutul acestor fișiere, deoarece cantitatea de date era atât de mică încât totul putea fi găsit cu ușurință manual. Dezvoltarea și răspândirea protocolului de rețea Gopher, inventat în 1991 de Mark McCahill la Universitatea din Minnesota, a condus la crearea a două noi programe de căutare,și Jughead. La fel ca Archie, au căutat nume de fișiere și anteturi stocate în sistemele de index Gopher. Veronica (engleză) Foarte ușor, orientat spre rozătoare, index la nivelul rețelei la arhivele computerizate) au permis căutări de cuvinte cheie pentru majoritatea titlurilor de meniu Gopher în toate înregistrările Gopher. Programul Jughead Excavarea și afișarea ierarhiei universale a lui Jonzy) a preluat informații despre meniu de la anumite servere Gopher. Deși numele motorului de căutare Archie nu avea legătură cu seria de benzi desenate "Archie", cu toate acestea, Veronica și Jughead sunt personaje din aceste benzi desenate.

Până în vara anului 1993, nu exista încă un singur sistem de căutare pe Internet, deși numeroase directoare specializate au fost întreținute manual. Oscar Nierstrasz de la Universitatea din Geneva a scris o serie de scripturi Perl care copiau periodic aceste pagini și le rescriu într-un format standard. Aceasta a devenit baza pentru W3Catalog?!, primul motor de căutare primitiv de pe web, lansat pe 2 septembrie 1993.

Probabil că primul web crawler scris în Perl a fost botul „World Wide Web Wanderer” de Matthew Gray în iunie 1993. Acest robot a creat indexul de căutare „Wandex”. Scopul lui Wanderer a fost să măsoare dimensiunea World Wide Web și să găsească toate paginile web care conțin cuvintele din interogare. În 1993, a apărut al doilea motor de căutare „Aliweb”. Aliweb nu a folosit un crawler, ci în schimb se aștepta la notificări de la administratorii site-urilor web despre prezența unui fișier index într-un anumit format pe site-urile lor.

JumpStation, creat în decembrie 1993 de Jonathan Fletcher, a căutat și indexat pagini web folosind un crawler web și a folosit un formular web ca interfață pentru formularea interogărilor de căutare. A fost primul instrument de căutare pe Internet care a combinat cele mai importante trei funcții ale unui motor de căutare (verificare, indexare și căutare în sine). Datorită resurselor informatice limitate ale vremii, indexarea și, prin urmare, căutarea a fost limitată doar la titlurile și titlurile paginilor web găsite de crawler.

Motoarele de căutare au participat la „Dotcom Bubble” de la sfârșitul anilor 1990. Mai multe companii au ajuns pe piață într-un mod spectaculos, generând profituri record în timpul ofertelor publice inițiale. Unii au abandonat piața motoarelor de căutare publice și au început să lucreze doar cu sectorul corporativ, de ex. Lumina Nordului.

Google a adoptat ideea de a vinde cuvinte cheie în 1998, apoi a fost o companie mică care a furnizat un motor de căutare la goto.com. Mișcarea a marcat o schimbare pentru motoarele de căutare de la concurența între ele la a deveni una dintre cele mai profitabile întreprinderi de afaceri de pe Internet. Motoarele de căutare au început să vândă companiile individuale primele locuri în rezultatele căutării.

Motorul de căutare Google a fost proeminent de la începutul anilor 2000. Compania a atins o poziție înaltă datorită rezultatelor bune de căutare folosind algoritmul PageRank. Algoritmul a fost prezentat publicului în articolul „The Anatomy of Search Engine”, scris de Sergey Brin și Larry Page, fondatorii Google. Acest algoritm iterativ clasifică paginile web pe baza unei estimări a numărului de hyperlinkuri către o pagină web, sub ipoteza că paginile „bune” și „importante” au mai multe link-uri decât altele. Interfața Google este concepută într-un stil spartan, unde nu este nimic de prisos, spre deosebire de mulți dintre concurenții săi care au integrat motorul de căutare în portalul web. Motorul de căutare Google a devenit atât de popular încât au apărut sisteme care imita, de exemplu, Căutător de mistere(motor de căutare secret).

Căutând informații în rusă

În 1996, a fost implementată o căutare ținând cont de morfologia rusă pe motorul de căutare Altavista și au fost lansate motoarele de căutare originale rusești Rambler și Aport. La 23 septembrie 1997, motorul de căutare Yandex a fost deschis. Pe 22 mai 2014, Rostelecom a deschis motorul național de căutare Sputnik, care la momentul anului 2015 se află în testare beta. Pe 22 aprilie 2015 a fost lansat un nou serviciu Sputnik. 

Copii în special pentru copii cu siguranță sporită. Metodele de analiză a clusterelor și căutarea metadatelor au devenit foarte populare. Dintre mașinile internaționale de acest tip, cea mai cunoscută este„Clusty” Vivisimo companiilor

. În 2005, în Rusia, cu sprijinul Universității de Stat din Moscova, a fost lansat motorul de căutare Nigma, care acceptă gruparea automată. În 2006, s-a deschis metamașina rusă Quintura, oferind grupare vizuală sub forma unui nor de etichete. Nygma a experimentat și gruparea vizuală.

Cum funcționează un motor de căutare?

De obicei, sistemele funcționează în etape. În primul rând, crawler-ul preia conținutul, apoi indexerul generează un index care poate fi căutat și, în sfârșit, motorul de căutare oferă funcționalitatea de a căuta datele indexate. Pentru a actualiza motorul de căutare, acest ciclu de indexare se repetă.

Motoarele de căutare funcționează prin stocarea informațiilor despre multe pagini web, pe care le preiau din paginile HTML. Un robot de căutare sau „crawler” (ing. Crawler) este un program care parcurge automat toate linkurile găsite pe pagină și le evidențiază. Crawler-ul, pe baza link-urilor sau pe baza unei liste predefinite de adrese, caută noi documente necunoscute încă de motorul de căutare. Proprietarul site-ului poate exclude anumite pagini folosind robots.txt, care poate fi folosit pentru a preveni indexarea fișierelor, paginilor sau directoarelor de pe site.

Motorul de căutare analizează conținutul fiecărei pagini pentru o indexare ulterioară. Cuvintele pot fi extrase din titluri, textul paginii sau câmpuri speciale - metaetichete. Un indexator este un modul care analizează o pagină, împărțind-o anterior în părți, folosind proprii algoritmi lexicali și morfologici. Toate elementele unei pagini web sunt izolate și analizate separat. Datele paginilor web sunt stocate într-o bază de date index pentru a fi utilizate în interogările ulterioare. Indexul vă permite să găsiți rapid informații pe baza solicitării unui utilizator. O serie de motoare de căutare, precum Google, stochează întreaga pagină originală sau o parte a acesteia, așa-numita cache, precum și diverse informații despre pagina web. Alte sisteme, cum ar fi AltaVista, stochează fiecare cuvânt din fiecare pagină găsită. Utilizarea unui cache ajută la accelerarea regăsirii informațiilor din paginile deja vizitate. Paginile memorate în cache conțin întotdeauna textul specificat de utilizator în interogarea de căutare. Acest lucru poate fi util în cazul în care pagina web a fost actualizată, adică nu mai conține textul solicitării utilizatorului, iar pagina din cache este încă veche. Această situație este legată de pierderea legăturilor. linkrot) și abordarea Google ușor de utilizat (utilizabilitate). Aceasta implică returnarea fragmentelor de text scurte din memoria cache care conține textul solicitării. Se aplică principiul celei mai mici surprize, de obicei, utilizatorul se așteaptă să vadă cuvintele căutate în textele paginilor primite ( Așteptările utilizatorilor). Pe lângă faptul că utilizarea paginilor din cache accelerează căutările, paginile din cache pot conține informații care nu mai sunt disponibile în altă parte.

Motorul de căutare funcționează cu fișierele de ieșire primite de la indexator. Motorul de căutare acceptă interogările utilizatorilor, le procesează folosind un index și returnează rezultatele căutării.

Când un utilizator introduce o interogare într-un motor de căutare (de obicei folosind cuvinte cheie), sistemul își verifică indexul și returnează o listă cu cele mai relevante pagini web (sortate după un anumit criteriu), de obicei cu un scurt rezumat care conține titlul documentului și uneori părți ale textului. Indexul de căutare este construit folosind o tehnică specială bazată pe informații extrase din paginile web. Din 2007, motorul de căutare Google vă permite să căutați în funcție de timp, creând documentele pe care le căutați (apelând meniul „Instrumente de căutare” și specificând intervalul de timp). Majoritatea motoarelor de căutare acceptă utilizarea operatorilor booleeni ȘI, SAU, NU în interogări, ceea ce vă permite să rafinați sau să extindeți lista de cuvinte cheie căutate. În acest caz, sistemul va căuta cuvinte sau expresii exact așa cum au fost introduse. Unele motoare de căutare au opțiunea căutare aproximativă, în acest caz, utilizatorii își extind căutarea specificând distanța până la cuvintele cheie. Există, de asemenea căutare conceptuală, care utilizează analiza statistică a utilizării cuvintelor și expresiilor căutate în textele paginilor web. Aceste sisteme permit ca interogările să fie scrise în limbaj natural. Un exemplu de astfel de motor de căutare este site-ul ask com.

Utilitatea unui motor de căutare depinde de relevanța paginilor pe care le găsește. În timp ce milioane de pagini web pot include un anumit cuvânt sau o expresie, unele pot fi mai relevante, populare sau mai autorizate decât altele. Majoritatea motoarelor de căutare folosesc metode de clasare pentru a aduce cele mai „mai bune” rezultate în fruntea listei. Motoarele de căutare decid ce pagini sunt mai relevante și în ce ordine ar trebui afișate rezultatele în moduri diferite. Metodele de căutare, precum Internetul însuși, se schimbă în timp. Așa au apărut două tipuri principale de motoare de căutare: sisteme de cuvinte cheie predefinite și ordonate ierarhic și sisteme în care se generează un index inversat pe baza analizei textului.

Majoritatea motoarelor de căutare sunt întreprinderi comerciale care obțin profit prin publicitate, în unele motoare de căutare, puteți cumpăra primele locuri în rezultatele căutării pentru anumite cuvinte cheie contra cost. Acele motoare de căutare care nu percep bani pentru ordinea de eliberare a rezultatelor fac bani din publicitate contextuală, în timp ce mesajele publicitare corespund solicitării utilizatorului. O astfel de publicitate este afișată pe o pagină cu o listă de rezultate de căutare, iar motoarele de căutare câștigă bani de fiecare dată când un utilizator dă clic pe mesaje publicitare.

Tipuri de motoare de căutare

Există patru tipuri de motoare de căutare: robotizate, propulsate de oameni, hibride și meta.

  • sisteme care utilizează roboți de căutare
Acestea constau din trei părți: un crawler („bot”, „robot” sau „păianjen”), un index și un software pentru motorul de căutare. Este necesar un crawler pentru a accesa cu crawlere web și pentru a crea liste de pagini web. Un index este o arhivă mare de copii ale paginilor web. Scopul software-ului este de a evalua rezultatele căutării. Datorită faptului că robotul de căutare în acest mecanism explorează în mod constant rețeaua, informațiile sunt mai relevante. Majoritatea motoarelor de căutare moderne sunt sisteme de acest tip.
  • sisteme gestionate de oameni (directoare de resurse)
Aceste motoare de căutare preiau liste de pagini web. Directorul conține adresa, titlul și o scurtă descriere a site-ului. Directorul de resurse caută doar rezultate din descrierile paginilor trimise acestuia de webmasteri. Avantajul cataloagelor este că toate resursele sunt verificate manual, prin urmare, calitatea conținutului va fi mai bună în comparație cu rezultatele obținute automat de primul tip de sistem. Dar există și un dezavantaj - actualizarea datelor de catalog se face manual și poate rămâne semnificativ în urma situației reale. Clasamentul paginilor nu se poate schimba instantaneu. Exemple de astfel de sisteme includ directorul Yahoo, dmoz și Galaxy.
  • sisteme hibride
Motoarele de căutare precum Yahoo, Google, MSN combină funcțiile sistemelor folosind roboți de căutare și sisteme operate de oameni.
  • meta-sisteme
Motoarele de metacăutare combină și clasifică rezultatele mai multor motoare de căutare simultan. Aceste motoare de căutare erau utile atunci când fiecare motor de căutare avea un index unic, iar motoarele de căutare erau mai puțin „inteligente”. Deoarece căutarea s-a îmbunătățit atât de mult acum, nevoia de ele a scăzut. Exemple: MetaCrawlerși MSN Search.

Piața motoarelor de căutare

Google este cel mai popular motor de căutare din lume, cu o cotă de piață de 68,69%. Bing ocupă locul al doilea cu o cotă de 12,26%.

Cele mai populare motoare de căutare din lume:

Sistem de căutare Cota de piata in iulie 2014 Cota de piata in octombrie 2014 Cota de piata in septembrie 2015
Google 68,69 % 58,01 % 69,24%
Baidu 17,17 % 29,06 % 6,48%
Powerset 6,22 % 8,01 % 12,26%
Yahoo! 6,74 % 4,01 % 9,19%
AOL 0,13 % 0,21 % 1,11%
Excita 0,22 % 0,00 % 0,00 %
Cere 0,13 % 0,10 % 0,24%

Asia

În țările din Asia de Est și Rusia, Google nu este cel mai popular motor de căutare. În China, de exemplu, este mai popular motorul de căutare Soso?!.

În Coreea de Sud, propriul portal de căutare Naver este folosit de aproximativ 70% din Yahoo! 

Japonia și Yahoo! Taiwan este cel mai popular motor de căutare din Japonia și, respectiv, Taiwan.

Rusia și motoarele de căutare în limba rusă

  • Conform datelor LiveInternet din iunie 2015 privind acoperirea interogărilor de căutare în limba rusă:
    • Toate limbile: Inktomi Yahoo! (0,1%) și motoarele de căutare deținute de această companie: ,AltaVista,
  • Alltheweb
    • vorbitor de engleză și internațional:Întreabă-l pe Jeeves
  • (motor Teoma)

Limbă rusă - majoritatea motoarelor de căutare „în limba rusă” indexează și caută texte în multe limbi - ucraineană, belarusă, engleză, tătără și altele. Ele diferă de sistemele „toate limbi” care indexează toate documentele la rând prin aceea că indexează în principal resursele situate în zonele de domeniu în care domină limba rusă sau, în alte moduri, își limitează roboții la site-uri în limba rusă.

Unele dintre motoarele de căutare folosesc algoritmi de căutare externi.

Date cantitative din motorul de căutare Google

Numărul de utilizatori de internet și motoare de căutare și cerințele utilizatorilor pentru aceste sisteme sunt în continuă creștere. Pentru a crește viteza de căutare a informațiilor necesare, motoarele de căutare mari conțin un număr mare de servere. Serverele sunt de obicei grupate în centre de servere (centre de date). Motoarele de căutare populare au centre de server împrăștiate în întreaga lume.

În octombrie 2012, Google a lansat proiectul „Where the Internet Lives”, unde utilizatorilor li se oferă posibilitatea de a explora centrele de date ale companiei.

  • Motorul de căutare Google știe următoarele despre funcționarea centrelor de date:
  • Capacitatea totală a tuturor centrelor de date Google, începând cu 2011, a fost estimată la 220 MW.
  • Când Google a plănuit să deschidă în 2008 un nou complex în Oregon, format din trei clădiri cu o suprafață totală de 6,5 milioane de metri pătrați, Harper's Magazine a estimat că un complex atât de mare ar consuma mai mult de 100 de megawați de energie electrică, comparabil cu energia. consumul unui oraș cu o populație de 300.000 de oameni.
  • Cheltuielile Google cu centrele de date s-au ridicat la 1,9 miliarde de dolari în 2006 și la 2,4 miliarde de dolari în 2007.

Dimensiunea World Wide Web indexată de Google în decembrie 2014 este de aproximativ 4,36 miliarde de pagini.

Motoare de căutare care țin cont de interdicțiile religioase

Răspândirea globală a internetului și popularitatea tot mai mare a dispozitivelor electronice în lumea arabă și musulmană, în special în țările din Orientul Mijlociu și subcontinentul indian, au contribuit la dezvoltarea motoarelor de căutare locale care țin cont de tradițiile islamice. Astfel de motoare de căutare conțin filtre speciale care ajută utilizatorii să evite vizitarea site-urilor interzise, ​​cum ar fi site-uri cu pornografie, și le permit să utilizeze numai acele site-uri al căror conținut nu contravine credinței islamice. Chiar înainte de luna musulmană Ramadan, în iulie 2013, lumea a fost introdusă Halalgoogling- un sistem care oferă utilizatorilor numai link-uri „corecte” halal, filtrand rezultatele căutării primite de la alte motoare de căutare precum Google și Bing. Cu doi ani mai devreme, în septembrie 2011, motorul de căutare I'mHalal a fost lansat pentru a servi utilizatorilor din Orientul Mijlociu. Cu toate acestea, acest serviciu de căutare a trebuit să fie închis în curând, potrivit proprietarului, din lipsă de finanțare.

Lipsa investițiilor și ritmul lent de difuzare a tehnologiei în lumea musulmană au împiedicat progresul și au împiedicat succesul unui motor de căutare islamic serios. Eșecul investițiilor uriașe în proiecte web de stil de viață musulman, dintre care unul a fost Muxlim. El a strâns milioane de dolari de la investitori precum Rite Internet Ventures, iar acum – conform ultimei postări a lui I'mHalal înainte de a se închide – prezintă ideea dubioasă că „următorul Facebook sau Google ar putea veni doar din Orientul Mijlociu”. susține tineretul nostru strălucit”. Cu toate acestea, experții în internetul islamic au fost în afacere de mulți ani, determinând ce este sau nu conform cu Sharia și clasificând site-urile web drept „halal” sau „haram”. Toate motoarele de căutare islamice din trecut și prezent sunt pur și simplu un set de date indexat special sau sunt motoare de căutare majore, cum ar fi Google, Yahoo și Bing, cu un sistem de filtrare folosit pentru a împiedica utilizatorii să acceseze site-uri haram, cum ar fi site-uri despre nuditate, LGBT, jocurile de noroc și orice alte subiecte care sunt considerate anti-islamice.

Alte motoare de căutare bazate pe credință includ Jewogle, versiunea evreiască a Google și SeekFind.org, un site creștin care include filtre pentru a proteja utilizatorii de conținut care le-ar putea submina sau slăbi credința.

Rezultate personale și bule de filtrare

Multe motoare de căutare, cum ar fi Google și Bing, folosesc algoritmi pentru a ghici selectiv ce informații ar dori să vadă un utilizator pe baza activității sale de navigare anterioare. Ca urmare, site-urile web afișează doar informații care sunt în concordanță cu interesele trecute ale utilizatorului. Acest efect se numește „bulă de filtru”.

Toate acestea duc la faptul că utilizatorii primesc mult mai puține informații care contrazic punctul lor de vedere și devin izolați intelectual în propria „bulă informațională”. Astfel, „efectul bulei” poate avea consecințe negative pentru formarea opiniei civice.

Prejudecata motorului de căutare

Deși motoarele de căutare sunt programate pentru a clasifica site-urile web pe baza unei combinații de popularitate și relevanță, în realitate, cercetările experimentale indică faptul că diverși factori politici, economici și sociali influențează rezultatele căutării.

Această părtinire poate fi un rezultat direct al proceselor economice și comerciale: companiile care fac publicitate pe un motor de căutare pot deveni mai populare în rezultatele căutării organice pe motor. Eliminarea rezultatelor căutării care nu respectă legile locale este un exemplu de influență a proceselor politice. De exemplu, Google nu va afișa unele site-uri web neonaziste în Franța și Germania, unde negarea Holocaustului este ilegală.

Prejudecățile pot fi, de asemenea, o consecință a proceselor sociale, deoarece algoritmii motoarelor de căutare sunt adesea proiectați pentru a exclude punctele de vedere neformatate în favoarea unor rezultate mai „populare”. Algoritmii de indexare ai marilor motoare de cautare dau prioritate site-urilor americane.

Cautarea cu bombă este un exemplu de încercare de a manipula rezultatele căutării din motive politice, sociale sau comerciale.

Vezi si

  • Qwika
  • Bibliotecă electronică #Liste de biblioteci și motoare de căutare
  • Bara de instrumente pentru dezvoltatori web

Note

Literatură

  • Ashmanov I. S., Ivanov A. A. Promovarea site-ului web în motoarele de căutare. - M.: Williams, 2007. - 304 p. - ISBN 978-5-8459-1155-1.
  • Baykov V.D. Internet. Căutați informații. Promovarea site-ului web. - St.Petersburg. : BHV-Petersburg, 2000. - 288 p. - ISBN 5-8206-0095-9.
  • Kolisnichenko D. N. Motoarele de căutare și promovarea site-urilor pe Internet. - M.: Dialectică, 2007. - 272 p. - ISBN 978-5-8459-1269-5.
  • Lande D.V. Căutați cunoștințe pe Internet. - M.: Dialectică, 2005. - 272 p. - ISBN 5-8459-0764-0.
  • Lande D. V., Snarsky A. A., Bezsudnov I. V. Internet: Navigare în rețele complexe: modele și algoritmi. - M.: Librocom (Editorial URSS), 2009. - 264 p. - ISBN 978-5-397-00497-8.
  • Chu H., Rosenthal M.


Articole similare

  • Caserolă de dovlecel la cuptor - rețete delicioase și simple cu fotografii

    Caserola de legume cu dovlecel este un fel de mâncare surprinzător de ușor, dar satisfăcător pentru întreaga familie. Frumusețea aerisită va arăta grozav sub o crustă de brânză și pe o masă festivă. O combinație strălucitoare de cartofi fragezi și roșii va...

  • Galuste de miel Reteta de galuste de miel

    Cele mai delicioase preparate umplute Kostina Daria Galuste de miel Galuste de miel Pentru carne tocata: 400 g carne, 100 g grasime interna, 1 ceapa, 2 catei de usturoi, 1 lingura. lingura de faina, 1/2 cana de apa, sare, negru macinat...

  • Rețetă și tehnologie de preparare a pâinii de marmură

    Coc pâine acasă de aproape 3 ani. Fiul meu este deja atât de obișnuit cu o varietate de pâine de casă, încât refuză categoric să mănânce pâine cumpărată din magazin. Așa că trebuie să căutăm și să inventăm noi tipuri de pâine. Știi, compoziția pâinii este aproape...

  • Cosmetica profesionala pentru saloanele SPA si saloanele de infrumusetare de la firma

    Compania „SPA Nr. 1” este un producător de frunte de produse cosmetice profesionale pentru saloanele SPA și saloanele de înfrumusețare. Ne mândrim cu producția noastră, folosind doar ingrediente naturale, ceea ce asigură cea mai înaltă calitate a produselor noastre. Al nostru...

  • Bijuterii pentru bărbați

    Bijuteriile au devenit de mult o parte integrantă a garderobei unui bărbat. Tendințele modei moderne indică faptul că bijuteriile pentru bărbați joacă un rol important în crearea stilului și sublinierea individualității. Spre deosebire de...

  • Rețete pentru diferite variante ale acestui fel de mâncare

    K yufta este un fel de mâncare din carne (în esență chiftele uriașe) care este foarte comună în Caucaz. Rețeta de kofta este destul de veche și fiecare națiune din Orientul Mijlociu se poate lăuda cu propria sa versiune de preparare. Astăzi vă oferim...