Toto je pouze pískoviště a co je tu napsané je pouze testovací informace! Není to webová stránka pro běžné publikování. Psané informace zde se mohou neustále měnit v souvislosti s prací autorů. Je to bez záruky!
GOOGLE vyhledávání a jeho funkce
Co je GOOGLE a jak pracuje...?
Vyhledávač původně navrhli Sergey Brin a Larry Page v rámci svého výzkumu na Stanfordově univerzitě, aby ověřili funkčnost svého algoritmu pro ohodnocování webových stránek PageRank. Záhy se ukázalo, že kvalita jeho výsledků natolik převyšovala tehdy dostupné vyhledávače, že je Google v krátké době předstihl v úspěšnosti hledání.
Kromě řazení výsledků podle Google PageRanku bylo v Googlu novinkou i kladení důrazu na vyhledávání frází (takže se nestávalo, že víceslovný dotaz vrátil stránky, kde se tato slova vůbec nevyskytovala pohromadě) a ukládání plného textu indexovaných stránek (které umožňovalo u výsledných stránek rovnou zobrazovat relevantní fragmenty textu).
Vyhledávání na GoogleOhodnocování výsledků dotazů nezahrnuje pouze Google PageRank, ale i pozici hledaného slova v dokumentu. Hodnocení v Google byla navrženo tak, aby žádný jednotlivý faktor nemohl mít příliš velký vliv na výsledek. Je-li vyhodnocován jednoslovný dotaz, zkoumá se seznam hitů pro dané slovo. Google má u každého hitu uložen i jeho druh (titulek, text odkazu, URL, obyčejný text velkým písmem, obyčejný text malým písmem, ...) každému druhu je pak přiřazena určitá váha. Na tyto váhy lze nahlížet jako na vektor. Stejně tak je ohodnocen počet hitů pro každý druh - ohodnocení na začátku roste lineárně s počtem, ale pak se závislost "narovnává", takže pokud počet výskytů překročí určitou mez, ohodnocení dále neroste. Skalární součin vektoru vah a vektoru ohodnocení počtu výskytů tvoří ohodnocení relevance dokumentu, jehož kombinace s Google PageRankem určí konečné pořadí dokumentu ve výsledku. Pro víceslovné dotazy je situace komplikovanější - musí se procházet několik seznamů hitů najednou, aby bylo možné ohodnocovat výsledky na základě vzdálenosti jednotlivých výskytů. Pro každou nalezenou skupinu hitů je spočítána vzdálenost výskytu všech nalezených slov v textu dokumentu (nebo odkazu), které je přiřazeno jedno z deseti ohodnocení. Počty výskytů se potom nepočítají jen pro různé druhy hitů, ale i pro každou dvojici druh - vzdálenost. Oba tyto údaje jsou převedeny na příslušná ohodnocení, a jejich skalární součin tvoří ohodnocení relevance dokumentu.
Současný Google
O technologiích, které používá současný vyhledávač Google, není známo mnoho: Google jako komerční firma uvolňuje méně informací, než v době, kdy šlo o akademický projekt. Jisté je, že celý vyhledávač je rozdělen do několika tzv. datacenter, rozmístěných po celém světě. Datacentra zodpovídají dotazy nezávisle, dotazy se mezi ně rozdělují pomocí rotace DNS záznamů (jmenné servery Google na každý dotaz vrací vstupní IP adresu jiného datacentra, vybírá je na základě geografické polohy uživatele a vytížení jednotlivých center). Datacentrum se skládá z velkého počtu "běžných" PC, používajících upravenou verzi operačního systému Linux. Takové počítače které mají lepší poměr cena/výkon než vysoce výkonné (ale současně velmi drahé) servery. Podle odhadů z dubna 2004 se v datacentrech nachází přibližně 63 tisíc počítačů, což z činí cluster Googlu nejvýkonnější na světě. Spolehlivost je zajištěna na softwarové úrovni - při výpadku je počítač vyřazen z clusteru a jeho úlohy převezme jiný.
Zdroje příjmů GooglePopularita Google umožnila jeho zakladatelům založit inzertní systém Google AdWords a Google AdSense. AdWords je v podstatě administrátorské rozhraní, které umožňuje inzerentům, kteří mají u Google založený účet a na něm vloženy finanční prostředky, vytvořit inzerát, který se pak bude zobrazovat vedle fulltextových výsledků v pravém sloupci nazvaném sponsored listings. Tento malý inzerát je svázán pevnými pravidly - má limitovaný rozsah a i jeho obsah je omezen. Inzerenti si pro každý inzerát stanoví i tzv. keywords, čili klíčová slova, po jejichž zadání do vyhledávače Google nebo některé z jeho přidružených stránek, se zobrazí právě onen inzerát. Inzerent platí Google částku, kterou si sám stanoví (min. částku stanoví Google), za každé kliknutí na jeho inzerát. Pořadí inzerátů je stanoveno systémem na základě kombinace několika faktorů - ceny za klik (cost per click) a míry prokliků (click through rate).
Sestava vyhledávače google:Informace vychází z popisu publikovaného prototypu. Protože je google tedy společnost Google Inc komerční firma nejsou z logických důvodů data a stuktura vyhledávače dostupné veřejnosti.
Crawler
Stahuje ze sítě dokumenty, které mu určí URL Server. Crawlerů běží několik paralelně, každý najednou udržuje stovky otevřených spojení k webserverům, aby nebyl zdržován čekáním na jejich odpovědi. Vzhledem k variabilitě internetového obsahu musí být crawler velice robustní a odolný vůči atypickým případům, jako jsou např. online hry.
Store server
Dokumenty od Crawleru komprimuje a ukládá do Repository. Každé stránce je přiřazen identifikátor docID (ten se generuje, kdykoliv je získáno nové URL)
Indexer
Má několik úkolů:
Parsuje dokumenty do sady tzv. hitů - každý hit zaznamená výskyt slova v dokumentu společně s jeho pozicí, kapitalizací a relativní velikostí písma, jakým je napsáno. Hity jsou ukládány do "zásobníků" (barrels), které tak tvoří částečně setříděný index.
Z parsovaných dokumentů také filtruje odkazy (anchors), které se ukládají do k tomu určeného souboru. U každého odkazu je uloženo, odkud a kam vede, a také text odkazu.
URLresolver
dále zpracovává soubor s odkazy na URL - převádí relativní cesty na absolutní URL a na docID. Tyto informace ukládá do indexu dokumentů, který mimo jiné slouží jako zdroj dat pro URL Server. Texty odkazu také přidává do indexu k dokumentu, na nějž směřují. Informace o vzájemných odkazech se používají pro výpočet PageRanku.
Třídič (sorter)
přetřiďuje index do zpětného indexu - hity místo podle docID řadí podle wordID (ID slova, které se používá v hitu). Třídič zároveň vytváří seznam použitých wordID a jejich četností, z nichž je programem DumpLexicon vytvořen nový slovník (lexicon).
Vyhledávač (searcher)
běží na webserveru a s použitím slovníku, zpětného indexu a PageRanků odpovídá na dotazy.
Zdroj: český internet informace o Google
CELÁ NABÍDKA MENU štítky je tady:
Accordeon
AdSense
Afrika
Agáta
Agent
Agentura
Aktuality
Aktualizace
Aktuální info
Akupunktura
Alphaville
Alternativní medicina
Amerika
Anna Kurnikova
Anonymní
Avast
Blbec a deprivace
Blogger
Breakfast
Bubáci
Cestování. Moře
Citace a inspirace
Citáty a moudra
Citáty slavných
CZportal
český folklor a tance
Češi a svět
Člověk a Nemoc
Databáze
Debaty a názory
Disk
diskuse
Dobromysl obecná
Dobrý vtip
Domény
Domov
Dr. Watson - chyby
Dvořák
Eric Clapton
Etické a humánní principy
Facebook
Feedback
Fejeton
Flirt
Forever Young
Fotografie
G+
Gif
Google
Google+
Gulášek
Havel
Historie
Hlad
Hledání na internetu
Houby
Humor
Humor a vtipy
Hydepark o internetu
Imunita kojení a spánek
Informace
Internetové smetiště
iPad
IRÁN
iTunes
Jaro
Kariera
Karikatura
Káva
kávovar
Kemel
knihy
Kočička
komentáře
Komunitní sítě
Kontrola disku a pokus opravy
Korsika
Král
Král komiků
Krokonoše
Křesťané
Květiny
Láska
Legendy taneční hudby
Lékárna
Lékař
Lékař a bylinky
Les
Lesácká polka
Lov
Lovu zdar
Markéta Šichtařová
Mobbing
Monitorovací přístroje
Moře
Moudra
Moudro
Můj pohled na svět
Mustafa Kemal Atatürk
Myslivost
MySQL
NATO
Návod
Nechrápej a pracuj!
Nemoci
Netlix
Nikon Coolpix S8200
Novinky
Nuda
O koni a Adsense
Obrázky
Ochrana soukromí
Oktoberfest
Opera extensions
Paleo
Peníze
Petrova Bouda
Pinterest
Pirati.cz
Písně
Pivo
Počasí
Podnikání
poznámky
Prasátko
Prezident
Předjaří
Příroda
Ptáci
Puding
Pytlák
Radujme se
Rakovina prostaty (CaP)
reklama
Relax
Rostou
Router
Rozdováděný hradní bača
Rušičky
Růže
Rybáři
Řecko
Řeka
Santorini
Seneca
Sladkosti
Slavík obecný | Common nightingale | Luscinia.
Smluvní
Sociální sítě
Soukromé
Svoboda
Symphony no. 9
Šábes
Šablona proti spamu
Tam na východě
Tanky a Ukrajina
Tenkrát na Východě
The Beach Boys
The King
TP-Link
Twitter
Události
Události na internetu
Události ve světě
Válka
Vánoce
Vaření pečení
Věda
Vlasta Burian
Volkswagen
WCstory
Weizsäcker
Wireless N Router TL-WR720N
XTranslate
Zajímavosti
Zdraví
Zdraví a životní styl
Zelené
Znamenám si
Žáby
Židovské
Život na dlani
Oblíbené příspěvky
-
Lovec v Rumunsku ulovil vlka Lovu a lesu zdar! Mezi lidmi od lesa a v zeleném rozeznáváme následující kategorie: myslivci, lovci, s...
-
Borelie pod lupou Status věnován přátelům, kteří bojují s boreliózou nebo chronickými nemocemi (třeba RS). Po mnoha letech boje s bore...
-
Tak začal tuhý režim normalizace (ilustrační obrázek) Tajný spolupracovník: označení pro čsl. i cizí státní příslušníky, kteří byli z...
-
Jak mohu použít vlastní název domény pro svůj blog? Existují dva způsoby, jak můžete publikovat svůj blog na Blogger - ať už je jeho ho...
-
Den Bastilly Upozornění na změnu podmínek pro užívání služby e-mail Klikni.cz E-mail na doméně Klikni.cz provozuje společnost MAFRA, a.s...
-
Za lesíčkem na zelené stráni Za lesíčkem na zelené stráni stojí panská hájovna chodívá tam večer po klekání srdce mého královna. ...
-
Ovocný salát pochoutka zdroj vitaminů i vlákniny K degenerativním zdravotním problémům naší doby patří překyselení organismu Myslet...
-
Konopné zdraví KONOPÍ a pohádka Cestu léčby konopím jsem nastoupila o mnoho dříve, než jsem o této všestranné rostlině věděla něco víc. Pr...
-
Ilustrační foto od Google Muenchen (G+) 20 let internetu v televizní debatě Ondřej Nef f Neviditelný pes. Google v Česku Luděk Motyčka...
-
Google a informace Google shromažďuje spousty informací z toho, jak používáme jeho služby a čím víc toho o nás ví, tím cílenější rekla...