Back to Question Center
0

Semalt Islamabad Espert - X'għandek tkun taf dwar Web Crawler

1 answers:

A search engine crawler hija applikazzjoni awtomatizzata, skript jew programm li jmur fuq il-World Wide Web b'mod ipprogrammat biex jipprovdi informazzjoni aġġornata għal magna ta 'tfittxija partikolari. Qatt ħsibt għaliex ikollok settijiet differenti ta 'riżultati kull darba li ttajpja l-istess kliem prinċipali fuq Bing jew Google? Huwa minħabba li l-paġni web qed jittellgħu kull minuta. U peress li qed jitgħabbew web crawlers jimxu fuq il-paġni l-ġodda tal-web.

Michael Brown, espert ewlieni minn Semalt , jgħid li web crawlers, magħrufa wkoll bħala indexers awtomatiċi u brimb tal-web, jaħdmu fuq algoritmi differenti għal magni tat-tiftix differenti. Il-proċess tal-web crawling jibda bl-identifikazzjoni ta 'URLs ġodda li għandhom jiġu viżitati jew għax għadhom kemm ġew imtella' jew għax xi wħud mill-paġni tal-web tagħhom għandhom kontenut ġdid. Dawn l-URLs identifikati huma magħrufa bħala żrieragħ fit-terminu tal-mutur tat-tiftix.

Dawn l-URLs eventwalment jiġu miżjura u żaru mill-ġdid skond kemm-il darba kontenut ġdid jittella 'fuqhom u l-politiki li jiggwidaw il-brimb. Matul iż-żjara, l-hyperlinks f'kull waħda mill-paġni tal-web huma identifikati u miżjuda mal-lista. F'dan il-punt, huwa importanti li tiddikjara f'termini ċari li magni tat-tiftix differenti jużaw algoritmi u politiki differenti. Dan huwa għaliex se jkun hemm differenzi mir-riżultati tal-Google u r-riżultati ta 'Bing għall-istess kliem kjavi anke jekk se jkun hemm ħafna xebh wisq.

Web crawlers jagħmlu xogħlijiet tremendi li jżommu search engines up-to-date. Fil-fatt, ix-xogħol tagħhom huwa diffiċli ħafna minħabba tliet raġunijiet hawn taħt .

1. Il-volum tal-paġni tal-web fuq l-internet f'kull ħin partikolari. Int taf li hemm diversi miljuni ta 'siti fuq il-web u aktar qed jitniedu kuljum. Aktar ma jkun il-volum tal-websajt fuq ix-xibka, aktar diffiċli tkun li l-ktajjen ikunu aġġornati.

2..Il-pass li bih qed jitniedu l-websajts. Għandek xi idea kemm websajts ġodda huma mnedija kuljum

?

3. Il-frekwenza li fiha l-kontenut jinbidel anke fuq websajts eżistenti u ż-żieda ta 'paġni dinamiċi.

Dawn huma t-tliet kwistjonijiet li jagħmluha diffiċli għall-brimb tal-internet li jkunu aġġornati. Minflok ma jitkaxkru websajts fuq il-bażi l-ewwel jinqeda l-ewwel, ħafna brimb tal-web jipprijoritizzaw il-paġni tal-web u l-hyperlinks. Il-prijoritizzazzjoni hija bbażata biss fuq erba 'politiki ġenerali tat-tkaxkir tal-magna ta' tfittxija.

1. Il-politika ta 'għażla tintuża biex tagħżel liema paġni huma mniżżla għall-ewwel crawling.

2. It-tip ta 'politika ta' żjara mill-ġdid tintuża biex tiddetermina meta u kemm-il darba l-paġni tal-web jiġu riveduti għal bidliet possibbli.

3. Il-politika ta 'parallellar hija użata biex tikkoordina kif il-ktajjen tat-tkaxkir jitqassmu għal kopertura rapida taż-żrieragħ kollha.

4. Il-politika ta 'l-issettjar hija użata tiddetermina kif URLs huma crawled biex jevitaw tagħbija żejda ta' websajts.

Għal kopertura mgħaġġla u preċiża taż-żrieragħ, it-twittija għandu jkollhom teknika kbira għat-tkaxkir li tippermetti l-prijoritizzazzjoni u t-tnaqqis tal-paġni tal-web, u għandhom ukoll ikollhom arkitettura ottimizzata ħafna. Dawn iż-żewġ se jagħmluha aktar faċli għalihom biex jitkaxkru u jniżżlu mijiet ta 'miljuni ta' paġni web fi ftit ġimgħat.

F'sitwazzjoni ideali, kull paġna tal-web tinġibed mill-World Wide Web u tittieħed permezz ta 'downloader multi-threaded wara li, il-paġni tal-web jew l-URLs ikunu kklerjati qabel ma jgħadduhom minn scheduler iddedikat għal prijorità. L-URLs ipprijoritizzati jittieħdu permezz ta 'downloader multi-threaded għal darb'oħra sabiex il-metadata u t-test tagħhom jinħażnu biex jitkaxkru sewwa.

Bħalissa, hemm diversi brimb jew crawlers ta 'search engines. Dawk użat minn Google huwa l-Google Crawler. Mingħajr brimb tal-web, il-paġni tar-riżultat tal-magna tat-tiftix jew se jġib lura riżultati żero jew kontenut skadut billi l-paġni tal-web ġodda qatt ma jkunu elenkati. Fil-fatt, mhux se jkun hemm xi ħaġa bħal riċerka onlajn.

November 29, 2017
Semalt Islamabad Espert - X'għandek tkun taf dwar Web Crawler
Reply