Internetni o‘zgartirgan algoritm
Yoxud, Google qidiruv tizimi haqida eski va yangi gaplar...
Hozirgi kunda barchamiz zaruriy axborotni - kerakli ma'lumotnoma, tasvir, qo‘shiq yoki videoni albatta birinchi bo‘lib internetdan izlaymiz. Hech kim videotekadagi uzundan-uzoq tasmalarni aylantirib ko‘rib chiqmay qo‘ydi. Yoqtirgan qo‘shiqni ham endilikda ovoz yozish studiyalaridan izlamaypmiz. Tezkor ma'lumot kerak bo‘lib qolganda ham kutubxonaga borib kitob titib o‘tirmay qo‘ydik. Chunki endilikda bizning ixtiyorimizda ajoyib internet-qidiruv tizimlari mavjud!
Ha, hozirgi kunda biz internetni eng avvalo qidiruv tizimi sifatida qarashga o‘rganib qolganmiz. Keling ushbu maqolada internetning qidiruv tizimlari orasida eng yetakchisi - Google qidiruv tizimining qanday matematik asosga ko‘ra ishlashini qisqacha ko‘rib chiqamiz.
Siz qidiruvga bergan axborotni internet ummoni qa'ridan izlab topish - qidiruv tizmi hal qilishi lozim bo‘lgan vazifalarning eng dastlabkisi xolos. Aytish mumkinki, eng soddasi ham shu. Qidiruv tizimi yechishi kerak bo‘lgan eng murakkab vazifa esa - izlab topilgan natijalar orasidan eng maqbullarini, ya'ni, qidiruv talabini eng katta koeffitsiyent bilan qanoatlantiradiganlarini tartiblab, izlovchiga muhimlik tartibida namoyish qilib berishdir.
1998-yilda Stenford universitetining ikki talabasi muallifligidagi "Keng miqyosli gipermatnli internet-qidiruvi tizimi anatomiyasi" nomli sirli sarlavhaga ega bo‘lgan tadqiqot ishi yakuniga yetkazildi va amaliyotga tadbiq etildi. Tadqiqot mualliflari Lourens Peydj va Sergey Brin ismli talabalar bo‘lib, ular o‘z tadqiqotlari uchun "PageRank" (sahifa reytingi ma'nosida) deb nomlanuvchi matematik-dasturiy algoritmni asos qilib olishgan edi. Tashqi ko‘rinishidan ancha jo‘n, ayni paytda juda jozibador bo‘lgan mazkur algoritm, berilgan tasodifiy ro‘yxatdagi sahifalarni, qidiruv kalit so‘ziga muvofiq muhimlik darajasi bilan ierarxik saralab tartiblashni ko‘zda tutadi. Peydj va Brinlarning "PageRank" qidiruv algoritmi shu darajada mukammal bo‘lib chiqdiki, oradan qandaydir ikki-uch yil o‘tib, ushbu algoritm asosida ishlovchi global qidiruv tizimi, o‘sha paytlar internet olami yetakchisi bo‘lgan "Yahoo", "Altavista", hamda, boshqa ko‘plab tizimlarni butun jahon o‘rgimchak to‘rining bir chetiga surib chiqarib qo‘ydi. "PageRank" asosidagi qidiruv tizimi internet tarmog‘ining millionlab foydalanuvchilarining tarmoqdagi asosiy qidiruv vositasiga aylandi. Brin va Peydj o‘zlarning mazkur qidiruv tizimiga "Google" deb nomlanish berishgan.
Google qidiruv algoritmi mualliflari Lorens Peydj va Sergey Brin. 1999-yil.
Peydj va Brin o‘z tadqiqotlari uchun quyidagi mulohazani poydevor qilib olishgan: muayyan hujjat yoki manbaning muhimlik darajasi - mazkur hujjat yoki manbaning boshqa hujjat yoki manbalarda qanchalik ko‘p tilga olinishiga to‘g‘ridan-to‘g‘ri bog‘liqdir. Ushbu g‘oyani esa tadqiqotchi talabalar ilmiy manbalar olamidan - kitoblar, ilmiy maqolalar, monografiyalar va ho kazolardan olishgan ekan. Ya'ni, biror ilmiy manbadagi qayd etilgan dalillar, sharhlar va faktlarning boshqa biror ilmiy hujjatlardan iqtibos tarzida keltirilishi; bir olimning kitobida boshqa biror olimning asariga ko‘p marta murojaat etilishi - o‘sha murojaat manbasining nufuzini, ilmiy ahamiyatining yuqoriroq ekanligini anglatadi. Aytaylik, termodinamika haqida darslik yozgan fizik olimlarning deyarli barchasi o‘z kitoblaridagi dalillarni izohlashda, Maks Plank, Lyudvig Boltsman hamda Jozayya Gibbslarning mashhur asarlariga murojaat qilishadi. Tabiiyki, shunday xulosa tug‘iladi: demak, termodinamika mavzusida eng nufuzli asarlar - Plank, Boltsman hamda Gibbslarga tegishli ekan. o‘z navbatida kitobxon, mazkur murojaatlar soniga qarab, taxminan shunday xulosaga keladi: "Albatta Plankning ham termodinamikaga oid asari bilan tanishib chiqishim kerak".
Ilmiy asarda yoki ilmiy ishda boshqa biror ilmiy ish qancha ko‘p yodga olinsa, yangi talabalar va tadqiqotchilar uchun, o‘sha ko‘p yodga olingan ilmiy ish birinchi navbatda tanishib chiqishga molik deb olinadi. Qolaversa, deyarli barcha ilmiy manbalarning so‘ngida "Adabiyotlar ro‘yxati" yoki, "Manbalar ro‘yxati" ko‘rinishidagi murojaat manbalari indeksi keltiriladi (o‘zini xurmat qilgan har qanday ilmiy tadqiqotchi albatta ilmiy ish matni so‘ngida murojaat manbalarini ro‘yxatini keltiradi). o‘sha manbalarga qarab ham, muayyan tematikadagi manbalardan eng saralarini, demakki birinchi navbatda tanishib chiqish kerak bo‘lgan eng asosiylari haqida xulosa qilish mumkin. Endi tushungandirisiz, Peydj va Brinlardan birining miyasiga yalt kelib qolgan fikrning mohiyatini?!...
Mazkur g‘oyaning internet tarmog‘iga nisbatan tadbiq etilishida, quyidagi jihat inobatga olinadi: berilgan qidiruv kalit so‘z bo‘yicha izlab topilgan eng maqbul manba (eng relevant manba) shunday manba bo‘ladiki, ushbu manbaga joriy qidiruv so‘z bo‘yicha eng ko‘p havola (link) beriladi. Ya'ni, ushbu manba - internet sahifasida berlgan qidiruv so‘z bo‘yicha eng ko‘p marta qayd etilgan yoki takrorlangan bo‘ladi. Undan tashqari, ushbu izlab topilgan manbaga boshqa topilgan manbalarda ham havolalar - linklar mavjud bo‘lsa, uning relevantligi, ya'ni ahamiyati yanada oshadi. Eng ko‘p havolalar berilgan sahifa-sayt-manbaning relevantligi ehtimollogi eng yuqori bo‘ladi va u qidiruv natijalari namoyish etladigan ierarxik ro‘yxatda eng sara manba sifatida birinchi bo‘lib ko‘rsatiladi. Qidiruv tizimi shu tarzda eng relevant sahifalardan boshlab, relevantligi past manbalarga tomon ro‘yxat shakllantiradi. Naztijada, qidiruv bergan internet foydalanuvchisi uchun namoyish etilgan yuzlab-mingalb sahifalardan birma-bir kirib chiqib, bekorga vaqt sarflashga hojat qolmaydi. Demak, u o‘ziga mutlaqo qiziq bo‘lmagan keraksiz manbalar ichida sarson bo‘lmaydi.
"PageRank" nihoyatda jozibador va ayni damda hayratlanarli darajada soda algoritmdir. Uni quyidagi matematik formula orqali ifodalash mumkin:
Bunda Wj - j-sahifa uchun muhimlik qiymati; Wi - j-sahifa uchun havola(lar) ko‘rsatilgan i sahifa uchun muhimlik qiymati; d - tuzatish koyeffitsienti (uning qiymati 0 va 1 oralig‘ida bo‘lib, u qatorlarning o‘xshashligini ta'minlash uchun qo‘llanadi); n esa - Wi sahifadagi boshqa sahifalarga olib chiquvchi havolalar (linklar) soni; va nihoyat N bu - j sahifaga havola ko‘rsatilgan internet sahifalarining umumiy miqdori.
Tasodifiy tanlab olingan sahifaning relevantligi, ushbu sahifa qayd etib o‘tiladigan, unga havola keltiriladigan boshqa barcha sahifalarning relevantligining yig‘indisiga teng bo‘ladi. Ushbu yig‘indining ahamiyatini, unga havola ko‘rsatayotgan sahifalarning umumiy miqdori belgilaydi. o‘zgaruvchi miqdor n ni ifodalovchi son - joriy tasodifiy sahihaning ichida mavjud havolalar bilan birgalikdagi umumiy relevantlik ko‘rsatkichiga qo‘shadigan xissasini belgilaydi. Sahifada havolalar qanchalik ko‘p keltirilgan bo‘lsa, uning manbaning umumiy relevantligiga qo‘shadigan xissasi shunchalik kam bo‘ladi. Agar sahifada bir donagina havola bo‘lsa, u o‘zining relevantlik qiymatini, mazkur havola orqali o‘tib chiqiladigan sahifaga beradi. "PageRank"ning yana bir o‘ziga xos jihati shundaki, u birtta manba ichidagi bir-biriga havola ko‘rsatuvchi turli sahifalarning taqsimotini teng ulushda belgilay oladi. Ya'ni, muayyan tematikadagi bitti saytning turli xil sahifalari bir-biridan ustun turadigan qilib ko‘rsatilmaydi. Balki, sayt sahifalari asosida, umumiy relevantlik ko‘rsatkichi shakllantiriladi. Qolaversa, birorta ham sahifaning relevantlik qiymati nolga teng bo‘lib qolmaydi. "PageRank" bo‘yicha sahifaning relevantlik ko‘rsatkichi (1-d) ga teng bo‘ladi. "PageRank"dagi sahifalar reytingi W ning turli xil qiymatlari o‘zaro mutanosiblashmagunicha hisoblashda davom etadi. Ushbu mo‘jaz va favqulodda samarador algoritmni, qidiruv kalit so‘zi asosida topilgan tasodifiy sahifadan boshlab internetni "titkilab" chiqib, o‘ziga ma'qul keluvchi, ya'ni qo‘yilgan talabini to‘liq qanoatlantiruvchi sahifani topmaguncha birma-bir barhca sahifalarni ochib-yopib chiquvchi internet-foydalanuvchisining hatti-harakatlariga qiyoslash mumkin. Ushbu foydalanuvchining biror saytga kirib, undagi ma'lumotlar bilan tanishishi ehtimolligi, o‘sha saytga ko‘rsatilayotgan havolalar soniga to‘g‘ri proporsional, hamda, mazkur foydalanuvchi tanlaydigan havolalar soniga teskari proposionaldir. Ushbu qoidani "PageRank"ning o‘ziga xos teoremasi deyish mumkin. Zero unda aynan ushbu omillarga ko‘ra qidiruv amalga oshiriladi. Shunday qilib, "PageRank" algoritmni, biz yuqorida aytib o‘tgan ehtimollikni hisoblash uslubi deyish ham o‘rinlidir. Agar shunday ta'rif o‘rinli bo‘lsa, unda o‘zgaruvchi miqdor - d, foydalanuvchining qidiruv jarayonini to‘xtatishi ehtimolligini ifodalaydi (ya'ni, u tarkibida hech qanday havolalar tutmagan, keraksiz sahifaga o‘tib qoladi va qidiruvni boshqatdan, yana boshqa bir tasodifiy sahifadan boshlaydi).
"PageRank" amaliyotda:
Faraz qilamiz, internet-foydalanuvchisi Google dan orbita.uz qidiruv so‘zini berdi. Avvaliga qidiruv tizimi, ya'ni, Google qidiruv satrida berilgan kalit so‘zni o‘zida tutuvchi barcha internet-sahifalarini, saytlarni izlab topadi. Bizning misolimizda aytaylik, Google orbita.uz qidiruv so‘zi bo‘yicha, ushbu saytning dastlabki beshta sahifasini topadi (aniqrog‘i, tanlaydi). Keyin esa "PageRank" algoritmi o‘z ishini boshlaydi va mazkur sahifaalrni tahlil qila boshlaydi. Tahlildan maqsad - ushbu sahifalarni foydalanuvchiga qanday tartibda saralab namoyish qilishdan iborat. Avvaliga har bir sahifaga bir xil boshlang‘ich qiymat biriktiriladi. Bizning misolimizda, aytaylik ushbu boshlang‘ich qiymat 100 sonini tashkil qilsin.
Keyingi bosqichda "PageRank" mazkur qiymatga (100 soniga) qidiruv kalit so‘z bo‘yicha aniqlangan sahifalarning har biridagi ahamiyatlilik yig‘indisini qo‘shib chiqadi. Muayyan sahifadagi boshqa sahifaga yo‘llovchi havolalar soni qanchalik ko‘p bo‘lsa, uning uchun yig‘indining qiymati ham shunchalik katta bo‘ladi. Masalan, "Sayt haqida" sahifasidagi "Asosiy" havolasi, saytning asosiy sahifasiga havola ko‘rsatadi va unga olib chiqadi. "Asosiy" sahifasi esa, ikkita tashqi havolaga ega bo‘lib, uning boshlang‘ich qiymati (100) mazkur ikki havola orasida taqsimlanadi va ushbu havola olib chiqadigan sahifalarga 50 qiymatdan yana qo‘shiladi. Shunga o‘xshash tarzda, "Maqolalar" sahifasiga uchta havola ko‘rsatkich berib turibdi. o‘z navbatida, ushbu uchala sahifaning har bir o‘zida ikkitadan tashqi havolaga ega va bundan umumiy qiymat 150 (50-3) kelib chiqadi. Ushbu jarayon yakunlangach, algoritm jarayonni qaytadan boshlaydi va har bir sahifa uchun qiymatlar muayyan tartib asosida ierarxik saralanmagunicha davom ettiradi. Iteratsiyalar soni, qidiruv kalit so‘zi bo‘yicha izlab topilgan sahifalar soniga - natijaga to‘g‘ridan-to‘g‘ri bog‘liq bo‘ladi. Vanihoyat, topilgan sahifalar reytingi, qidiruvni bergan foydalanuvchi uchun muhimlik darajasiga ko‘ra saralangan tartibda namoyish qilib beriladi. Biz keltirgan misolda eng yuqori reyting ko‘rsatkichi bo‘yicha orbita.uz saytining asosiy sahifasi saralanadi. Pirovardida foydalanuvchi uchun ham Google qidiruv tizimi ro‘yxatning eng birinchi satrida orbita.uz - asosiy sahifa havolasi ko‘rsatiladi. Agar foydalanuvchi "kitoblar", yoinki, "elektron kitob" so‘zini qidiruvga bersa, Google ro‘yxatida eng birinchi bo‘lib, birinchi satrga orbita.uz ning asosiy sahifasi emas, balki "Kutubxona" sahifasi saralanadi.
Ilova:
Maqolamiz so‘ngida, Google qidiruv tizimida qidiruvni yanada samaraliroq olib borishga ko‘maklashuvchi ayrim uslullar bilan o‘rtoqlashmoqchimiz.
- Muayyan ibora yoki so‘z shaklining to‘liq ko‘rinishini qo‘shtirnoq operatori - "" orqali topish mumkin. So‘z yoki iborani qo‘shtirnoqqa olgan holda qidiruvga bering va Google aynan shunday so‘z yoki ibora mavjud bo‘lgan sahifalarnigiga qidiradi va namoyish etadi.
Masalan, "men sizga yozyapman". Bunda Google PageRank aynan ushbu uchala so‘z, ya'ni, "men", "sizga", "yozyapman" so‘zlarining huddi shunday ketma-ketligida keltirilgan sahifalarnigina topib havola qiladi. Aks holda, men, sizga, yozyapman so‘zlarining atiga bittasi uchragan saytlarni ahm saralab beraveradi.
2. Agar siz biror ibora yoki jumla tarkibidagi so‘zni yoddan chiqargan bo‘lsangiz, Google qidiruv satriga jumlani eslaganingizcha yozing va yoddan chiqqan so‘z o‘rniga yulduzcha, ya'ni, * belgisini qo‘yib ketin. Jumla, o‘sha oraliq yoddan chiqqan so‘z bilan birgalikda topiladi va namoyish qilinadi.
Masalan, Sen yetim esamassan * jigarim. Google PageRank jumlaning yuldizcha bilan belgilangan o‘rnida tushirib qoldirilgan so‘z mavjud sahifalarni izlaydi va saralaydi. Natija: Sen yetim esamassan tinchlan jigarim jumlasi bor sahifalar ketma-ketligi ekranga chiqadi.
3. Berilgan bir nechta so‘zdan istalganini qidirib topish usuli. So‘zlarni vertikal slesh belgisi, ya'ni, | orqali ajratib yozing va qidiruvga bering. Google ushbu so‘zlardan istalgan biri mavjud bo‘lgan sahifalarni izlaydi.
Masalan: mevalar savdosi (olma | nok | tarvuz | gilos | shaftoli | baqlajon ).
Yoki: dala-hovli (chirchiq | chotqol | ohangaron | g‘allaorol | chuvalanchi )
4. So‘zlarning aynan bitta gap tarkibida bo‘lgan ketma-ketligini izlab topish. Inglizcha "ampersand" deb nomlanuvchi belgisi & mavjud. Siz so‘zlarni google qidiruv satrida aynan ushbu belgi orqali birlashtirib yozsangiz, Google mazkur so‘zlar bitta gap tarkibida qo‘llangan sahifalarni topadi va saralaydi.
Masalan: Amir Temur maydoni&Samarqand
5. Muayyan aniq bir so‘zga ega bo‘lgan sahifani izlash. Kerakli so‘z oldiga, uni probeldan ajratmasdan + belgisi qo‘yish orqali qidiruv bersangiz, Google aynan shu so‘z aniq uchraydigan sahifalarni saralaydi.
Masalan: Amir Temur maydoni +haykal
6. Muayyan so‘zni qidiruv natijalaridan istisno qilish. Ya'ni, qidiruv natijalari ichida ko‘rishni istamaydigan so‘z yoki iborangizni, qidiruv satrida minus ishoirasi "-" orqali yozish bilan istisno qilishnigiz mumkin.
Masalan: jahon musiqasi -Ledi -Gaga ; yoki, elektron kitoblar -savdo
Natija: jahon musiqasi qidiruv so‘zi orqali Ledi Gaga mavjud bo‘lgan sahifalar chiqishi oldi olinadi. Yoki, elektron kitoblar so‘rovi natijasidan, elektron kitob savdosi reklamasiga oid sahifalar chiqarib tashlanadi.
7. Qidiruvni faqat bitta sayt doirasida olib borish. Buning uchun bizga "site" operatori yordam beradi. Ushbu operator kalit so‘z - qidiruv jumlasini faqat belgilangan saytdan izlashni belgilaydi va nazorat qiladi. Faqat site operatori ketidan ikki nuqta qo‘yishni unutmang.
Masalan: matematika site:orbita.uz
Natija: matematika qidiruv so‘zini Google faqat orbita.uz saytidan izlaydi va natijalarni ham faqat ushbu sayt doirasida ko‘rsatadi.
8. Muayyan turdagi (formatdagi) hujjatlari bor sahifalarni izlab topish usuli. Buning uchun bizga Google qidiruv tizimining "mime" operatori yordam beradi. Buning uchun qidiruv-kalit so‘zdan keyin mime so‘zini yozing va ikki nuqtadan so‘ng hujjat turini (masaln .pdf yoki, .mp3) ko‘rsating.
Masalan: O‘zbekiston Respublikasi Konstitutsiyasi mime:pdf
9. Berilgan so‘rov bo‘yicha faqat muayyan tildagi hujjatlarni yoki sahifalarni izlab topish uchun ham Googleda alohida qulaylik mavjud. Buning uchun "lan" operatoridan foydalnish kerak bo‘ladi. Kalit so‘zni qidiruv satriga kiritgach, undan keyin lang operatorini yozing va ikki nuqtadan so‘ng, tegishli til kodini kiriting. Turli tillar uchun quyidagi kodlarni qo‘llash mumkin: uz - O‘zbek tili, ru - rus tili, en - ingliz tili, fr - farang tili, uk - ukrain tili, be - belorus tili va ho kazo.
Masalan: Toshkent lang: uz, yoki Toshkent lang: en
(Shuni aytish kerakki, Googlening oxirgi dasturiy ishlanmlari tufayli, endilikda "lang" operatoridan foydalanmasdan, shunchaki kalit so‘zdan keyin ikki nuqta qo‘ygach, tilni ko‘rsatish ham mumkin bo‘lmoqda. Bunda google, joriy qidiruv so‘zi bo‘yicha faqat belgilangan tilda yozilgan sahifalarni namoyish qiladi, Masalan: Toshkent :uz, yoki Toshkent :en)
P.S.
Maqolamiz foydali va qiziqarli bo‘ldi degan umiddaman. Internet ummonida faqat naf keltiruvchi manbalar bilan ishlab, zararli, buzuqi va turli illatlarni targ‘ib etuvchi sayt-sahifalardan yiroq bo‘lishingizni istardim. Zero bugungi kunda axborot xavfsizligi va axborot immuniteti masalalari zamonamiz uchun eng zaruriy dolzarb ustivor yo‘nalishlarga aylanib bormoqda. Bunday sharoitda esa, internetning har bir foydalanuvchisi avvalo hushyor bo‘lishi, tarmoqdan vaqtni behuda sarflash uchun emas, balki foydali ma'lumotlarni egallash, bilim olish va tajriba to‘plash uchun to‘g‘ri foydalanishi g‘oyat muhimdir. Axborot asrida faqat foydali axborotlar ummonida suzishingizga tilakdoshman...
P.S. dan keyingi P.S.
2014-yil oktyabr oyida jahonning ayrim internet-nashrlari (asosan ingliz tilida blog yurituvchi dasturchi va tarmoq muhandislari) Google tizimi "PageRank"dan voz kechgani haqida xabarlar tarqatishdi. Lekin keyingi ma'lumotlarga ko‘ra, ushbu xabar asossiz ekanligi tasdiqlandi, Google mutaxassislari shunchaki ushbu jozibador algoritmni yanada takomillashtirish maqsadida uni tizimning boshqa manziliga ko‘chirishgan ekan...
Bizni ijtimoiy tarmoqlarda ham kuzatib boring:
Feysbukda: https://www.facebook.com/Orbita.Uz/
Tvitterda: @OrbitaUz
Google+ : https://plus.google.com/104225891102513041205/posts/
Telegramdagi kanalimiz: https://telegram.me/OrbitaUz
< avvаlgi | kеyingi > |
---|