خانه / دسته‌بندی نشده / شیوه ارائه مطلب

شیوه ارائه مطلب

معرفی و دسته بندی رهیافت های جستجو در صفحات دینامیک وب

«پروژه درس شیوه ارائه مطالب فنی»

برای دانلود نسخه ورد فایل ، از لینک زیر اقدام کنید:

فرمت : ورد با قابلیت ویرایش در متن

با رعایت کامل دستورات نگارشی و شیوه ارائه مطلب

تعداد صفحات: ۳۶صفحه

«در زیر خلاصه ای از متن اصلی برای شما آورده شده است»

فهرست مطالب

۱          مقدمه. ۵

۲          شرح.. ۷

۲٫۱                       انواع اسناد وب… ۷

۲٫۱٫۱                 اسناد سطح وب… ۷

۲٫۱٫۲                 اسناد ناپیدای وب… ۷

۲٫۲                       وب پنهان چیست؟. ۱۱

۲٫۳                       واسط های وب پنهان. ۱۱

۲٫۴                       اهمیت وب پنهان. ۱۲

۲٫۵                       رهیافت های جستجوی وب پنهان. ۱۳

۲٫۵٫۱                 ابزارهای سنتی جستجوی وب پنهان. ۱۴

۲٫۵٫۲                 رهیافت های پیشرفته جستجوی وب پنهان. ۱۶

۲٫۶                       دسته بندی خودکار وب پنهان. ۱۷

۲٫۶٫۱                 تکنولوژی های کشف واسط های وب پنهان. ۱۷

۲٫۶٫۲                 تکنولوژی های دسته بندی واسط های وب پنهان. ۱۸

۲٫۷                       موتورهای جستجوی وب پنهان. ۱۹

۲٫۷٫۱                 تکنولوژی های اندیس گذاری وب پنهان. ۲۰

۲٫۷٫۲                 تکنولوژی های جستجوی بلادرنگ…. ۲۶

۳          بحث… ۳۲

۴          نتیجه گیری.. ۳۲

۵          خلاصه. ۳۴

۶          منابع. ۳۶


چکیده

با رشد روز افزون حجم اطلاعات وب در صفحات دینامیک و پایگاه های داده آنها، تلاش های زیادی در رسیدن به راه حلی برای تسهیل بازیابی این اطلاعات توسط کاربران، انجام گرفته است. این نوشتار سعی در معرفی این بخش از منابع وب، اهمیت آن و دسته بندی راه های جستجو در آن دارد.

کلمات کلیدی : وب پنهان، فرم های HTML، موتورهای جستجو، اندیس گذاری

۱          مقدمه

دنیای وب منبع عظیمی از اطلاعات است که روز به ‌روز برحجم آن افزوده می‌شود. در حال حاضر با رشد روز افزون این پدیده، حجم گسترده اى از منابع اطلاعاتى حوزه هاى مختلف مثل كتب، مجلات، پايان نامه ها، طرحهاى پژوهشى و پايگاههاى اطلاعاتى در بسترهاى جديد و با قابليتهاى متنوعى در مقايسه با منابع چاپى قابل دسترسى هستند. این در حالی است که تولد وب سایت های جدید و توسعه سیستم های دینامیک ارائه محتوا، به حجم و غنای این اطلاعات می افزاید. نرخ رشد اطلاعات تا به آنجا رسیده که امروزه مشکل «دسترسی به اطلاعات» جدی تر از «فقدان اطلاعات» است. امروزه چالش عمده اکثر کاربران، دستیابی به اطلاعات می باشد.

آمارها نشان می دهند که افراد بسیاری سفر در دنیای وب را با ابزارهای جستجو آغاز می‌کنند و جستجو کردن دومین فعالیت عمده کاربران در دنیای وب (بعد از ارسال و دریافت نامه های الکترونیکی) محسوب ميشود.

یکی از عمده ترین چالش های امر جستجو در وب، مواجهه ابزارهای جستجو با اسناد و منابعی است که به صورت دینامیک تولید شده و به کاربران عرضه می شوند در این نوشتار این منابع، با نام «وب پنهان» مورد اشاره قرار گرفته اند. تحقیقات و پروژه هایی در زمینه تولید ابزارهای جستجوی درخور این منابع که بخش عمده وب را تشکیل می دهند انجام شده و تعداد زیادی از این پروژه ها به مرحله عمل رسیده و برای تسهیل بازیابی اطلاعات به کاربران عرضه گردیده است.

دسته بندی های مختلفی از این تحقیقات و رهیافتهای پیشنهادی آن ها ارائه شده که کمابیش ساختار نزدیکی به هم دارند. بسیاری از راه کارهای پیشنهادی برای در دسترس قرار دادن اطلاعات وب پنهان، تکنیک هایی هستند که صاحبان اطلاعات (مانند صاحبان وب سایت های تجاری) را با راه های غیر تکنولوژیک بالا بردن میزان دسترسی به اطلاعاتشان توسط کاربران آشنا می سازند. راه های مذکور (از قبیل بهینه سازی موتور جستجو[۱]) موضوع بحث ما نیست، بلکه هدف اصلی این نوشتار معرفی و طبقه بندی راهکارهایی است که «متخصصان عرصه جستجو در وب» در هرچه بیشتر قابل دسترسی کردن این اطلاعات ارائه می کنند.


۲        شرح

۲٫۱      انواع اسناد وب

اسناد[۲] وب، مجموعه ای از اطلاعات ذخیره شده در قالب فایل بر روی سرورهای متصل به اینترنت است که از طریق پروتکل HTTP در اختیار کلاینت های متقاضی قرار می گیرد. این اسناد بر اساس این که در چه سطحی از دسترسی برای موتورهای عمومی جستجوی وب قرار می گیرد، به دونوع «اسناد سطح وب» و «اسناد ناپیدای وب» تقسیم می شوند که در ادامه به معرفی آنها می پردازیم.

۲٫۱٫۱     اسناد سطح وب

اسناد سطح وب (وب سطحی[۳]) به بخشی از اسناد وب اطلاق می شود که توسط موتورهای عادی جستجوی وب قابل اندیس گذاری هستند، از این رو به این بخش از وب «وب قابل اندیس گذاری[۴]» یا به اختصار PIW گفته می شود. این اسناد که غالبا محتوای استاتیک (ذخیره شده و ثابت) دارند عموما دارای یک URL حقیقی بوده و از طریق دنبال کردن لینک های موجود در صفحات وب به این URLها قابل دسترسی هستند.

۲٫۱٫۲    اسناد ناپیدای وب

دسته دیگری از اسناد وب که عموما توسط موتورهای عادی جستجوی وب کشف و اندیس گذاری نمی شوند به اسناد ناپیدای وب (وب ناپیدا[۵]) مشهورند. انواع مختلف این اسناد عبارتند از:

– غیر قابل دسترسی[۶]: صفحاتی كه سازنده ی آن ها دسترسی به آن ها را محدود نموده اند. در بعضی موارد اين محدوديت می تواند از طريق قرار دادن سند پشت يك ديوار آتش(Fire-Wall) صورت گيرد. مثلا برای جلوگيری از دسترسی اينترانت شركت رقيب به صفحات اطلاعاتی يك شركت. اين نوع از اسناد ناپیدا از طريق برخی ابزارهای مخصوص قابل جستجواند اما از طريق موتورهای جستجوی معمولی نمی توان به آن ها دست يافت.

– سخت تفسیر شدنی[۷]: اين اصطلاح در مورد منابعی بكار می رود كه دارای فرمتی غير استاندارد يا غير از HTML می باشند. يك نمونه از اين اسناد صفحات به فرم CAD يا صفحات Word DOC و يا PDF اند. مشكل عدم دستيابی به اين اسناد از طريق موتورهای معمولی از روشهايی قابل حل است. سيستمهای بسياری وجود دارند كه قابليت تبديل فرمت به XML را دارا می باشند و از اين طريق اين صفحات را می توان بازيابی نمود.

نمونه ی ديگری از اين صفحات صفحاتی هستند كه در سطح عمومی وب وجود دارند ولی با پروتكل های سنتی قابل دسترسی نيستند. پروتكل HTTP  بكمك اينگونه اسناد آمده و آن ها را قابل بازگشت می نمايد. تقريبا تمامی سيستمها قابليت پردازش محتويات تحت HTTP را دارا می باشند، تنها چالش قابل بررسی در اين زمينه تلاش برای توانمند كردن مرورگرهای[۸] عادی برای بررسی اين صفحات بمنظور جلوگيری از اين تبديل فرمت حجيم است.

نمونه ی ديگری از اين صفحات پنهان، اسناديست كه كپی ناكاملی از اصل خود هستند و اين نقص ناشی از تبديل فرمتی روی سند اصلی است. برای جلوگيری از بوجود آمدن چنين اسنادی، انتشار اصل صفحات يا كپی های بدون نقص كارساز می باشد.

در نمونه ی آخر اين صفحات، صاحبان و منتشر كنندگان عمدا محتويات اين اسناد را، بمنظور جلوگيری از دستيابی عادی، از روشهايی مبهم و غير واضح می كنند، كه برای دسترسی به محتوی اصلی انها  نياز به پسورد می باشد.

– دشوار در كشف[۹]: اين دسته از صفحات پنهان دارای URL هستند اما از آنجا كه لينكی در صفحات دیگر ندارند، بسادگی قابل دسترسی نمی باشند.

– فاقد هویت ساده[۱۰]: اين دسته از صفحات تنها بكمك يك URL نشان داده نمی شوند و اطلاعات بيشتری مورد نياز است. اين مسئله نه تنها برای موتورهای جستجو بلكه برای هر سيستم ديگری كه برای شناسايی محتوی يك سند تنها از URL آن اقدام می كنند، نيز وجود دارد.

يك نمونه از اين منابع صفحاتی هستند كه تنها بعد از پر كردن و فرستادن فرم های HTML با متد HTTP POST قابل دسترسی اند. با متد POST برای منبع URL منحصر به فرد تولید نمی شود و منبع فقط می تواند در برابر تكميل و فرستادن اين فرم نمایش داده شود. لازم به ذکر است با وجود اینکه متد دیگر ارسال داده های فرم که URL منحصر به فرد تولید می کند یعنی HTTP GET، در مواردی مانند فرم های جستجوهای پیشرفته، طول داده هابی كه برای شناسايی منبع بايد رمزگشايی شود از طول يك URL قابل شناسايی تجاوز می كند و چاره ای جز استفاده از متد POST در آن ها نیست.

برخی از سايتها بسته به نوع كاربری كه در پيش رو دارند، محتوای متفاوتی ارائه می نمايند. اين كار در پاره ای موارد سودمند است مثلا صفحه ی وبی كه قرارست به يك PDA ويا WAP phone فرستاده شود ابتدا ويرايش می شود و از حجم اطلاعات زائد آن كاسته شده و سپس آماده ارسال می شود. از سويی ديگر اين نحوه ی ارائه می تواند تاثير منفی در اندیس گذاری و يا جمع آوری صفحات داشته باشد، زيرا برخی از اينگونه سايتها قسمتهايی از محتويات خود را تنها در صورتی در معرض نمايش قرار می دهند كه در برابر يك كاربر واقعی قرار گيرند و اين بخش از محتويات از ديد يك نرم افزار روبوت[۱۱] موتورهای جستجو وب پنهان می ماند، در نتيجه فهرست كاملی از اطلاعات در پايگاه داده ی موتورهای جستجو قرار نمی گيرد. و اين امر كاهش پوشش صفحات اشكار سطح وب را در پی دارد.

برخی از سايتها محتويات خود را نمايش نمی دهند مگر اينكه کاربر سند معتبری ارائه كند. اين سايتها معمولا سايتهای اكسترانت و يا اينترانت گسترش يافته اند و قاعدتا جزء صفحات آشكار قرار نمی گيرند. برخی ديگر از سايتها محتوی متفاتی در برابر اعتبار مدرك ارائه شده نمايش می دهند، كه اين اعتبار را از طريق cookie ، username/password ، گواهی و يا از روشهای ديگر بررسی می كند. بعنوان مثال برای كاربری كه در اين سايت ثبت نام شده است محتوی متفاوتی ارائه می كند از آنچه برای يك كاربر ميهمان نمايش می دهد.

همچنين بعضی از سايتها بر اساس زبان كاربر محتوای متفاوتی ارائه می كنند. اين سايت ها اطلاعات بدست اورده را ارائه نمی كنند مگر در صورتی كه مترجم مورد نظر كاربر را پشتيبانی كند.

– مبتنی بر زمان[۱۲]: بعضی از منابع قابل دسترسی از طريق URL مشخص، در طی زمان تغير می كنند. صفحاتی از وب که با وجود داشتن URL ثابت، محتوای آن ها به صورت استاتیک (توسط انسان) و یا دینامیک (توسط زبان های برنامه سازی سمت سرور[۱۳]) در طول زمان به روز می شود سبب منقضی شدن و يا پاسخگويی نادرست موتورهای جستجو می شوند. علیرغم این که این دسته از اسناد توسط موتورهای جستجوی عادی قابل دسترسی و اندیس گذاری هستند، به علت این که محتوای نمایش داده شده در پاسخ به کاربران به زمان دسترسی و اندیس گذاری موتور جستجو بستگی دارد و در مواردی هم با درخواست کاربران منافات دارد، جزء اسناد سطح وب به حساب نمی آیند. روش پيشنهاد شده برای ذخيره سازی اين اسناد توليد يك URL پايدار برای آن هاست.

نظر به اینکه تلاش های زیادی برای تسهیل دسترسی به اطلاعات زیرمجموعه عمده ای از وب ناپیدا که همان صفحات دینامیک وب هستند انجام گرفته است، در قسمت های بعدی نوشتار توجه خود را به این  زیرمجموعه که آن را وب پنهان می نامیم محدود می کنیم. لازم به ذکر است وسعت اطلاعات وب پنهان به حدی زیاد است که زیرمجوعه های دیگر وب ناپیدا در مقابل آن نادیده گرفته شده و دو اصطلاح «وب پنهان» و «وب ناپیدا» معادل یکدیگر در نظر گرفته می شوند.

۲٫۲     وب پنهان چیست؟

«وب پنهان[۱۴]» به بخشی از صفحات دینامیک وب اطلاق می شود که با استفاده از اطلاعات بدست آمده از فرم های HTML مربوط به آن صفحه تولید می شوند. این اسناد حاوی منبع عظیمی از اطلاعات هستند که در پایگاه های داده قابل جستجوی وب سایت ها ذخیره شده اند. وب پنهان در واقع زیر مجموعه ای از وب ناپیدا (مذکور در قسمت قبل) است که دو خصوصیت «دشواری در کشف» و «فقدان هویت ساده» را دارد.

دشواری در کشف این بخش از وب به علت آن است که در حقیقت راه ورود به این صفحات دینامیک، لینک های ساده موجود در صفحات دیگر نیست بلکه از طریق تکمیل و ارسال فرم های HTML توسط کاربران قابل دسترسی اند. به همین خاطر موتورهای جستجوی معمولی که قادر به تکمیل فرم HTML و ارسال آن به سرور مربوطه نیستند نمی توانند به محتویات این صفحات دسترسی داشته باشند.

به لحاظ هویت سند، URLهای ساده را می توان به عنوان آدرس اسناد وب در نظر گرفت که حاوی آدرس سرور، شاخه ای روی آن سرور و نام سند مربوطه اند. صفحات دینامیک مورد بحث يك URL حقيقی نداشته و URL آنها پس از تكميل فرم تولید می شود، به همین دلیل علاوه بر آدرس صفحه پاسخگو به درخواست فرم، حاوی اطلاعات ارسالی داخل فرم نیز هست که با URLهای ساده تفاوت دارد.

در این نوشتار به طور کلی منظور از وب پنهان صفحات دینامیک مبتنی بر فرم و منظور از وب سطحی صفحات استاتیک وب هستند.

۲٫۳    واسط های وب پنهان

مفهوم فرم برای برنامه نویسان و متخصصین نرم افزار مفهومی آشنا و تعریف شده است که با مفهوم تعامل با کاربر ارتباطی تنگاتنگ دارد. فرم ها روشی برای گرفتن اطلاعات از کاربران است، که این اطلاعات برای پردازش و تصمیم گیری برای بروز واکنش های متناسب به واحد مشخصی از نرم افزار ارسال می شود. برای نمونه می توان به کلاس های فرم ویندوز اشاره کرد که در طراحی نرم افزارهای تحت ویندوز کاربرد دارند.

فرم های HTML مشابه فرم های به کار گرفته شده در نرم افزارها راهی برای تعامل با کاربران وب سایت هاست که صفحه مقصد، با استفاده از اطلاعات ورودی کاربر اقدام به تولید دینامیک صفحات متناسب می کند. از این رو فرم های HTML به عنوان دریچه ورود به صفحات وب پنهان یا به عبارت دیگر واسط های این صفحات به حساب می آیند. این فرم ها عموما دارای یک یا چند فیلد ورودی (از قبیل جعبه متن، دکمه های رادیویی، دکمه، و …) و یک دکمه ارسال (submit) است.

بسیاری از سرورهای صفحات دینامیک وب توسط اطلاعات گرفته شده از کاربر پاسخ مناسبی از اطلاعات موجود در پایگاه داده خود تولید کرده و در قالب یک صفحه نتیجه HTML به مرورگر کاربر بر می گردانند.

۲٫۴    اهمیت وب پنهان

به طور کلی می توان اهمیت و ارزش وب پنهان را در مقایسه با اسناد دیگر وب (از جمله صفحات استاتیک موجود در وب سطحی) در دو مقوله بررسی کرد:

۱- حجم عظیم اطلاعات: وب پنهان در مقایسه با وب سطحی از حجم بسیار زیادتری از اطلاعات برخوردار است. در تحقیقی که در سال ۲۰۰۰ توسط شرکت BrightPlanet انجام گرفته است نتایج زیر به دست آمده است:

– اطلاعات موجود در وب پنهان بین ۴۰۰ تا ۵۵۰ برابر وب سطحی است.

– وب پنهان حاوی ۷۵۰۰ ترابایت اطلاعات در مقایسه با ۱۹ ترابایت اطلاعات وب سطحی است.

– وب پنهان شامل ۵۵۰ میلیارد سند در مقایسه با یک میلیارد سند وب سطحی است.

– بیش از ۲۰۰۰۰۰ وب سایت در وب پنهان وجود دارد.

۲- کیفیت بالای اطلاعات: وب پنهان رفته رفته به سمت باریک و عمیق تر شدن در موضوعات تخصصی پیش می رود و این موضوع به کاربران کمک می کند تا اطلاعات مورد نظر را کیفیتی قابل توجه در این بخش وب بیابند. ضمن این که استفاده از پایگاه داده (که از خصوصیات وب پنهان است) موجب تسهیل تولید و نگهداری محتواهای تخصصی در یک موضوع شده در صورتی که امکان تامین کیفیت بالای اطلاعات برای وب سطحی با مکانیزم های استاتیک ارائه محتوا وجود ندارد. منظور از کیفیت اطلاعات عبارت است از ارتباط موضوعی اطلاعات با نیازهای کاربران و نیز ملاحظات مربوط به اعتبار و به روز بودن اطلاعات.

در همان تحقیق مذکور آمده است:

– کیفیت کلی محتوای وب پنهان بین ۱۰۰۰ تا ۲۰۰۰ برابر کیفیت محتوای وب سطحی است.

– بیش از نیمی از وب پنهان اطلاعات خود را در پایگاه های داده مختص موضوع ذخیره می کنند.

با توجه به فاکتورهای ارائه شده برای ارزش اطلاعات موجود در وب پنهان و نیز رشد روز افزون این بخش از وب، یقینا راهکارهایی برای جستجو و استفاده از این منبع عظیم اطلاعات اندیشیده شده است که در قسمت های بعدی به آن ها می پردازیم.

۲٫۵     رهیافت های جستجوی وب پنهان

اطلاعات موجود در وب پنهان یا باید به نحوی دسته بندی شده و یا قابل جستجو شوند تا کاربران بتوانند به نحو موثر و بهینه ای اطلاعات مورد نیاز خود را بیابند. راهکارهای ارائه شده در این زمینه به دو دسته ابزارهای سنتی و راهکارهای پیشرفته تقسیم می شوند.

استفاده از ابزارهای سنتی یافتن اطلاعات وب پنهان در حقیقت تکنیک هایی پیشنهاد شده برای استفاده از امکانات عادی موجود در وب است (که برای جستجوی وب سطحی استفاده می شوند). توسط این تکنیک ها می توان بخشی از واسط های وب پنهان را در دسترس کاربران قرار داد.

رهیافت های پیشرفته به معرفی تحقیقات انجام گرفته و تکنولوژی های توسعه داده شده برای دسته بندی خودکار واسط ها، اندیس گذاری واسط ها و نیز اندیس گذاری محتوای وب پنهان می پردازد.

۲٫۵٫۱    ابزارهای سنتی جستجوی وب پنهان

ابزارهای سنتی برای جستجوی سایت های وب پنهان عبارتند از: از «راهنماهای موضوعی وب پنهان» و «استفاده از موتورهای جستجوی عادی»

راهنماهای موضوعی وب پنهان[۱۵]:

راهنماهای وب يكی از مهمترين ابزارهای كاوش در اينترنت به شمار می روند كه توسط انسان ساخته و به روز می شوند و منابع آنها بر اساس موضوع دسته بندی شده اند. در اين ابزارها جستجو را می توان در ساختار موضوعی و به صورت سلسله مراتبی انجام داد. راهنماهای وب بر خلاف موتورهای جستجو، امكان دسترسی سريع و مناسب به اطلاعات معتبر و ارزشمند تحليل شده را منطبق با نيازهای کاربران از طريق ساختار موضوعی نظام مند در اختيار قرار می دهند.

بسیاری از راهنماهای موضوعی موجود، برای دسته بندی واسط های وب پنهان (صفحات حاوی فرم) بر اساس موضوع اطلاعات موجود در پایگاه های داده آن ها استفاده می شوند. کاربر با مراجعه به این راهنماها که راهنماهای موضوعی وب پنهان نامیده شده اند، لیستی از وب سایت هایی حاوی اطلاعاتی مرتبط با موضوع مورد نظرش را مشاهده کرده و به آنها راهنمایی می شود.

دخالت مستقیم انسان در دسته بندی منابع هم نقطه قوت و هم نقطه ضعف راهنماهای موضوعی به شمار می آیند. نقطه قوت اين ابزارها دقيق و مرتبط بودن نتيجه جستجو با موضوع مورد نظر و اعتبار و كيفيت بالای اسناد بازيابی شده است. در واقع نتايج جستجو از طريق راهنماهای موضوعی در هم ريختگی كمتری دارد، زيرا منابع و وب سايتهايی كه پيدا می شوند در اغلب موارد به وسيله متخصصان موضوعی گزينش شده اند، لذا كاربر كل شبكه وب را جستجو نمی كند، بلكه روی طبقه موضوعی انتخاب شده به جستجو می پردازد.

نقطه ضعف این ابزارها نيز پوشش محدود منابع وب و همچنين پايين بودن سرعت توسعه و دسته بندی آن ها در مواجهه با گسترش سریع اطلاعات وب پنهان است. ضمن این که تجربه، سلیقه و ترجیح متخصص موضوعی اثر بسیار زیادی بر یافتن و دسته بندی این منابع دارد.

موتورهای جستجوی عادی:

یکی دیگر از ابزارهای کاوش در وب موتورهای جستجو هستند که منابع موجود بر روی وب را بر اساس کلمات کلیدی آن ها در پایگاه داده خود، برای پاسخ گویی به درخواست های کاربران اندیس گذاری می کنند. در اینجا ابتدا مختصری از طرز کار این ابزارها بیان شده و سپس به بررسی کاربرد آن ها در دست یابی به وب پنهان پرداخته خواهد شد.

طرز کار موتورهای جستجو عموما مشابه و شامل سه مرحله است: پیمایش وب[۱۶]، اندیس گذاری[۱۷] صفحات، پاسخ گویی به درخواست[۱۸] کاربران.

پیمایش وب عملی است که توسط عامل های نرم افزاری مخصوصی به نام «روبوت» یا «خزنده[۱۹]» یا «عنکبوت[۲۰]» انجام می گیرد. روبوت ها با دنبال کردن لینک های موجود در صفحاتی که به آنها وارد می شوند، به صفحات جدید می روند و کلیه صفحات طی شده را اندیس گذاری می کنند.

هدف از اندیس گذاری صفحات و ذخیره این اندیس ها در پایگاه داده موتور جستجو بهینه کردن سرعت و کارایی یافتن منابع مرتبط با درخواست کاربر است.

بخش پاسخگو به درخواست های کاربران سه کار عمده انجام می دهد: پردازش درخواست، جستجو و تطبیق منابع با توجه به خصوصیات درخواست، و در نهایت درجه بندی نتایج. موتور جستجو نتایج درجه بندی شده بر اساس میزان ارتباط با درخواست کاربر را در قالب یک لیست از لینک هایی به سند مربوطه برای وی نمایش می دهد.

موتورهای جستجوی عادی فقط قادر به پيمايش و اندیس گذاری صفحاتی از وب هستند که لینکی به URL آن ها در جای دیگری از وب موجود باشد. این صفحات که متعلق به وب سطحی هستند، ممکن است حاوی فرم های HTML باشند، که همانگونه که اشاره گردید واسط های وب پنهان را تشکیل می دهند. به عبارت دیگر موتورهای جستجو می توانند واسط های وب پنهان را اندیس گذاری کنند. کاربرانی که به دنبال وب سایت های مرتبط با یک کلمه کلیدی هستند می توانند با درج آن کلمه و کلمه «database» در درخواست خود، لیستی از لینک های متصل به این گونه صفحات واسط وب پنهان را از یک موتور جستجوی عادی دریافت کند.

موتورهای جستجوی عادی نسبت به راهنماهای موضوعی وب پنهان محدوده وسیع تری از وب را (البته با کیفیت اطلاعات کمتر) پوشش می دهند. ولی از آنجا که قادر به ارسال مستقیم درخواست کاربر خود به فرم ها و برگرداندن اطلاعات موجود در وب پنهان نیستند، فقط به عنوان یک تکنیک دسترسی به وب پنهان به حساب می آیند.

ابزارهای سنتی، طبعا ابتدائی ترین راهکارهایی است که در مواجهه با وب پنهان ارائه می شوند و چون اصل ابزار برای جستجو در وب سطحی ساخته شده است، نقاط ضعف زیادی دارند که رهیافت ها و تکنولوژی های پیشرفته با معادل سازی این ابزارها سعی در رفع این نواقص دارند. در قسمت های بعدی این نوشتار، این رهیافت های پیشرفته که مخصوصا با توجه به خصوصیات وب پنهان ارائه شده اند معرفی خواهند شد.

۲٫۵٫۲   رهیافت های پیشرفته جستجوی وب پنهان

رهیافت های پیشرفته، در واقع پروژه ها و محصولاتی معادل ابزارهای سنتی (یعنی فهرست ها و موتورهای جستجو) هستند که کار دسته بندی و اندیس گذاری صفحات وب پنهان را به صورت خودکار و با کارایی بسیار زیادتری انجام می دهند. این پروژه ها به دو دسته تقسیم می شوند: «دسته بندی خودکار وب پنهان» و « موتورهای جستجوی وب پنهان» که به صورت مبسوط شرح داده می شوند.

۲٫۶     دسته بندی خودکار وب پنهان

همانگونه که قبلا اشاره شد، فرم های HTML واسط بین کاربران و منابع اطلاعاتی وب پنهان (یعنی پایگاه های داده) هستند. تحقیقات زیادی در زمینه فراهم آوردن راهکارهایی برای بهبود عملکرد ابزارهای سنتی دسته بندی واسط های وب پنهان بدون دخالت عوامل انسانی انجام گرفته است که در موارد بسیاری منجر به تولید محصولات نرم افزاری جدیدی گردیده که نواقص ناشی از دسته بندی این واسط ها توسط انسان را تا حد زیادی از میان بر می دارد .

تحقیقات و مطالعات انجام گرفته برای دسته بندی خودکار وب پنهان بر روی دو موضوع متمرکز بوده اند:

– کشف واسط های وب پنهان

– دسته بندی واسط های وب پنهان

در ادامه تکنولوژی های حاصل از این تحقیقات به همراه نمونه هایی از آن ها ذکر خواهد شد.

برای دانلود نسخه ورد فایل ، از لینک زیر اقدام کنید:

فرمت : ورد با قابلیت ویرایش در متن

با رعایت کامل دستورات نگارشی و شیوه ارائه مطلب

تعداد صفحات: ۳۶صفحه

همچنین ببینید

شبکه های حسگر،پروژه و پایان نامه

شبکه های حسگر  پروژه و پایان نامه جهت اخذ مدرک کارشناسی و کارشناسی ناپیوسته در …

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *




ارسال