فال

قالب وبلاگ

قالب وبلاگ

اس ام اس عاشقانه

نمایه سازی موتورهای وب - نمایه


نمایه
 
پيوند ها

محل درج آگهی و تبلیغات
 
نوشته شده در تاريخ شنبه ۱٥ تیر ۱۳۸٧ توسط نمایه

نمایه سازی موتورهای وب  و اهمیت آن در بازیابی اطلاعات جهان مجازی

چکیده
با پیدایش دنیای مجازی شاهد ظهور انقلاب دیگری تحت نام انقلاب اطلاعات هستیم.   
 از سوی دیگر حجم انبوه اطلاعات کاربران را بر آن داشته تا به کیفیت اطلاعات بیش از کمیت آن بیندیشند. اطلاعات روز آمد، دقیق و معتبر سه ویژگی مهمی است که لازمه کار هر محقق می باشد. لذا رشد فناوری های نو ظهور، روشهای جدیدی را به منظور سازماندهی اطلاعات جهت بازیابی دقیق آن به یاری می طلبد.

با استفاده از روشهای نوین سازماندهی، اطلاعات مفید از اطلاعات سیال و ناپایدار استخراج شده و کاربر به سهولت می تواند به اطلاعات مورد نیاز خود دسترسی پیدا کند. یکی از مهمترین این راهکارها، نمایه سازی وب است. دنیای وب با مدد از این راهکار دریچه ای نو را به روی کابرانمی‌گشاید. در این مقاله می کوشیم تا با نگاهی به نمایه سازی وب، به بررسی انواع نمایه، نمایه سازی در موتورهای جستجو، ابر موتورها و ابر داده ها از جمله ابر داده دوبلین کور ، بازنمود نمایه در وب و معرفی نرم افزارهای نمایه سازی بپردازیم و بستری مناسب جهت اهمیت و نقش آن در بازیابی اطلاعات جهان مجازی فراهم آوریم.

 کلید واژه ها: نمایه[1]، نمایه سازی وب[2] ، موتور جستجو[3]، ابر موتور جستجو[4]، ابر داده[5]،دوبلین کور[6]، بازنمود نمایه

مقدمه
 
رشد تصاعدی فضای اطلاعاتی وب، آلودگی اطلاعات را دامن زده است، از سوی دیگر وجود اطلاعات میرا و سیال اهمیت نمایه سازی وب را بیش از پیش مطرح می سازد. لذا آنچه که  برای کاربران وب مهم است، دستیابی سریع و آسان به اطلاعات دقیق، روزآمد و دارای اعتبار می باشد، نه حجم انبوه اطلاعات. نمایه سازی کارآمد، به کاربر امکان بازیابی اطلاعات دقیق، صحیح و روز آمد را می دهد. به بیان دیگر نمایه سازی وب فرآیند پالایش و فیلتر  اطلاعات دنیای وب است و نمایه ساز پالاینده  اطلاعات آن. باید دانست که نمایه سازی وب مفهوم جدیدی نیست.

  
نمایه سازی وب

با گسترش حجم انبوه اطلاعات و به اشتراک گذاری آن و رویکرد روز افزون برقراری ارتباطات از طریق اینترنت بحث سازمان دادن اطلاعات به قصد سهولت در بازیابی مطرح می باشد. یکی ازکارآمدترین روشهای بازیابی، نمایه سازی وب     می باشد. نمایه وب منابعی را که از طریق  world wide webدر دسترس هستند جمع آوری و سازماندهی مینماید و نقطه شروعی برای یافتن اطلاعات می باشد. در وب نمایه ها ممکن است به روشهای گوناگونی سازماندهی شوند. شیوه سازماندهی یک نمایه با نمایه دیگر فرق میکند، نمایه ها می توانند به طور الفبایی، موضوعی (رده ای) و ... سازماندهی شوند. نمایه های موضوعی اغلب منابع شان را طبق یک نظم سلسله مراتبی از اعم به اخص مرتب می کنند.. نمایه های وب برای نشان دادن لیستهای منابع خود ازپیوندهای فرا متن استفاده می کنند، آنها این امکان را دارند تا از طریق لینک ها صدها و بلکه هزاران منبع را در بر بگیرند. عموما تمام نمایه ها یک نقطه اتصال دهنده مستقیم به منابع فهرست شده را به کاربران عرضه می کنند.

 لذا این نکته به خوبی قابل احساس است که ساختارهای وسیع و جامع یک متن برای دسترسی آسان تر نیاز به سازماندهی و نظم منطقی دارند. از دید یک محقق یا کاربرمعمولا دسترسی آسان به اطلاعات به بیش از یک استراتژی جستجو نیازمند است و نهایتا همه آنها به فرآیند سازماندهی فایلهای HTML درزیر فهرستهایی منتهی می شوند.

این زیر فهرستها هم به تهیه کننده اطلاعات و هم به کاربر وب سایت کمک می کند. در این حالت کاربر می تواند براساس یک کد، یک نام فایل،یا محتوای یک عنوان جستجو کند.به عنوان مثال یکی از راههای دسترسی به این موارد برنامه ای به نام CGI می باشد.[ http://www.cu.edu/]

 نمایه های وب برای نشان دادن لیستهای منابع خود از پیوندهای فرا متن استفاده می کنند، آنها این امکان را دارند تا از طریق لینک ها صدها و بلکه هزاران منبع را در بر بگیرند.

تعدادی از نمایه های مشهور وب به شرح ریر می باشند:[ : http://www.ext.nodak.edu/ ]

●Yahoo!TM
●The WWW Virtual Library
●Trade Wave Galaxy
فهرست خدمات اینترنتی Yanoff
●The Argus Clearinhouse
●Magellan
●Point

 دو عامل مهم در نمایه سازی وب

نمایه، یک مخزن جامع از اطلاعات در دسترس نیست اگر چه آنها می توانند هزاران منبع را فهرست کنند. در واقع نمایه های وب ما را به فهرستها و راهنماها ارجاع می دهند. این نوع نمایه ها نیاز به یک نرم افزار و یک زبان نمایه سازی خاص دارند.

الف- زبان نمایه سازی

زبان نمایه سازی آن دسته از واژگان نمایه سازی است که در نظام خاصی از ذخیره و بازیابی مورد استفاده قرار می گیرد. "زبان " می تواند طبیعی، یعنی زبان مدرک نمایه سازی شده باشد، یا ساختگی یا کنترل شده باشد(یعنی از نوعی تنظیم برخوردار باشد. (سلطانی، 1382، ص 180)

عملکرد نظام بازیابی متاثر از کیفیت زبان نمایه است. وجود نمایه سازی و جستجوی خوب نمی تواند زبان نمایه نامناسب را جبران کند به عبارت دیگر کاربران اطلاعات فقط به آن اندازه می توانند عمل نمایند که زبان نمایه مجاز می شمارد. ناتواناییهای زبان نمایه بر دو نوع است: 1-عدم توانایی به خاطر ویژگی در اصطلاحات 2-عدم توانایی به خاطر ابهام یا روابط کاذب بین اصطلاحات. (لانکاستر، 1379، ص179)

 عمدتا زبانها دو نوع هستند:

1-       زبانهای مهار شده (Controlled language)

این زبانها، حاوی اصطلاحاتی هستند که برای نمایه سازی مدارک انتخاب و پذیرفته شده اند، فهرست ها سر عنوانهای موضوعی و اصطلاحنامه ها دو شیوه متفاوت زبان نمایه سازی مهار شده است. اصطلاحنامه پس از شرح زبانهای آزاد توصیف می شود.

2-      زبانهای آزاد (Free language)

در این نوع زبانها محدودیتی ازنظر نوع واژه وجود ندارد، هر واژه یا اصطلاح می تواند بدون قید و شرط از زبان طبیعی گرفته شود، یعنی عینا از زبان مدرک نقل گردد و یا متناسب با موضوع مدرک تعیین شود. ازنمایه سازی به زبان طبیعی هم می توان در ساخت واژگان موضوع الکترونیکی و هم در تولید نمایه نامه های چاپی استفاده کرد. یکی از کاربردهای نمایه سازی به زبان طبیعی تولید نمایه هایی است که مبتنی بر واژه های عنوان می باشد. مانند: نمایه کوئیک، نمایه کووک و نمایه جایگشتی.(داورپناه،1381،ص33)

 ب- نرم افزارهای نمایه سازی وب

بسته به اینکه در وب مورد نظر چه اطلاعاتی را می خواهیم نمایه سازی کنیم (اطلاعات می توانند یک سند، یک Full text ، تصاویر و ... باشند) نرم افزارهای گوناگونی برای نمایه سازی وب موجود می باشد:

 
نرم افزارهای نمایه سازی وب

Advanced Java Tree Menu
PHP Lightning Portal (PLP)
PHP Portal Builder (PPB)
ActMon Password Recovery XP
Internet Macros Web Test Recorder

 نرم افزارهای نمایه سازی لینکها

PHP Lightning Portal (PLP)
PHP Portal Builder (PPB)
Registry First Aid
IEManager
Advanced Java Tree Menu

 نقش موتورهای جستجو در نمایه سازی وب

حجم انبوه اطلاعات وب و عدم نمایه سازی جامع، متخصصان این حوزه را برآن داشته تا با مدد از فن آوری افکار، موتورهای جستجو را بکار گیرند و راهکاری مناسب جهت نمایه سازی را فراهم آورند. از سوی دیگر برخی از وب سایت ها برای اطمینان از بازیابی بیشترین رتبه بندیهای مرتبط، از اصطلاحات کلیدی استفاده  می کنند، این در حالی است که تعدادی دیگر از نمایه سازی کور بهره می گیرند.

مشکل اصلی این نوع نمایه سازی اضافه بازیابی است که حجم زیاد اطلاعات نامرتبط را شامل می شود، لذا جهت افزایش جامعیت و مانعیت بازیابی، موتورهای جستجو به عنوان یک راهکار مطرح شدند. (دیگان، 1382، ص 161)

موتورهای جستجو، ابر موتورها و ابر داده ها در واقع ابزارهای کمکی برای نمایه سازی و ارائه اطلاعات مرتبط با موضوع مورد جستجو در اینترنت هستند.

نمایه ها اساس کار موتورهای جستجو در رتبه بندی نتایج جستجو و ترکیب منطقی واژه ها (جستجوی بولی) برای بازیابی اطلاعات در اینترنت را تشکیل می دهد. اما بزرگترین موتورهای جستجو هم قادر به نمایه سازی وب نیستند. برخی از این موتورها نظام نمایه سازی تمام متن دارند و هر واژه موجود درمتن به جز واژه های فاقد بار اطلاعاتی مانند حروف اضافه، ربط و تعریف را نمایه می کند. برخی بخشی از منبع را نمایه می کنند.برخی دیگر، سرعنوانها، عناوین فرعی و فراپیوندها را همراه 20 خط ابتدای متن و 100 کلمه ای که از بسامد بالایی برخوردار است، نمایه می کنند. (داورپناه،1381،ص 84)

از دیدگاه مدیریت نظام اطلاعاتی چهار ویژگی اصلی برای اطلاعات بازیابی شده قابل لحاظ است: دقت[7]، پیوستگی زمانی[8]، بهنگام بودن[9] و مرتبط بودن[10].(منتظر،1380، ص 31) لذا نمایه سازی باید بر مبنای چهار ویژگی مذکور انجام پذیرد. بنابراین جهت رسیدن به نمایه سازی جامع و مانع وب به نمایه سازی دقیق موتورهای جستجو نیاز داریم.

 
انواع نمایه سازی موتورهای جستجو

نمایه سازی وب می تواند از طریق روشها و ابزارهای اتوماتیک یا به وسیله نیروی انسانی انجام بگیرد. در نمایه سازی از نوع دوم اشخاص حقیقی منابع را شناسایی و جمع اوری می نمایند، سپس آنها را بازبینی، سازماندهی و طبقه بندی می کنند.

موتورهای جستجویی مانند گوگل توسط یک  web Crawler شاخص گذاری شده اند.  Web Crawler ابزاری است که در لابه لای شبکه جهانی وب می خزد و سایت های جدید را مورد جستجو قرار می دهد؛ چنانچه وب سایت جدیدی یافت شد آدرس آن به پایگاه داده اضافه می گردد.

فهرست موتور جستجوی گوگل شامل بیش از یک بیلیون URL می باشد. قلب این موتور نرم افزار Page Rank TM است، سیستمی برای رتبه بندی صفحات وب که توسط لری پیچ و سر جی برین، موسسان آن، در دانشگاه استن فورد ساخته شده است. رتبه صفحه با استفاده از ساختار لینک معتبر بر روی خاصیت دموکراتیک منحصر به فرد تکیه می کند. گوگل لینکها را از صفحه الف تا ب چک می کند و از آراهای مختلف دریافت شده برای این رتبه بندی استفاده می کند. صفحات با کیفیت بالا Page Rank TM بالاتری دریافت می کنند که گوگل بعد از هر جستجو به خاطر می سپارد. گوگل از ترکیب Page Rank TM و روشهای پیشرفته جور کردن متن برای یافتن صفحات با اهمیت و در عین حال مربوط به متن جستجو شده استفاده می کند. همچنین از تعداد تکرار کلمات متن جستجو شده پا فراتر نهاده و برای تشخیص اینکه این صفحه با کلمات مورد جستجو هماهنگی دارد، تمام وجوه محتوای صفحه و صفحات متصل شده به آن را بررسی می کند.

 موتورهای جستجوی altavista, Hotbotو Excite  برای تفسیر پایگاه داده خود از ترکیب ماشین و انسان استفاده می کنند، در صورتی که موتور جستجوی  Yahooتوسط انسان ترجمه می شود. کاربران آدرسURL وب سایت های خود را برای موتور جستجو ارسال می کنند، سپس سایت مربوطه مورد بازبینی قرار می گیرد و یک انسان سایت را طبقه بندی می کند و در مورد عبارات جستجوی مربوطه تصمیم گیری می کند. در موتور جستجوی Yahoo ابزارهای نمایه سازی چشمشها و بازوهای انسان جهت تصمیم گیری اینکه کدام کلید واژه ها و اقلام مناسب هستند و سپس نمایه سازی صحیح مطرح است.

این در حالی است که بسیاری از سایت‌های وب،  از روش «نمایه انتهای کتاب در وب» برنامه‌ای برای جستجوی سایت خود طراحی کرده‌اند. این برنامه‌ها همچون جستجو در فایل‌های تمام متن می‌تواند در نتایج جستجوی خود دارای مدارک نامرتبط و در اصطلاح همراه با ریزش کاذب باشد.اگر در چنین سایت‌هایی نمایه‌ای شبیه آنچه در انتهای کتاب‌ها دیده می‌شود به وجود آید، مراجعه‌کننده می‌تواند به سرعت و با استفاده از لیست به مدخل مورد نظر خود وارد شود و با سرعت بالا و از دست دادن زمان کمتری به مدارک مورد نیاز خود وحتی به مدارک مرتبط با آن نیز دسترسی یابد.

سایت وب شرکت نرم‌افزاری Adobe با داشتن نمایه‌ای از نوع کواک(1) و نیز موتور کاوش ویژه سایت، سعی در بالا بردن دسترس‌پذیری موثر اطلاعات سایت خود نموده است.سایت دانشگاهی جورج تاون نیز نمایه موضوعی A-Z را در قسمت ابزارهای دسترسی به اطلاعات در صفحه خانگی خود قرار داده است. (کمیجانی)

 فن آوری موتورهای جستجو

وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می شود، کاربران در واقع نتیجه کار بخش های متفاوت موتور جستجوگر را می بینند. موتور جستجو اطلاعات را از پایگاه اطلاعاتی خود مورد جستجو و بازیابی قرار می دهد و اینطور نیست که همان لحظه اطلاعات را از اینترنت به دست آورد، بلکه از قبل اطلاعات را از اینترنت گرفته و در پایگاه خود ذخیره   می کند.

در ابتدا مرحله گردآوری اطلاعات صفحات وب را داریم از طریق روباتهای اطلاعاتی می توانیم به جستجوی مستمر و مداوم اطلاعات در صفحات وب بپردازیم. از جمله روباتهای اینترنت می توانیم به Spider ها و Crawler ها اشاره کنیم.

اسپایدر، اینترنت را برای اسناد جدید وب مورد جستجو قرار می دهد و آدرسهای آنها و اطلاعات مربوط به محتوا را در بانک اطلاعاتی قرار می دهد که با موتور جستجو می توان آن را در دسترسی قرار داد.( (هیئت مولفان و ویراستاران انتشارات میکروسافت،1382،ص 544) کار اسپایدر بازبینی کدهای HTML صفحات وب می باشد در حالی که کاربران وب  نتیجه حاصل از کنار هم قرار گرفتن این کدها را می بینند.


   
 
 شکل 1- نتیجه حاصل از قرار گرفتن کدها و آنچه که کاربر می بیند

 

شکل 2 - آنچه اسپایدرها می بینند


در حالی که کراولر، نرم افزاری است که به عنوان یک فرمانده برای اسپایدر عمل می کند و مشخص می کند که اسپایدر کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم می گیرد که کدام یک از لینک های صفحه ای که اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. کراولر، ممکن است قبلا" برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال کردن لینک های یک صفحه به این بستگی دارد که موتور جستجوگر چه حجمی از اطلاعات یک سایت را می تواند در پایگاه
 داده هایش ذخیره کند و همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد.  تنظیم میزان دسترسی موتورهای جستجوگر به محتوای یک سایت توسط پروتکل Robots انجام می شود. (http://www.iranseo.com)

سپس اطلاعات جمع آوری شده توسط اسپایدر در اختیار ایندکسر قرار می گیرد. در این بخش اطلاعات ارسالی مورد تجزیه و تحلیل قرار می گیرند و به بخش های متفاوتی تقسیم می شوند. تجزیه و تحلیل بدین معنی است که مشخص می شود اطلاعات از کدام صفحه ارسال شده است، چه حجمی دارد، کلمات موجود در آن کدام است، چندبار تکرار شده است، در کجای صفحه قرار دارند و ... . در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای کاهش حجم داده ها از بعضی کلمات که بسیار رایج هستند صرفنظر می کند. کلماتی نظیر a ، an ، the ، www ، is و ... . از این گونه کلمات هستند.( http://www.iranseo.com)
آنگاه داده های تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال می گردد. در این بخش داده ها گروه بندی، کدگذاری، در صورت لزوم فشرده و ذخیره می شوند.یک موتور جستجوگر باید پایگاده داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده یک موتور جستجوگر برای آن امتیاز محسوب می گردد. یکی از تفاوتهای اصلی موتورهای جستجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره سازی داده ها در پایگاه داده است.(http://www.iranseo.com)

سرانجام در هنگام جستجو نرم افزار کاوش به کاربر این امکان را می دهد که از میان همه صفحات موجود در نمایه، آنچه را مورد جستجو است، یافته و بر اساس میزان تناسب و ارتباط آن با درخواست، واژه یا عبارت مورد نظر را رتبه بندی می کند. در واقع نرم افزار جستجو رابط بین کاربر و اطلاعات نمایه شده است. بخشی از این نرم افزار کار رتبه بندی اطلاعات بازیافتی را انجام می دهد.

معمولا برایی رتبه بندی دو ویژگی مهم در نظر گرفته می شود:

 محل درج کلید واژه: اینکه کلید واژه در کجای صفحات وب قرار دارد. کلید واژه ای که در عنوان قرار دارد به کلید واژه های دیگر ارجحیت دارد.

● تعداد تکرار (بسامد) اغلب موتورهای جستجو میزان تکرر کلیدواژه ها را نسبت به سایر واژه های موجود در صفحات وب می سنجند و واژگانی را که از بسامد بیشتری برخوردار باشند به عنوان واژگان دارای ارتباط و تناسب بیشتر معرفی می کنند. همچنین در برخی موتورهای جستجو مانند Excite وجود پیوندهای بیشتر در یک صفحه وب به سایر صفحات یا ایستگاههای اطلاعاتی ارجحیت دارد. (منتظر،1380)

 

شکل 3- ساختارعمومی موتورهای جستجو (منتظر،1380، ص 36)


نمایه سازی وب و ابر موتورها

از ابرداده ها برای جستجو، سازماندهی و بازیابی منابع الکترونیکی موجود در شبکه جهانی اینترنت استفاده می شود.اساس کار آنها همان نمایه سازی موتورهای جستجو می باشد. نکته مهم این است که ابر موتورها دارای پایگاه اطلاعاتی مختص به خود نیستند؛ به گردآوری اطلاعات صفحات وب نمی پردازند؛ صفحات وب را بررسی، طبقه بندی و یا نمایه سازی نمی کنند بلکه کلید واژه ها یا عبارتهای مورد جستجو را به طور همزمان به چند موتور جستجو، که در ساختار ابر موتور تعریف شده است، ارسال می کنند و نتایج را به صورت منظم و طبقه بندی شده ارائه و رکوردهای تکراری حاصل را حذف می نمایند. (منتظر،1380)

تعدادی ابر موتور جستجو در زیر آورده شده است:

Metacrawler, Metafind, Cyber 411, Inference Find, Super Seek, Dogpile

باهوشترین ابر جستجوی دنیای وب  ixquick می باشد که بسیار منطقی ومتفکر است و جوابهای بازگشتی را بر حسب مورد جستجو آنالیز و رده بندی می کند. از ویژگیهای این ابرجستجوگر به موارد زیر می توان اشاره کرد:(نائینی علی اکبری، 1380، ص299-300)

● جامعیت و صحت نتایج: هنگام جستجو این ابر موتور جسجو به طور همزمان چندین موتور جستجو را مورد کاوش قرار   می دهد

● قدرت پالایش نتایج

● سرعت بالا

● رده بندی جوابها: ixquick برای هر موتور جستجو که آن را به عنوان یکی از ده نتیجه بهتر برای جستجو انتخاب می شود یک علامت ستاره و اگر 5 موتور جستجو بر روی یک نتیجه به توافق برسند علامت 5 ستاره را نشان می دهد.

● دارای جستجو به 18 زبان زنده دنیا می باشد.

● کار با آن آسان است

● از سیزده موتور جستجو و دایرکتوری برتر دنیای وب بهره می گیرد. هر چه نمایه سازی این موتورها دقیق تر و جامعتر باشد، بازیابی و پالایش اطلاعات توسط ابرموتور نیز از جامعیت و دقت بیشتری برخوردار است. این موتورهای جستجو و دایرکتوری ها عبارتند از:

1. موتور جستجو Altavista http://www.altavista.com
2. موتور جستجو
AllTheWeb http://www.alltheweb.com
3. موتور جستجو
Ask Jeeves http://www.ask.com
4. موتور جستجو
Teoma http://www.teoma.com
5. موتور جستجو
Entire Web http://www.entireweb.com
6. پروژه
 Open Directory http://dmoz.org
7. موتور جستجو
Go http://www.gojester.com
8. موتور جستجو
LookSmart   http://www.looksmart.com/r?country=uk
9. موتور جستجو
Netscape http://www.Netscape.com  
10. موتور جستجو
Gigablast  http://www.Gigablast.com
11.موتور جستجو
Overture   http://www.content.overture.com/d
12. موتور جستجو
WiseNut  http://www.wisenut.com
13. دایرکتوری
 Yahoo http://www.yahoo.com



شکل 4- باهوشترین ابر جستجوی دنیای وب
ixquick

 
نمایه سازی وب و ابر داده ها

ابر داده در معنای وسیعش "داده ای درباره داده" می باشد: اطلاعاتی که معنای اطلاعات دیگر را انتقال می دهد.اما این اصطلاح معمولا برای داده های ساخته شده در باره منابعی به کار برده می شود که می تواند نوعی از عملیات را پشتیبانی کند. این داده، ساخته شده که در حد یک ماشین قابل فهم شود. اصطلاح ابر داده می تواند برای هر داده توصیفی به کار برده شود و در جامعه کتابداری و اطلاع رسانی می تواند برای توصیف فهرستهای کتابشناختی یا پایگاههای اطلاعاتی استفاده شود. از رکورد فهرست یک کتابخانه می توانیم به عنوان یک ابر داده نام ببریم. به طور مشابه رکودهایی که در نتیجه خدمات نمایه سازی و چکیده نویسی یک پایگاه داده حاصل میشود ابر داده هستند. به طور فزاینده اصطلاح ابرداده در جهان اطلاعات، برای تعیین کردن رکودهایی که به منابع دیجیتالی قابل استفاده در شبکه ارجاع می دهند استفاده می شود.
 ویژگی ها و کاربردهای ابرداده به شرح زیر می باشد:( محمدی، 1383)

1-تسهیل جستجو و بازیابی منابع اطلاعاتی شبکه اینترنت

2-نظم بخشیدن به منابع اطلاعاتی موجود در اینترنت

3-توصیف پایگاههای اطلاعاتی، تصاویر دیجیتالی،فایلهای صوتی و سایر منابع غیر متنی شبکه

4-تحلیل محتوا و نمایه‌سازی و سازماندهی انواع منابع اطلاعاتی شبکه

5-تطبیق، اشتراک و یکپارچه‌سازی منابع اطلاعاتی ناهمگن شبکه اینترنت

6-فراهم‌آوردن زمینه استفاده مجدد از انواع اطلاعات توزیع شده در محیط شبکه از طریق مستند سازی محتوای اطلاعات.

7-ایجاد امکان دسترسی کاربران شبکه به اطلاعات دقیق و مرتبط

8-مدیریت بر‌حجم گسترده‌ای از اطلاعات شبکه اینترنت

 ابرداده نه تنها به جستجو و بازیابی موثر منابع اطلاعاتی ناهمگن می پردازد, بلکه اطلاعاتی را که دسترسی بدان ها محدود است برای شیوه و نوع استفاده  کاربران مدیریت می کند.( مختاری نبی، 1382)

ابر داده ها، نمایه سازی طیف وسیعی از انواع اطلاعات را بدون نیاز به عرض باند شبکه فراهم می سازد. ازجمله این  ابرداده ها می توان به قالب ابرداده ای دوبلین کور اشاره کرد.اصطلاح 'Dublin Core' مختصر شده عبارت انگلیسی  " Dublin Metadata Core Element Set" می باشد. دوبلین کور یک فهرست هسته از اصول ابر داده است که در مارس 1997به توافق کارگاه ابر داده OCLC/NCSA رسیده است. این کارگاه توسط OCLC و مرکز ملی کاربرد ابرکامپیوترها (NCSA) [11]به منظور توسعه و پیشرفت یک رکورد ابر داده که اطلاعات الکترونیکی شبکه شده را توصیف می کند، تشکیل شده است.

این کارگاه پیرو جلسات و بحث های انجمن کتابداران آمریکا می باشد.استوارت ویبل[12] هدف این کارگاه را چنین بیان  می کند: (( Heery, 1996, pp. 345-373.

 
1. پروراندن یک درک مشترک از نیازها، تواناییها، کمبودها و اندیشیدن راه حلهای آنها

2. به توافق رسیدن بر روی مجموعه ای هسته از عناصر ابر داده که منابه الکترونیکی تحت شبکه را توصیف می کند.

 
طبق ویرایش منتشر شده در تاریخ 15-05-2005عناصردوبلین کور به شرح زیر می باشند:

1.عنوان[13] 2.پدیدآور[14] 3.موضوع[15] 4. توصیف[16] 5.ناشر[17] 6.همکار[18] 7.تاریخ[19]  8.نوع منبع[20] 9.قالب[21] 10.شناساگر[22] 11.منبع[23]: همه یا بخشی از منبع حاضر ممکن است ازیک منبع ردیف اول گرفته شده باشد. 12.زبان [24] 13.ارتباط[25]: منظور یک ارجاع به یک منبع رابط می باشد 14.دامنه[26] 15.حقوق منبع[27]

 


 شکل 5- عناصر پانزدگانه  دوبلین کور

 
این پانزده عنصر انتخابی، تکرار پذیر و قابل تعمیم هستند. همچنین آنها می توانند از طرق متعددی مشروط شوند مثلا محتوای فیلد موضوع می تواند داده هایی از یک طرح مانند سرعنوانهای موضوعی کتابخانه کنگره را در بر بگیرد. (http://dublincore.org)

پیاده سازی کنونی دوبلین کور در وب اغلب بر اساس ابر داده ای تحت HTML و meta tagها می باشد.

هر حال با حرکت وب به سمت XML شاید در آینده، دوبلین کور در وب ازRDF  استفاده کند.RDF مخفف عبارت Resource Description Framework می باشد.RDF یک زبان عمومی برای بیان یک ابرداده وب، یا اطلاعاتی درباره اطلاعات بر روی سایت می باشد. از طرفی واضح است که ابر داده ها علاوه بر یافتن منبع، کاربردهای بیشتری نیز دارند. برای مثال ابر داده میتواند برای کمک در اداره کردن بازیابی منابع بر اساس نیازهای تکنولوژیکی کاربران استفاده شود.هم اکنون ابر داده در فیلتر سازی اطلاعات به کاربران از طریق طبقه بندی حجم خدمات نقش دارد.ابرداده همچنین می تواند دسترسی به منابع را مدیریت کند. نقش بالقوه ابر داده در تعیین اعتبار و فرآهم کردن راه حل مشکلات مختلف حفاظت اطلاعات می باشد. اما تاکید بر این نکته که چطور ابر داده به خوبی در یک محیط دیجیتالی عمل می کند به خلق و قوت کیفیت ابر داده بستگی دارد.

شکل زیر مدل ابرداده دوبلین کور را نشان می دهد. هر عنصر زیر جزهایی دارد.

 


 شکل 6- Magazine, June 1997

 
به طور کلی روند بازیابی کاملا به نحوه نمایه سازی اطلاعات وابسته است. هرچه نمایه دقیقتر و منظمتر باشد بازیابی اطلاعات سریعتر و آسانتر است. از طرفی نمایه سازی باید کاربر مدار باشد.بنابراین در سیستمهای نمایه سازی توجه به نیاز کاربران سیستم، زبان، دانش آنها و محیط کاربرد اطلاعات (که تاثیر عمده ای به زبان کاربران دارد) بسیار مهم است. (رزم گیر،1384، ص 221)

 
بازنمود نمایه در وب

نهایتا بحث نمایش نمایه اطلاعات الکترونیکی مطرح می شود. نمایه وب به سه صورت نمایش داده می شود:

1. نمایش تیتر حرف

2. جعبه فورم[28]

3. نمایش سنتی

 
نمایش تیتر حرف

دراین روش یک یا دو ردیف حروف الفبای فارسی یا انگلیسی در صفحه وب نمایش داده می شود.هر حرف یک ابر پیوند  می باشد که با کلیک بر روی آن به فهرستی که مدخلهای آن با همان حرف آغاز شده اند دسترسی پیدا میکنیم هریک از این مدخلها خود یک ابر پیوند هستند و ما را به منبع اصلی اطلاعات متصل می کند.مثال زیر نمونه ای از این نوع نمایش می باشد:


 


گاهی این نوع از نمایش توسعه بیشتری پیدا کرده است. بدین صورت که از طریق کلیک بر روی یک ابر پیوند حرف به
 ابرپیوندهای دوحرفی از همان حرف می رسیم که با کلیک بر روی ابر پیوند مورد نظر به لیستی از مدخلها می رسیم و می توانیم موضوع موردنظر را انتخاب و به متن اصلی برسیم مثالی از این مورد در سایت دایره المعارف بریتانیکا مشهود می باشد

 
 


نمایش جعبه فورم

جعبه فورم کل مدخلهای نمایه را در بر می گیرد. واحد اصلی نمایه مدخل می باشد.از آنجا که تمام مدلهای نمایه در یک ستون از صفحه نمایش کامپیوتر قرار نمی گیرد، برای رسیدن به مدخل مورد نظر باید مدخلها را طومار نمایی کرد. با لغزاندن و کشاندن ماوس بر مربع های کوچک حاشیه فورم، مدخلهای نمایه را بالا و پایین برد تا بالاخره، مدخل مورد نظر به گستره دید فورم برسد.در این صورت با کلیک کردن بر روی مدخل مورد نظر، صفحه متناظر متن بر کنار مستطیل فورم نمایان می گردد. جعبه فرم ممکن است از یک فهرست تک سطحی ، یا یک فهرست سلسله مراتبی چند سطحی تشکیل شده باشد. منظور از فهرست چند سطحی که معمولا در کنار متن نمایش داده می شود مدخلهایی است که با کلیک بر روی آنها زیر مدخل سطح بعدی نمایان می شود و مانند یک ساختار درختی عمل می کند.

 
نمایش سنتی

این نوع نمایش مانند نمایه کتاب است. در این نوع نمایش می توان از ابر پیوندها استفاده کرد. در شیوه سنتی در محیط الکترونیکی، نمایه، ‌‍«دقیقا» همانند کتاب، به صورت دو ستونه و صفحه به صفحه و با سر صفحه و غیره نمایش داده می شود: خواه با ابر پیوند خواه بدون آن. در این شیوه، نمایه، عینا مانند نمایه کتاب، در انتهای صفحه های کتاب قرار داده می شود. اما در مواردی، نمایه الکترونیکی شبیه نمایه سنتی است، ولی جلوی هر مدخل آن، عدد 1 آمده است. یعنی ظاهرا کاب یا متن الکترونیکی شامل یک صفحه است! در این حالت، کاربر باید ماوس را بر روی عدد «1» قرار دهد و کلیک کند، تا متن متناظر آورده شود. (محمدی فر،1381،ص 357)

 
نتیجه
همه موتورهای جستجو از یک نوع روش نمایه سازی استفاده نمی کنند و عدم وجود یک نمایه جهانی با یک زبان و نرم افزار واحد باعث شده است نتایج حاصل از جستجو در یک موتور جستجو با نتایج حاصل از جستجو در موتور جستجوی دیگر متفاوت می باشد لذا هر کاربر اطلاعاتی باید برایی رسیدن به نتیجه مطلوب جستجو بیش از یک موتور جستجو را به کار گیرد. شاید در آینده ای نه چندان دور شاهد ظهور چنین نمایه ای باشیم.

 

پی نوشتها

1.        index

2.       Web indexing

3.      Search engine

4.      Metasearch engine

5.      Matadata

6.      Dublin Core

7.      Accuracy

8.      Onliness

9.       Updating

10.      Relevancy

11.      National Centre for Supercomputer Applications

12.     Stuart Weibel

13.    Title

14.    Creator

15.    Subject

16.    Description

17.    Publisher

18.    Contributor

19.     Date

20.     Type

21.     Format

22.    Identifier

23.   Source

24.   Language

25.   Relation

26.   Coverage

27.   Rights

28.   Form Box

 

منابع
1. داورپناه، محمدرضا،1381، "جستجوی اطلاعات علمی و پژوهشی در منابع چاپی و الکترونیکی؛ شامل حوزه های علوم و فنی مهندسی...". تهران: دبیزش.

2. دیگان، ماریلین؛ تانر، سیمون، 1382."آینده دیجیتالی کتابخانه ها: راهبردهایی برای عصر اطلاعات"، ترجمه عباس گیلوری، تهران: دبیزش، چاپار.

3. رزم گیر، مریم؛ سیف، زهرا،1384،"توسعه خدمات کاربرمدار: چشم انداز کیفی خدمات کتابخانه ها"، مجموعه مقالات هشتمین همایش کتابداران سازمان مدیریت و برنامه ریزی کشور، اصفهان 1-3 دی 1383.

4. سلطانی، پوری؛ راستین، فروردین، 1382، "دانشنامه کتابداری و اطلاع رسانی، فارسی – انگلیسی و انگلیسی – فارسی" . تهران: فرهنگ معاصر.

5. کمیجانی، احمد، " ساختار نمایه‌سازی در موتورهای کاوش وب"،فصلنامه اطلاع رسانی. دوره 17، شماره 3و4
6. لانکاستر، اف ویلفرید، 1379، " نظامهای بازیابی اطلاعات، آزمون و ارزیابی"، ترجمه جعفر مهرداد، شیراز: نوید، 1379.

7. محمدی، سید حسین، 1383، " ابر‌داده: مفاهیم و کار‌برد‌ها".

 

 
8. مختاری نبی، ابراهیم،1382،" سازماندهی منابع اینترنتی: چالش ها و ضرورت ها".

 http://www.irandoc.ac.ir/Data/E_J/vol1/organaizing.htm
9. منتظر،غلامعلی،1381، "موتورهای کاوش اینترنت: درآمدی بر بازیابی بهینه اطلاعات". تهران:کویر.
10. موران، جیمز؛ هال، ویکتوریا؛ ویلر، دانا، (1383)."آموزش
ICDL  به زبان ساده مهارت هفتم: اطلاعات و ارتباطات"، ترجمه علی اکبر متواضع، تهران: موسسه فرهنگی هنری دیباگران.
11. نائینی علی اکبری، اردوان،1380، "مرجع کامل قویترین تکنیکهای جستجو در اینترنت". تهران: ارس یارانه.
12. هیئت مولفان و ویراستاران انتشارات میکروسافت،1382،"فرهنگ تشریحی کامپیوتر میکروسافت 2004"، ترجمه رضا حسنوی، داریوش فرسائی. تهران: دانشیار، پیک علوم.
 

13. DC-4, March 3 - 5, 1997, National Library of Australia, Canberra: The 4th Dublin Core Metadata Workshop Report
14. INDEXING THE WEB: http://www.asindexing.org/site/webndx.shtml
15. Introduction to indexing materials on the Web: http://www.cu.edu/~irm/stds/www_manual/mgmnt/indexing.html
18. Metadata and electronic information: Michael Day: 02-Mar-1999.http://www.ukoln.ac.uk/metadata/presentations/circe/birmingham.html
16. RDF: http://www.webopedia.com/TERM/R/RDF.html
17."Review of Metadata Formats": Rachel Heery, Program, Vol. 30, No. 4, October 1996, pp.345-373. http://www.ukoln.ac.uk/metadata/review.html
18."Review of Teoma": Greg R. Notess, Last updated Apr. 15, 2004: http://www.searchengineshowdown.com/features/teoma/review.html
19."Search Engine Statistics: Relative Size Showdown": Greg R. Notess, http://www.searchengineshowdown.com/stats/size.shtml
20. What is a web index: http://www.ext.nodak.edu/miv/15min/webindex/sld001.htm
21. What Makes Ixquick Special: http://us.ixquick.com/eng/aboutixquick/
22. http://www.iranseo.com/articles/article.php?ID=388
23. http://dublincore.org/documents/dcq-rdf-xml/
24. http://www.google.com/intl/fa/why_use.html

برگرفته از : 

www.irandoc.ac.ir/.../vol6/makvandi_Hosseini.htm

 

 

 


.: Weblog Themes By Pichak :.





تمامی حقوق این وبلاگ محفوظ است | طراحی : پیچک
فال حافظقالب وبلاگقالب وبلاگگالری عکسفاگالری عکس آلامتو