فال

قالب وبلاگ

قالب وبلاگ

اس ام اس عاشقانه

نمایه سازی خودکار - نمایه


نمایه
 
پيوند ها

محل درج آگهی و تبلیغات
 
نوشته شده در تاريخ سه‌شنبه ۱۱ تیر ۱۳۸٧ توسط نمایه

نمایه سازی خودکار

  گذشته ، حال ، آینده

  نویسنده : عباس گیلوری عضو هیات علمی مرکز اطلاع رسانی و خدمات  علمی وزارت جهاد کشاورزی

  مقدمه

  پیش از این ، اطلاعات موجود بر روی رسانه هایی چون کتاب ، پایگاه های اطلاعاتی و انواع ریزنمون ها مانند ریزفیلم 1 و ریزبرگه 2 ذخیره شده اند.

  امروزه ، با گسترش و توسعه اطلاعات الکترونیکی از یک سو و رشد سریع  و آنی اطلاعات اینترنتی از سوی دیگر، بر حجم اطلاعات قابل دسترس افزوده شده است . برای دسترس پذیری اطلاعات (چه به صورت ماشین خوان و چه به صورت دستی )، متخصصین اطلاع رسانی ناگزیرند از رایانه و برنامه های رایانه ای بهره گیرند. حجم اطلاعات موجود، تنوع ساختار اطلاعات در قالب هایی چون اصل مقاله ، خلاصه مقالات و چکیده  و ضرورت یکسان سازی قالب آنها از یک طرف و ارائه درخواست های   اطلاعاتی بهره گیران به صورت اصطلاح یا واژه های منفرد ازطرف دیگر باعث شده است تا ایجاد نمایه ها و انطباق درخواست ها با شیوه هایی  دستی بسیار دشوار گردد.

  در طول سی سال گذشته و با تلاش های متخصصین اطلاع رسانی به نظرمی رسد که نمایه سازی خودکار می تواند به عنوان ابزاری برای ساماندهی و در دسترس قراردادن حجم عظیم اطلاعات موجود یا به عبارت بهتر مقابله  با انفجار اطلاعات مطرح گردد. با افزایش هر روزه انتشارات الکترونیکی ،  نمایه سازی و کاوش های تمام متن در بسیاری از برنامه های بازیابی اطلاعات توسعه فراوانی داشته است .)1( به نظر می رسد که در بسیاری از برنامه های بازیابی اطلاعات می توان فرآیندهای الگوریتمی رایانه ای را برای پردازش های اطلاعاتی و به عنوان جایگزینی برای پردازش های فکری بشری بکار گرفت . در فرآیندهایی چون تولید نمایه های خودکار، طبقه بندی مدارک و اصطلاحات ، تدوین راهبردهای کاوش و یا ایجاد ارتباط بین اصطلاحات وابسته می توان از رایانه بهره گرفت . اگرچه تاکنون  از رایانه در اغلب فعالیت های بازیابی همچون استخراج پیام از متن مدارک ، تدوین اصطلاحنامه ها، فهم نیازهای اطلاعاتی بهره گیران از طریق درخواست های آنها و ... استفاده شده است اما تاکنون رایانه نتوانسته است  در هیچ موضوعی به اندازه حوزه نمایه سازی خودکار به صورت مستقل  انجام وظیفه نماید.)2(

 نمایه  در واژه نامه "اصطلاحات نمایه سازی "، نمایه این گونه تعریف شده است :

  "فهرستی از اصطلاحات که به روشی قابل فهم و واضح مرتب شده و  محلی که اطلاعات در آن وجود دارند را نشان می دهد.)3("

  در کتاب "نمایه سازی و چکیده نویسی "، آقای راولی تعریف دیگری از نمایه را ارائه کرده است . او می گوید" :نمایه ، مجموعه سازمان یافته ای از نقاط دسترسی 3 است که بهره گیری از اطلاعات معلوم به مجموعه ای از  اطلاعات ناشناخته و نامعلوم را رهنمون می سازد.)4(" از دو تعریف یادشده فوق ، اولین تعریف ناظر بر مجموعه های کاغذی است و زمانی ارائه شده که هنوز نمایه های ماشینی و پایگاه های اطلاعاتی چندان کاربرد  عام نداشته اند. دومین تعریف با عنایت به ورود رایانه در حوزه کتابداری

  ارائه شده و به نظر می رسد از جامعیت بیشتری برخوردار باشد. بدیهی است که نمایه نقش بسیار مهمی در بازیابی اطلاعات داشته و نمایه ساز که به تحلیل محتوای اطلاعاتی مدارک می پردازد، در ارتباط و انتقال اطلاعات نقش بارزی دارد. ایجاد نمایه از طریق انجام نمایه سازی میسر  است . نمایه سازی را "ثبت و ضبط محتوای اطلاعاتی مدارک با استفاده از  کلیه روش ها و دستورالعمل ها به منظور سازمان دادن اطلاعات و به قصد سهولت بازیابی )5(" تعریف کرده اند.

       امروزه نمایه ها از اصلی ترین اجزا پایگاه های اطلاعاتی به شمار می آیند و به طور گسترده در ایجاد پایگاه اطلاعاتی - چه بر روی رایانه ها و چه به صورت درون خطی و بر روی اینترنت - مورداستفاده قرار می گیرند.

  نمایه ها عموما سه کارکرد عمده را بر عهده دارند:

  O محتوای اطلاعاتی مدارک را فشرده می سازند.

  O به عنوان واسطه ای برای تطبیق و یکسان سازی زبان مدرک و زبان کاوش   بکار می روند

O. به عنوان ابزاری کارا بر شیوه تدوین راهبردهای کاوش در جستجوهای اطلاعاتی نظارت دارند.)6(

  زبان های نمایه سازی

  زبان نمایه سازی ، زبانی است که برای شرح موضوع یا سایر جنبه های   اطلاعات یا مدارک در یک نمایه بکار می رود. درواقع ، زبان های نمایه سازی بر شیوه گزینش یا استخراج کلمات نمایه (چه از درون متن و  چه از طریق واژگان کنترل شده )دلالت دارند. زبان ها نمایه سازی بسیار متفاوتند اما آنها را می توان به سه دسته اصلی تقسیم کرد.

  زبان های نمایه سازی کنترل شده 4

       در این روش ، واژه ها یا اصطلاحاتی به مدرک مورد نمایه منتسب می شوند.

  واژه های انتسابی از مجموعه ای از واژگان کنترل شده گرفته می شوند.

       درواقع ، در نمایه سازی کنترل شده ، واژگان نمایه عینا از درون متن گرفته نمی شود بلکه واژه نویسنده متن با فهرست اصطلاحات مقابله شده و اصطلاح پذیرفته شده انتخاب می شود.

  زبان های نمایه سازی آزاد5

  برخلاف زبان های نمایه سازی کنترل شده ، این زبان ها به راحتی محدود نمی شوند. در این زبان ها، هر واژه ای که برای موضوع مدرک مناسب باشد به عنوان اصطلاح نمایه ای انتخاب می شود. زبان نمایه سازی آزاد در محیطهای نمایه سازی رایانه ای بسیار متداول است .

  نمایه سازی به زبان طبیعی 6

  در این روش ، برای نمایه سازی از زبان خود مدرک کمک گرفته می شود.

  به طور کلی می توان گفت که نمایه سازی به زبان طبیعی نوعی از زبان نمایه سازی آزاد است . نمایه سازی به زبان طبیعی بیشتر با تعیین رایانه ای اصطلاحات سروکار دارد و به زبان عنوان ، چکیده و سایر اجزا متن به عنوان یک رکورد اطلاعاتی وابسته است .)4( در این روش انتخاب اصطلاحات ساده است و به گزینش و تحلیل مدارک نیازی نیست . نکته قابل توجه آنکه هنوز درباره اینکه آیا نمایه سازی به زبان طبیعی می تواند  ما را به بازیابی کارا رهنمون سازد یا خیر بحث وجود دارد.

  نمایه سازی رایانه ای یا ماشینی

       "فرآیند استخراج مجموعه ای از مدخل های نمایه ای که بیانگر موضوع متن هستند توسط رایانه از متن ماشین خوان را نمایه سازی خودکار می نامند.)7(" در پایگاه های اطلاعاتی از رایانه به شیوه های مختلفی برای  نمایه سازی  استفاده می شود. نمایه سازی پایگاه های اطلاعاتی و نمایه های

  ماشینی به روش های زیر ممکن است انجام گیرد:

       .1 استفاده از رایانه برای انجام امور دفتری نمایه سازی مثل ورود اطلاعات در پایگاه های اطلاعاتی ;

       .2 بهره گیری از رایانه برای کنترل کیفیت نمایه های تولیدی . مثل بررسی این مسئله که آیا همه اصطلاحات نمایه در اصطلاحنامه وجود دارند یا خیر؟;

  .3بهره گیری فکری از رایانه مثل استفاده از رایانه . برای مثال استفاده از رایانه برای وزن دهی و انتخاب  اصطلاحات نمایه ;

  .4 نمایه سازی کامل خودکار به کمک رایانه .)8(

  امروزه تولیدکنندگان پایگاه های اطلاعاتی در سطوح مختلف برای نمایه سازی از رایانه بهره می گیرند. درحال حاضر، نمایه سازی خودکار رایانه ای برای نمایه سازی بخشی از پایگاه اطلاعاتی مثل موضوعات  خاص ، نقاط دسترسی یا نوع مدرک مورداستفاده قرار می گیرد. مرکز اطلاع رسانی فن آوری دفاعی 7 برای مدیریت متون در پایگاه اطلاعاتی خود، مرکز FI2 Karlsruhe در نمایه سازی نام های شیمیایی ، مرکز بین المللی اطلاعات علمی و فنی روسیه 8 برای منابع زبانی و Inspec برای

  نمایه سازی فایل های پشتیبان استانداردهای جدید خود از نمایه سازی خودکار بهره گرفته اند.

       نکته ای که در نمایه سازی ماشینی باید یادآور شد آن است که ماشین ها و ابزارهای نمایه سازی فعلی صرفا به منظور نمایه سازی مدارک ابداع شده اند بلکه این ماشین ها اصول برای انجام امور تجاری مانند کارهای آماری و حسابداری های کلان طراحی شده و برای نمایه سازی با اصول ومعیارهای آن منطبق شده اند.)9( به عبارت دیگر،محدودیت های این ماشین ها برای اهداف نمایه سازی عمدتا بر این حقیقت استوارند که آنها به جای طراحی برای نمایه سازی ، با مباحث نمایه سازی منطبق شده اند.

       بنابراین ، امکانات آتی نمایه سازی ماشینی شاید بیشتر از آنی باشد که مخترعین این ابزارها از آن در ذهن دارند.

  نمایه سازی به کمک رایانه 9

  نکته ای که در اینجا باید به آن اشاره داشت اینکه در امر نمایه سازی خودکار باید بین دو اصطلاح نمایه سازی به کمک رایانه و نمایه سازی خودکار10 تفاوت قائل شد. گرچه در بسیاری از متون تخصصی بین این دو اصطلاح تفاوت قائل نشده اند اما باید گفت که در نمایه سازی خودکار پس از تدوین برنامه رایانه ای و تدارک الگوریتم های خاص ، نیروی انسانی در فرآیند تولید نمایه هیچ دخالتی ندارد. اما در نمایه سازی به کمک رایانه ،  نمایه ساز از رایانه برای انجام امور نمایه سازی استفاده می کند.)10( اولین  نمایه های رایانه ای مانند کوئیک و کووک از نوع نمایه سازی به کمک رایانه  بوده اند.

  نمایه سازی خودکار

  با توسعه روزافزون اینترنت و حجم گسترده اطلاعات درون خطی و  ناپیوسته و همچنین افزایش متن های الکترونیکی و نشر سنتی ، دسترسی به مطالب و منابع علمی موردنیاز را دشوار ساخته است . به نظر می رسد که بدون نمایه سازی خودکار به ویژه بر روی اینترنت ، دسترسی به منابع بسیار دشوار باشد" .نمایه سازی خودکار فرآیندی است که در آن مجموعه ای از اصطلاحات که بیانگر موضوع مدرک هستند توسط رایانه استخراج شده یا همه کلمات متن مدرک در یک فایل مغلوب قرار می گیرند.)11(" ابداع  نمایه سازی خودکار که عمومابر بهره گیری و استفاده از اصطلاحات واحد تاکید دارد، با اختراع رایانه های بزرگ هم زمان بود. اولین نمایه سازی خودکار که توسط اچ پی لون 11 انجام گرفت بر بسامد واژه ها در  نمایه سازی متون تاکید داشت . این تحقیقات ادامه یافت و اکنون به روش های نمایه سازی خودکار پیچیده ای انجامیده است که بر استفاده از اصطلاحات واحد12 و استفاده از بخش بیشتری از اطلاعات مانند عبارت  تاکید دارند.)12(

       نکته ای که در نمایه سازی خودکار باید موردتوجه قرار گیرد آن است که هر نوع نمایه سازی خودکار باید دو فرآیند پایه را موردنظر قرار دهد: اول ، باید  به شیوه ای واحدهای متنی را مجزا نماید. این عمل مستلزم فهم زبان  طبیعی است . دوم ، بر اساس واحدهای متنی یک زبان ، کلمات نمایه را گزینش و استخراج کند. باید متذکر شد که به دلیل تنگناهای زبانی در زبان های نمایه سازی موجود، بهره گیری از ابزارهای نمایه سازی مثل اصطلاحنامه یا نظام رده بندی چندان مفید نیست .)11(

  عوامل موثر در نمایه سازی خودکار

       در ایجاد نمایه خودکار باید به عواملی توجه نماییم ، توجه به این عوامل ما را در تهیه نمایه ای کارا کمک خواهد نمود. این عوامل عبارتنداز:

     .1 محدوده رکورد. اولین تصمیم گیری مهم برای تهیه هر نوع نمایه ، گزینش حد و حدود رکوردی است که واحد قابل جستجو را تعریف می کند. طول رکورد می تواند یک کتاب ، فصلی از کتاب ، بخشی از فصل یا حتی یک پارگراف باشد. این تصمیم گیری در بازیابی کارآمد نقشی حیاتی دارد.

  اگر مدرک در حال نمایه سازی مثل مقاله ای از یک مجله است ، بدیهی است که طول رکورد، تمام متن مقاله خواهد بود. اما این شیوه تعریف فیلد معمول در هنگام استفاده در پایگاه های اطلاعاتی ، کاوش های اطلاع رسانی را با دشواری مواجه می سازد. بدیهی است که نباید کل مقاله یا کتاب را به عنوان یک رکورد درنظر گرفت . هر چه طول مدارک در حال نمایه سازی  بزرگتر باشد از دقت نمایه سازی کاسته شده و امر نمایه سازی خودکار نیز  دشوارتر می گردد. بنابراین ، نباید کل مدرک را به عنوان یک رکورد اطلاعاتی  تعریف کرد. همچنین نباید طول رکورد نیز بیش از اندازه کوتاه باشد چرا که  حجم کم متن رکورد، بازیابی ناقص را در پی دارد و ضعف بازیابی به نوبه  خود از ضعف نمایه ناشی می شود.)12( ازاین رو، تعیین یک جمله از متن  به عنوان رکورد چندان مناسب نیست . بنابراین ، در نظر گرفتن یک پارگراف  به عنوان رکورد مناسب به نظر می رسد.

  .2 انتخاب اصطلاحات نمایه

  تعیین حد و حدود یک واژه از دیگر مسائلی است که در نمایه سازی  خودکار باید به آن توجه شود. در نظام های نمایه سازی دستی ، گزینش کلمات برای نمایه به سهولت انجام می شود. اما در نمایه سازی خودکار از آنجا که ماشین از هوشمندی لازم برای انتخاب کلمات برخوردار نیست  بنابراین باید حدود کلمه را تعریف کرد. معمول حدود کلمات نمایه را با استفاده از علائم نقطه گذاری تعریف می کنند. به طور معمول ، فاصله بین  کلمات و علائم دستوری و نقطه گذاری به عنوان مرز کلمات در نظر گرفته می شود. روش های تعیین حد و حدود کلمات در نمایه سازی خودکار، بر  اساس نوع برنامه و میزان پیشرفتگی آنها متفاوت است .

  انواع نمایه سازی خودکار

       کلولند13 اشاره می کند که اصول دو نوع نمایه سازی خودکار وجود دارد.

  نمایه سازی انتسابی 14 و نمایه سازی اشتقاقی .15 بنا به نظر کلولند نمایه سازی خودکار "عبارت است از استخراج ماشینی کلمات از درخواست ها و مدارک و انتساب ماشینی اصطلاحات کنترل شده و

       استخراج ماشینی از متون تمام متن یا بخشی از یک متن .)11( در این تعریف ، نمایه سازی اشتقاقی یک فرآیند ساده انطباق بدون هیچ گونه تحلیل موضوعی است که در آن تمام کلمات مدرک یا درخواست استخراج شده و تنها کلمات ممنوعه از این فهرست خارج می شوند. نمایه سازی انتسابی فرآیند پیچیده ای است که با استفاده از تحلیل های آماری ، کلمات و اصطلاحات به مدرک منتسب می شوند.

       لنکستر نیز نمایه سازی خودکار را به دو دسته تقسیم می کند. گرچه لنکستر و کلولند، هر دو، تقسیم بندی یکسانی را ارائه کرده اند ولی نامگذاری آنها از این دو گروه نمایه سازی خودکار متفاوت است . لنکستر نمایه سازی خودکار را به دو دسته استخراجی 16 و انتسابی 17 تقسیم می کند. در ادامه این  مقاله ، این دو روش مورد بررسی قرار می گیرند.

  نمایه سازی استخراجی

  ساده ترین روش نمایه سازی مقالات در پایگاه های اطلاعاتی ، روش  نمایه سازی استخراجی است که در آن واژه ها برای قرار گرفتن در نمایه ، توسط رایانه از متن مقالات استخراج می شوند. در این روش عموما بسامد تکرار واژه در هر رکورد یا مقاله تعیین شده و کلماتی که بسامد تکرار آنها زیاد است در متن نمایه قرار می گیرند. کلمات پربسامد همراه با تعداد رخداد آنها در کل پایگاه در متن نمایه قرار می گیرند.)8( این روش همچنین می تواند ریشه کلمات را شمارش کرده و کلمات منفرد یا عبارات را

       تشخیص دهد. می توان رایانه را به شیوه ای برنامه ریزی کرد که علاوه بر بسامد تکرار کلمات ، با توجه به معیارهایی چون موقعیت کلمات در متن وپ معیارهای متنی دیگر، کلمات مورد نیاز برای نمایه سازی را به صورت خودکار استخراج نماید.

  انواع نمایه سازی استخراجی

  .1 نمایه سازی با استفاده از فهرست کلمات ممنوعه . در این روش از نمایه شدن کلمات پربسامد مشخصی جلوگیری شده و به صورت خودکار از فهرست کلمات نمایه حذف می شوند. کلماتی مانند: حروف اضافه ، افعال کمکی ، افعال ، حروف تعریف و ... در یک فهرست قرار می گیرند. در هنگام نمایه سازی ، رایانه تمام کلمات متن را استخراج می کند، سپس کلمات ممنوعه را حذف و بقیه کلمات را در یک نظام الفبایی مرتب  می کند.

  تاکنون برای تعیین فهرستی از کلمات ممنوعه تحقیقات فراوانی صورت گرفته است . فرانسیس و کوسرا18 ده کلمه پربسامد را تعیین کردند. آنها همچنین فهرست دیگری که از 425 کلمه ممنوعه تشکیل شده بود را ارائه  دادند. وان رایجزبرگن 19 نیز فهرستی ارائه داد که از 150 کلمه ممنوعه  تشکیل شده بود. فهرست رایجزبرگن در سال 1975 منتشر شد.

       همانطور که اشاره شد در این روش معمول همه کلمات متن به جز کلماتی که در فهرست کلمات ممنوعه قرار دارند در نمایه قرار می گیرند. استفاده از کلمات ممنوعه علاوه بر جلوگیری از ریزش کاذب در بازیابی ، 20 تا25   درصد از حجم نمایه نیز می کاهد.)12(

  روش دیگری نیز برای تهیه فهرست کلمات ممنوعه وجود دارد. در این روش فهرستی از کلمات متن به همراه بسامد تکرار آنها تهیه می شود. پس از تعیین بسامد تمام کلمات متن ، کلمات پربسامد بررسی و مطالعه  می شوند. آن گروه از کلمات پربسامدی که اهمیت اطلاعاتی نداشته باشند به عنوان کلمات ممنوعه در نظر گرفته می شوند. فهرست کلمات ممنوعه ای که موسسه ملی استاندارد و فن آوری 20 برای مجله وال استریت جرنال تهیه کرده نیز با این روش استخراج شده است . فهرست معمول کلمات ممنوعه که معمول در نمایه سازی خودکار به کار می روند در جدول زیر آمده است .

  .2 نمایه سازی بسامدی .21 در این روش از نمایه سازی خودکار، بسامد تکرار کلمات در هر رکورد یا مقاله مورد بررسی قرار می گیرند و براساس بسامد تکرار در فهرست کلمات نمایه قرار می گیرند. پیشینه نمایه سازی

  استخراجی مبتنی بر بسامد تکرار کلمات به سال 1950 بازمی گردد. در این روش نمایه سازی ، دفعات حضور واژه در یک متن شمارش می شود.

  سپس ، واژگان استخراجی با فهرست کلمات ممنوعه مقابله و کلمات  ممنوعه از فهرست نمایه خارج می شوند. سپس واژه ها بر اساس بسامد تکرار خود در نمایه مرتب می شوند.

  علی رغم استفاده از فهرست کلمات ممنوعه ، یکی از بزرگترین معایب  نمایه سازی بسامدی آن است که هنوز شاهد حضور کلماتی در نمایه  هستیم که علی رغم بسامد تکرار بی فایده اند. بعلاوه ، گاهی حضور کلماتی در متون خاص علی رغم کمی تکرار از اهمیت فراوانی برخوردار است .)2(

  مثلا، بسامد تکرار کلماتی چون "کتابخانه " و "اطلاع رسانی " یا "اطلاعات " در متون کتابداری چندان تعیین کننده نیست . اما حضور کلماتی چون  "عایق کاری " و "پنبه نسوز" یا "کف پوش " در متون کتابداری علی رغم کمی تکرار می تواند بااهمیت باشد.

  برای رفع مشکل نمایه های بسامدی ، برای بسامد تکرار واژه حدنصاب قرار می دهند. بنابراین ، کلماتی که بیش از حد نصاب تعیین شده در پایگاه تکرار شده باشند به عنوان کلمات نمایه برگزیده می شوند. حدنصاب بسامد، باتوجه به نوع متنی که کلمه در آن واقع شده می تواند متغییر باشد.

  .3 نمایه سازی استخراجی به روش پسوندیابی 22 یا ریشه یابی .23 در بعضی از سیستم های نمایه سازی استخراجی ، از پسوند یا ریشه کلمات استفاده می شود. در این روش ریشه یا پسوند کلمات جایگزین مجموعه ای از کلمات هم ریشه یا پسوند مشترک می شود. الگوریتم های ریشه یابی  مختلفی چون الگوریتم های استاندارد یا الگوریتم های موضوعی خاص  همچون الگوریتم های پزشکی نیز وجود دارند. الگوریتم S یا استاندارد، ساختار مفرد و جمع کلمات را در هم ادغام می کند. الگوریتم Lovins، فهرستی از 260 پسوند موجود، فهرست عظیمی از موارد استثنا و شماری  از قواعد را در بردارد.همچنین الگوریتم پسوندیابی Porter، 60 پسوند را شامل می شود.)12(

  .4 وزن دهی اطلاعات . استفاده از نظام وزن دهی در نمایه سازی خودکار، عموما برای مجموعه های تمام متن با حجم زیاد بسیار کاربرد داشته و مفید است . گرچه بسیاری از سیستم های نمایه سازی رایانه ای از نظام  وزن دهی اصطلاحات و کلمات متن بهره نمی گیرند، اما به نظر می رسد که این روش برای همه سیستم هایی که بر اساس احتمالات و رتبه دهی به انتخاب کلمات نمایه اقدام می کنند مناسب باشد. در این روش ، کلمات بر اساس محل قرار گرفتن خود در متن (مثل عنوان ، چکیده و )...امتیازدهی  می شوند. حضور کلمات در بخش های مختلف رکورد، امتیازات متفاوتی دارد. معمول حضور کلمه در عنوان مدرک بیشترین امتیاز را به خود اختصاص می دهد. این روش به دلیل کارایی پایین آن در بین بهره گیران مقبولیت چندانی ندارد. کارایی پایین این نظام نمایه سازی به دلایل زیر

  است :

  .1 روشی برای گزینش کلمات مهم از درخواست وجود ندارد. مثل اگر فردی موضوع "وزن دهی اصطلاحات در بازیابی اطلاعات " را به سیستم  وارد کند ممکن است تنها یک مدرک که هر چهار واژه موجود در درخواست را دربر داشته باشد بازیابی نماید. یعنی این سیستم نمی تواندکلمات مهم درخواست (در اینجا "وزن دهی " و "اصطلاحات )" را تشخیص  داده و صرفا مدارک مرتبط با آنها را بازیابی کند.

  .2 روشی برای گزینش کلمات مهم مدرک وجود ندارد. با توجه به مثال  قبل ، در درخواست اطلاعاتی برای موضوع "وزن دهی اصطلاحات در بازیابی اطلاعات " باید مدرکی بازیابی شود که مثل تنها بسامد تکرار واژه  "وزن دهی " در آن بیشتر نباشد بلکه بالاترین بسامد تکرار این اصطلاح در مقابله با بسامد سایر اصطلاحات درخواست در همان مدرک سنجیده  شود.)12(

       .3 بلند بودن یا کوتاه بودن متن را مورد توجه قرار نمی دهد. در یک مدرک  طولانی بدیهی است که ممکن است بسامد تکرار یک واژه بیشتر از مدرکی  باشد که متن آن کوتاه است . بنابراین ممکن است مدرکی بسیار مرتبط  صرفا به دلیل کوتاهی متن آن از رتبه کمتری برخودار باشد. البته با  بهره گیری از روش های آماری بسیار پیچیده در تنظیم نتایج جستجو می توان تا حدود بسیار زیادی بر این مشکلات فائق آمد.

       همانگونه که پیش از این نیز اشاره شد در نظام های رایانه ای بیشتر از روش های نمایه سازی استخراجی استفاده می شود.یکی از عمده ترین  مشکلات این نمایه ها به ویژه هنگام استفاده در پایگاه های اطلاعاتی ، عدم  بازیابی کلمات درخواست به دلیل نبودن آن کلمه در نمایه پایگاه اطلاعاتی

  است . دلیل این امر آن است که بهره گیران معمول یا همه کلمات مترادف با اصطلاح موجود در درخواست را وارد نکرده اند و یا از مترادفات آن بی خبرند. بنابراین ، بسیاری از مدارک مرتبط از دست می روند. برای رفع این معضل معمول طراحان پایگاه های اطلاعاتی توانایی های نمایه ای را با  توانایی نرم افزاری درهم می آمیزند. یکی از روش ها، امکان نمایش نمایه و  انتخاب واژه درخواستی توسط خود بهره گیر است . روش دیگر، استفاده از  نظام بازخورد مرتبط24 است . این روش به بهره گیران اجازه می دهد تا  مدارک مرتبط کمی را برگزینند. سپس از سیستم می خواهند تا با توجه به این مدارک ، مدارک مرتبط بیشتری را بازیابی نمایند.)4( امروزه این روش در اینترنت و پایگاه های اطلاعاتی تمام متن کاربرد فراوانی دارد.

  نمایه سازی انتسابی

  در این روش معمول رایانه برای نمایه سازی از اصطلاحنامه یا کنترل واژگان بهره می گیرد. اصطلاحنامه فهرستی از همه سرعنوان هایی است که ممکن است در نمایه سازی مورد استفاده قرار گیرند. درواقع در نمایه سازی انتسابی برای هر واژه منتسب "پرونده ای 25" از کلمات و عبارات مرتبطی که به نظر می رسد در مدارکی که نیروی انسانی آنها را نمایه کرده اند مکرر بکار رفته تهیه می شود. چون هر اصطلاح در کنترل واژگان دارای پرونده کلمات است ، بنابراین می توان از برنامه ای رایانه ای برای انطباق عبارت های مهم در مدرک با این مجموعه پرونده ها استفاده کرد و درصورت انطباق واژه موجود در مدرک با واژه های موجود در پرونده های کلمات ، اصطلاحی که پرونده به آن مربوط است را منتسب کرد.)2( پرونده کلمات ، کلماتی هستند که با یافتن آنها در متن مدرک ، می توان اصطلاح  مربوط به آن پرونده را به آن مدرک اختصاص داد. مثل برای اصطلاح Child birth، پرونده کلمات باید لغات birth, labor, labour, delivery, baby, born و Childbirth را دربر داشته باشد. علاوه بر پرونده کلمات ، رایانه از "معیار گزینش 26" نیز بهره می گیرد. معیار گزینش دستورالعملی  است که براساس آن مشخص می شود که با چه ترکیب و چه تعداد تکرار از هر واژه ، باید اصطلاح مربوط را به مدرک منتسب کرد. مثل معیار گزینش  باید تعیین کند که اگر کلمه child birth ده بار در مقاله ای تکرار شده باشد آیا باید آن را در نمایه قرار داد یا خیر؟ معیار گزینش مشخص می کند که چه  هنگام و با حضور چه کلماتی و با چند بار تکرار می توان اصطلاح اصلی را در نمایه وارد کرد.

  این روش گرچه در نمایه سازی خودکار پیشرفتی به شمار می آید اما درعمل چندان ساده نیست . اول اینکه معیارهای ماشینی باید بسیار پیشرفته باشند. در این روش انتساب اصطلاح به مدرک بر اساس بسامد تکرار اصطلاح یا اصطلاحات پرونده است . اگر اصطلاح اصلی با بسامد معینی تکرار شده باشد، گزینش آن برای قرار گرفتن در نمایه مناسب خواهد بود اما اگر بسامد کلمات پرونده بیشتر از اصطلاح اصلی باشد، آیا باز هم با همین اطمینان می توان آن را به مدرک اختصاص داد.)8(

       یکی از برنامه های بسیار پیشرفته برای نمایه سازی خودکار از نوع انتسابی  را موسسه Biosis  برای پایگاه اطلاعاتی خود تهیه کرده است . در اینجا بر عناوین مقالات موجود در مجله ها تاکید شده است . کلمات موجود در عنوان مقالات با مجموعه ای نحوی از حدود پانزده هزار اصطلاح زیست شناسی مقابله و مقایسه می شوند. سپس ، این مجموعه اصطلاح به نوبه خود با 600 سرشناسه مفهومی (که موضوعاتی نسبتا اعم هستند) تطبیق داده می شوند. درصورت انطباق ، رایانه یکی از سرشناسه های  مفهومی را به مدرک نسبت می دهد.

  اگرچه در طول سی سال گذشته در زمینه نمایه سازی خودکار انتسابی شاهد پیشرفت های زیادی بوده ایم اما همه این تجربیات با تعدادی  اصطلاحات محدود و در محیطی آزمایشگاهی به نتیجه رسیده و هنوز بدون مداخله انسان کاربرد آنها در محیطهای بزرگتر یا پایگاه های اطلاعاتی عظیم به واقعیت نپیوسته است . درواقع ، هنوز از نمایه سازی انتسابی جز در تولید نمایه های چاپی استفاده نشده است .

  درکل باید گفت که بسیاری از سیستم های نمایه سازی خودکار واقعا خودکار نیستند تا بتوانند جایگزین نیروی انسانی شوند بلکه در جهت کمک به نمایه سازان طراحی می شوند. شاید بهتر آن باشد که این برنامه ها را نیز "نمایه سازی به کمک رایانه " بنامیم .

  تاثیر نمایه سازی و روش های خودکار بر متخصصین اطلاع رسانی

باپیشرفته تر شدن هر چه بیشتر برنامه های رایانه ای و ظهور و ارائه هر چه بیشتر اطلاعات در ساختار الکترونیکی ، در نهایت نمایه سازی به شیوه سنتی کمتر صورت خواهد گرفت . این نقصان و کاهش با افزایش تعداد پایگاه های اطلاعاتی و ازدیاد پروژه های نمایه سازی و چکیده نویسی در کوتاه مدت جبران خواهد شد.)8( باید از نیروی انسانی برای انجام کارهای مهمی که از طریق مطالعه درباره شیوه استفاده و استناد متون حاصل می آید بهره گرفت .

       نمایه سازان بیش از گذشته باید گزینشی عمل کرده و درباره کیفیت متون در دست نمایه سازی و محتوای موضوعی آنها تصمیم گیری نمایند. می توان از مهارت نمایه سازی برای توسعه نظام های رایانه ای و بررسی و آزمایش خروجی رایانه ها بهره گرفت . برای تهیه اصطلاحنامه و آموزش نویسندگان  برای نگارش متن های رایانه ای به شیوه ای که قابل بازیابی باشند می توان  نمایه سازان را به کمک طلبید. نمایه سازانی که در حوزه های موضوعی رایانه ، ویرایش ، کتابداری و اطلاع رسانی و اطلاعات کتابشناختی تجربه  دارند بهتر می توانند از مزایای این فرصت های تازه استفاده نمایند.

  نمایه سازان به متخصصین و سوادآموزان رایانه ای بدل خواهند شد و از این طریق خواهیم توانست شکاف های موجود در راه سامان دهی دانش را شناسایی کرده و به روشی کارآمد این شکاف ها را از میان برداریم . برای دستیابی به این مهم باید دانش رایانه را فراگیریم . نه تنها باید ابزارهای مختلف نمایه سازی رایانه ای را فراگیریم بلکه باید روش سازماندهی و استفاده الکترونیکی آن را نیز بیاموزیم تا بتوانیم به خوبی نیازهای اطلاعاتی  را درک کرده و دین خود را ادا نماییم .

  نمایه سازی خودکار و اینترنت

       در طول 30 سال گذشته ، نمایه سازی خودکار به عنوان پاسخی برای انفجار اطلاعات مطرح شده است . همانگونه که شاهد رشد هر روزه نشر الکترونیکی هستیم نمایه سازی و کاوش منابع تمام متن به استانداردی  بالفعل در بسیاری از برنامه های بازیابی اطلاعات به ویژه در اینترنت بدل شده است . دو مبحث بسیار بحث برانگیزی که امروزه در حوزه فن آوری اطلاع رسانی جریان دارد - یعنی جستجوی وب و مدیریت دانش - در حوزه نمایه سازی تغییراتی را بوجود آورده است . امروزه با نمایه سازی تمام متن ، بازیابی اطلاعات به بازیابی اصل مدارک ارتقا یافته است .

  اینترنت از جنبه های مختلفی همچون حجم منابع ، ناهمگونی و دایره لغات ، واحدهای کاوشی ، راهبرد کاوش و تنوع رسانه های اطلاعاتی مثل ابرمتن ، و چندرسانه ای ، چهره بازیابی اطلاعات را تغییر داده است . حجم نمایه در بین موتورهای کاوش هنوز هم یکی از نکات مهم و اصلی رقابت در بین تولیدکنندگان موتورهای کاوش است گرچه امروزه تهیه بهترین نمایه و نه بزرگترین آن مورد توجه قرار می گیرد. این موضوع باعث شده است تا موتورهای کاوش در نمایه های خود به گزینش سایت ها و صفحات وب روی آورند و بسامد روزآمدسازی سایت ها را افزایش دهند.

  ظهور اینترنت تحولات فراوانی در حوزه نمایه سازی پدید آورده است . اینترنت بر سرعت ، دقت ، هوشمندی ، قدرت مشارکت ، کاربرپسندی ، جهانی بودن ، جامعیت و چندزبانی نمایه ها در موتورهای کاوش افزوده  است .)1( ظهور اینترنت از جنبه های مختلف بر نمایه سازی خودکار تاثیرگذار بوده است . این موارد عبارتند از:

  حجم مجموعه

  حجم اطلاعات موجود بر روی اینترنت و به طور خاص بر روی وب هر روزه در حال افزایش است . بدیهی است هر چه حجم مجموعه افزایش یابد نمایه سازی آن دشوارتر شده و نیازمند استفاده از روش های کامل تر و پیشرفته تری است .

  تفاوت های دایره لغات

       معمول در یک مجموعه یا پایگاه اطلاعاتی یکدستی - چه ازنظر ساختار و چه از نظر موضوعی - وجود دارد. وب برخلاف پایگاه های اطلاعاتی ، تقریبا از هیچ تجانس موضوعی و زبانی برخوردار نیست . علاوه براین ، بهره گیران از اینترنت نیز بسیار متنوع اند. در یک تحقیق مشخص شد که حتمال استفاده یکسان دو فرد از اصطلاحی واحد در اینترنت در حدود20 درصد است .)1( اگرچه برخی از تولیدکنندگان صفحات وب در تلاش بوده اند تا با ایجاد ابرداده ها که نوعی اطلاعات طبقه بندی شده درباره محل اطلاعات است ، ایجاد نمایه های خودکار را تسهیل نمایند اما هنوز استاندارد واحدی برای ایجاد این ابرداده ها وجود ندارد و نه تنها همه تولیدکنندگان وب خود را ملزم به تبعیت از آن نمی دانند بلکه بسیاری از آنها از وجود چنین استانداردهایی بی خبرند.

  راهبردهای کاوش

  با ظهور و همه گیری اینترنت و توسعه کاوش های درون خطی از مداخله و واسطه گری کاوشگران متخصص در بازیابی اطلاعات کاسته شده است . از سوی دیگر، تنوع بهره گیران که هر یک درخواست های اطلاعاتی متنوعی دارند و فقدان آگاهی لازم درباره شیوه کاوش در اینترنت و حتی بی اطلاعی از "راهبرد کاوش "، تولید نمایه ای خودکار و منسجم را دشوار ساخته است .

  رسانه های جدید ارتباطی در اینترنت

       امکانات تازه ای که در وب پدید آمده به گونه ای است که با سیستم های سنتی و اولیه در پایگاه های اطلاعاتی کامل متفاوت است . ایجاد امکانات فرامتنی با توانایی های منحصر به فردی چون "اتصالات "27، خدمات  چندرسانه ای و چندزبانه بودن اطلاعات اینترنت ، بیش از گذشته ایجاد نمایه های خودکار را با دشواری مواجه ساخته است .

منابع

 

  1. Jacqmin, Laurence. "Automatic indexing: how websearching and

   knowledge management hypes have changed the technological

  state of the art". in Online information 98, Proceedings of 22th international

                   information meeting, Learned Information, Oxford, PP>103-107.

  2. Lancaster, F. W. "Indexing and abstracting in theory and

                             practice". Illinois : University of Illinois, 1991.

   3. Buchanan, Brian. "A glossary if indexing terms". London: Clive Bingley,  1976.

   4. Rowley, E.  "Abstracting and indexing". 2nd ed. London: Clive Bingley, 1988.

 .5 میرزاده ، احمد" .نمایه و نمایه سازی ." نشریه فنی مرکز مدارک علمی ،

  دوره دوم ، شماره دوم و سوم ، .1352 ص .29-16 .

 6. Baxendale, Phyllis B. "Autoindexing by automatic processes". Special  libraries, 1965. 56)10(, PP. 715-719.

  .7 یوسفی ، احمد" .اصول و روش های نمایه سازی رایانه ای ." فصلنامه   کتاب ، دوره نهم ، شماره ( 2تابستان .)1377

8. Browne, Glenda. "Automatic indexing and abstracting".

   www.autoindexing\automatic indexing and abstracting.htm

  9. Collison, Robert L. "Indexing and abstracting". London: Ernest Benn,   1972.

 10. Auto-indexing of Keywords. www.autoindexing\autoindexing of  keywords.htm

11. Zheng, Fen. "An ideal model of automatic indexing for patent   systems".

 12. "Challenges in indexing electronic text and images / edited by   Raya Fidel ... ]et al[. Medford: Learned Information, 1994.

یادداشت ها

 1- Microfilm

2- Microfish

 3- Access Point

5- Free Indexing Languages

 6- Natural Language Indexing

 7- Defence Technology Information Center )DTIC(

  8- Russian International Center for Scientific and Technical Information

 9- Computer Aided Indexing

 10- Automatic Indexing

 11- H. P. Luhn

 12- Single Terms

 13- Cleve Land

  14- Assigned Indexing

15- Derived Indexing

  16- Extraction

  17- Assignment

   18- Francis , Kucera

   19- Van Rigsbergen

   20- National Institute of Standards  and Technology )NTST(

  21- Frequency indexing

  22- Suffixing

   23- Stemming

  24- Relevance Feedback

  25- Prodile

   26 - Criteria for inclusion

   27- Links

منبع:  پیام کتابخانه - شماره - 394 زمستان 1379

 

 


.: Weblog Themes By Pichak :.





تمامی حقوق این وبلاگ محفوظ است | طراحی : پیچک
فال حافظقالب وبلاگقالب وبلاگگالری عکسفاگالری عکس آلامتو