
مقاله : گزارش مطالعه و بررسی الگوریتم هاي موجود برايرریشه یابی کلمات
فرمت :pdf
تعداد صفحه : 25
قیمت : مبلغ ۶ هزار تومان
فهرست مباحثی که در این مقاله مطرح شده عبارتند از :
مقدمه
با گسترش کاربرد زبان در سیستم هاي رایانه اي، شاهد نیاز فزاینده به پردازش متون در این سیستم ها هستیم. ازجمله ي این نرم افزارها می توان به برنامه هاي جستجو، استخراج کلمات کلیدي متن، خلاصه سازي متن و غیره اشاره کرد. از جمله پیش نیازهاي ضروري رسیدن به این نرم افزارها، الگوریتم هاي ریشه یابی هستند. ریشه یابی لغات نه به معناي زبان شناسی آن بلکه به معناي دسته بندي کلمات در گروه هاي معنایی یکسان، امري است که در بسیاري از زمینه هاي پردازش زبان طبیعی مدنظر می باشد. از این طریق می توان در ساخت آنتولوژیها، و در مفاهیم معنایی قابلیت مانور بالایی را ایجاد کرد. الگوریتم هاي ریشه یابی موجود تلاشهایی بر روي زبان انگلیسی می باشند که مورد استفاده ي بالایی دارند. اما داراي ضعفهاي عدیده اي می باشند. همانطور که می دانیم زبان فارسی به خانواده ي زبانهاي هند و اروپایی تعلق دارد . فعالیت مورد نظر به دلیل حجم کم فعالیت ها بر روي ریشه یابی کلمات فارسی، کامل بودن گرامر زبان فارسی و همچنین قابلیت بسط الگوریتم هاي به دست آمده به خانواده ي زبانهاي هند و اروپایی به دلیل قرابت ساختاري آنها بسیار قابل توجه می باشد. به جز مشکلاتی که در زمینه ي رسم الخط فارسی براي سامانه هاي رایانه اي وجود دارد (کوشا، 1381 )، مشکلات دیگري نیز در دل دستور زبان فارسی هست که ماهیتاً پردازش آن را براي یک نرم افزار پیچیده می کند. از جمله ي این موارد می توان به اتصال بخشهایی از لغات به لغات دیگر اشاره نمود که به عنوان ساده ترین مثال آن در حوزه ي ریشه یابی افعال، اتصال شناسه به فعل است. این در حالی است که نرم افزارهاي موجود در زبان انگلیسی، به کمک فاصله ي میان لغات، بسیار ساده تر از زبان فارسی قادر به کشف اجزاء جمله هستند. اما کاملترین الگوریتمهاي ریشه یابی دسته اي هستند که به عنوان الگوریتمهاي مبتنی بر لغتنامه مشهور می باشند. این الگوریتمها در بازیابی ریشه ي زبانشناختی کاملاً مؤفق هستند. اما عیب عمده آنها ناتوانی در دسته بندي کلمات در گروه هاي معنایی همسان می باشد. به عنوان مثال دو کلمه ي مکان و محل داراي بار معنایینزدیک هستند و در گروه معنایی مکانها قرار می گیرند، در حالیکه با استفاده از این الگوریتمها دو ریشه ي مکان و محل بدون دسته بندي خاص معنایی باز گردانده می شود . اشکال دوم این الگوریتمها در ایستا بودن آنها می باشد. در حالیکه که زبان یک ساختار کاملاً پویا است این الگوریتمها مبتنی بر یک لغتنامه هستند که براي کامل بودن احتیاج به بروزرسانی دارد. این عمل بسیار هزینه بر و طولانی مدت می باشد. و اشکال عمده آخر اینکه این الگوریتمها از درجه ي زمانی و مکانی بسیار بالایی برخودار هستند و به عنوان مثال عملاً در اعمال جستجو قابل استفاده نمی باشند.
دسته ي دوم از این الگوریتمها، بر روي به دست آوردن ریشه ي کلمات از طریق تعدادي قوانین از پیش تعیین
شده کار می کنند. در این الگوریتمها قوانین موجود ساختارهاي زبانشناسی نیستند، بلکه فرض بر این است که
هیچ اطلاعی از قوانین زبانشناسی در دست نمی باشد. استفاده ي از قوانین زبانشناسی باعث می شود تا از لحاظ نتیجه به مانند الگوریتمهاي دسته ي اول نتوانیم کلمات را در گروه هاي معنایی مرتب کنیم. از این دسته الگوریتمها می توان به الگوریتمهاي معروف Krovetz و Lovins و Porter بر روي زبان انگلیسی و الگوریتم ریشه یابی براي زبان فارسی نوشته کاظم تقوي و ... بر روي زبان فارسی اشاره کرد. این الگوریتمها مشکل ایستا بودن، بالا بودن هزینه ي زمان و مکان را ندارند، اما به دلیل محدود بودن قوانین مورد استفاده از لحاظ مؤفقیت از درصد پایینی برخوردار هستند. در ادامه به تعدادي از این الگوریتم ها اشاره می کنیم.
-
الگوریتم Porter
-
تشریح الگوریتم ریشه یاب فارسی
-
پیاده سازي الگوریتم
-
ارزیابی ریشه یاب فارسی
-
الگوریتم کراوتز
-
الگوریتم کراوتز بهبود یافته براي زبان انگلیسی
-
الگوریتم کراوتز براي زبان فارسی
-
الگوریتم کراوتز بهبود یافته براي زبان فارسی
-
طراحی الگوریتم رایانه اي براي ریشه یابی افعال فارسی
-
ارزیابی
***************************************************************************************
در صورت تمایل
به دریافت فایل فوق در مدت 10 دقیقه ، لطفاً اینجا کلیک
کنید
***************************************************************************************
مشاوره ؛نگارش پایان نامه ؛ مقاله + شبیه سازی
در تمام مقاطع دانشگاهی پذیرفته می شود
در صورت
تمایل می توانید عنوان و جزئیات پروژه خود را در قسمت نظرات این پست
اعلام فرمایید. ضمنا می توانید اطلاعات درخواستی خود را به ایمیل یا تلگرام
نمایید
ایمیل :
com.dr@yahoo.com
درباره :
الگوریتم هاي ریشه یابی کلمات ,
|