رضایت کاربران از دانلود فایل
پیشنهاد
3481
تعداد دانلود
3006
رضایت مندی
95%
توضیحات کامل در مورد فایل
دانلود سورس کد استخراج کلمه کلیدیبا تفاوت آنتروپی بین حالت درونی و بیرونی با ویژوال بیسیک دات نت
ما در تلاش هستیم تا معیار جدیدی را برای ارزیابی و رتبه بندی ارتباط کلمات در یک متن پیشنهاد کنیم. این روش از تفاوت آنتروپی شانون بین حالت درونی و بیرونی استفاده می کند، که به این واقعیت اشاره دارد که کلمات مرتبط به طور قابل توجهی منعکس کننده قصد نوشتن نویسنده هستند، به عنوان مثال، وقوع آنها توسط هدف نویسنده تعدیل می شود، در حالی که کلمات نامربوط به طور تصادفی در متن توزیع می شوند. . با استفاده از منشاء گونه ها توسط چارلز داروین به عنوان نمونه متنی نماینده، عملکرد آشکارساز ما نشان داده شده و با پیشنهادات قبلی مقایسه می شود. از آنجایی که متن مرجع «پیشه» همه نوشتهها، کتابها، مقالات و غیره یک نویسنده است، نیازی به آثار جمعآوریشده او نیست. رویکرد ما به ویژه برای اسناد منفردی که هیچ اطلاعات قبلی در دسترس نیست مناسب است.
زمینه
یکی از مهمترین تفاوتهای بین متون نوشته شده توسط انسان و تایپ کردن میمونها، وجود کلی موضوعات معنادار در متون نوشتاری انسان است. کلمه کلیدی / استخراج و رتبهبندی کلمات مربوطه نقطه شروع کارهای حیاتی مانند تشخیص موضوع و ردیابی در متون نوشتاری است. آنها به طور گسترده ای در استخراج اطلاعات، انتخاب و بازیابی استفاده می شوند.
حالت درونی و حالت بیرونی در موقعیت های رخدادهای نوع کلمه در متن.
در اینجا به معرفی مختصری از اصل الگوریتم می پردازیم، می تواند به شما در درک و استفاده بهتر از dll و نرم افزار کمک کند. ایده حالت درونی- بیرونی بر این ایده کلی استوار است که کلمات بسیار مهم تمایل دارند توسط قصد نویسنده تعدیل شوند، در حالی که کلمات رایج اساساً به طور یکنواخت در سراسر متن پخش می شوند. بنابراین حالت ذاتی ویژگی های آماری ظاهر یک کلمه مرتبط در یک موضوع را نشان می دهد، به عنوان مثال، ویژگی های آماری خوشه بندی در هر موضوع. در همین حال، حالت بیرونی ویژگیهای آماری ناپدید شدن یک خوشهبندی کلمه در طول یک متن نوشته شده را نشان میدهد و رابطه بین وقوع خوشهبندی کلمات در یک موضوع و سبک نوشتاری نویسنده را مشخص میکند. همانطور که در شکل نشان داده شده است. 2. فاصله بین دو کلمه که تکرار متوالی است به صورت di = ti + 1 - ti تعریف می شود. Ti جایگاه کلمه در متن است. اگر _di اختلاف زمان رسیدن di_به حالت ذاتی تعلق دارد. به عبارت دیگر، یک رخداد معین از کلمه بخشی از یک حالت ذاتی است اگر جداسازی محلی آن کمتر از میانگین زمان انتظار آن باشد. اجازه دهید dI = {di | di } مجموعه اتحادیه برای همه di است که در شکل پایین سمت چپ در شکل نشان داده شده است. 2. ما از طریق آزمایشات متوجه شدیم که کلمه کلیدی که در مقاله ظاهر می شود، ویژگی های مصالح را نشان می دهد. بنابراین آنتروپی حالت درونی آن بزرگ است در حالی که آنتروپی حالت بیرونی آن کوچک است. کلمات کلی به طور مساوی در مقاله توزیع شده اند، فاصله هر دو کلمه متوالی تغییر کمی به نظر می رسد، بنابراین تفاوت آنتروپی بین حالت درونی و بیرونی کم است. به این ترتیب می توانید از مقدار E که تفاوت آنتروپی بین حالت درونی و بیرونی است برای استخراج کلمات کلیدیاستفاده کنید. در عمل، برای حذف کلمات توزیع شده تصادفی و شرایط مرزی، از شرایط مرزی _C ~ c ~ و تفاوت آنتروپی نرمال شده _E_nor به عنوان شاخص های نهایی استفاده می کنیم. اگر میخواهید با جزئیات بیشتر این الگوریتم آشنا شوید.
نکات برجسته
- ما یک معیار جدید برای ارزیابی و رتبه بندی ارتباط کلمات در یک متن پیشنهاد می کنیم.
- این متریک از تفاوت آنتروپی شانون بین حالت درونی و بیرونی استفاده می کند.
- ما معتقدیم که این کار یک نتیجه جدید در استخراج و رتبه بندی کلمات کلیدی است.
- رویکرد ما به ویژه برای اسناد منفردی که هیچ اطلاعات قبلی در دسترس نیست مناسب است.
برای دانلود کردن اینجا کلیک فرمایید
مشاهده پست مشابه : سورس و کد استخراج کلمه کليدي با تفاوت آنتروپي بين حالت دروني و بيروني با ویژوال بیسیک دات نت