برچسب‌گذاری ادات سخن

شناسایی برچسب صرفی یک کلمه یا همان برچسب ادات سخن، یکی از پایه‌ای‌ترین نیازهای پردازش هوشمند متون محسوب می‌گردد. طی این فرایند نوع کلمات از لحاظ اسم، فعل و حرف بودن شناسایی شده و جزئیات بیشتری نیز از آن در قالب برچسب ارائه می‌گردد. ابزار پیش رو یکی از قویترین برچسب‌گذارهای حال حاضر زبان فارسی محسوب می‌گردد که توانایی شناسایی 14 برچسب مهم صرفی را داراست. این برچسب‌ها به ترتیب عبارتند از:

Id POS معادل Id POS معادل Id POS معادل
1 AJ صفت 6 N اسم 11 PUNC جداکننده
2 CL شاخص 7 NUM عدد 12 RES متفرقه
3 CONJ حرف ربط 8 P حرف  اضافه 13 V فعل
4 DET حرف تعریف 9 POSTP حرف اضافه پسین (را) 14 ADV قید
5 INT حرف صوت 10 PRO ضمیر

کاربردهای متعددی برای این سیستم وجود دارد که غنی سازی و تقویت موتورهای جستجو، استخراج کلیدواژه ماشینی، شناسایی اسامی درون متون و شناسایی مرجع ضمیر از جمله آن‌ها محسوب می‌گردد. آزمایشات انجام داده شده نشان می‌دهد ابزار پیش رو با دقتی در حدود ۹۸% و با سرعتی بسیار بالا قادر به شناسایی برچسب‌های ادات سخن است. قابل ذکر است سرعت ابزار پیش رو در حدود ۱۰۰ هزار کلمه بر ثانیه است.