شناسایی برچسب صرفی یک کلمه یا همان برچسب ادات سخن، یکی از پایهایترین نیازهای پردازش هوشمند متون محسوب میگردد. طی این فرایند نوع کلمات از لحاظ اسم، فعل و حرف بودن شناسایی شده و جزئیات بیشتری نیز از آن در قالب برچسب ارائه میگردد. ابزار پیش رو یکی از قویترین برچسبگذارهای حال حاضر زبان فارسی محسوب میگردد که توانایی شناسایی 14 برچسب مهم صرفی را داراست. این برچسبها به ترتیب عبارتند از:
Id | POS | معادل | Id | POS | معادل | Id | POS | معادل |
1 | AJ | صفت | 6 | N | اسم | 11 | PUNC | جداکننده |
2 | CL | شاخص | 7 | NUM | عدد | 12 | RES | متفرقه |
3 | CONJ | حرف ربط | 8 | P | حرف اضافه | 13 | V | فعل |
4 | DET | حرف تعریف | 9 | POSTP | حرف اضافه پسین (را) | 14 | ADV | قید |
5 | INT | حرف صوت | 10 | PRO | ضمیر |
کاربردهای متعددی برای این سیستم وجود دارد که غنی سازی و تقویت موتورهای جستجو، استخراج کلیدواژه ماشینی، شناسایی اسامی درون متون و شناسایی مرجع ضمیر از جمله آنها محسوب میگردد. آزمایشات انجام داده شده نشان میدهد ابزار پیش رو با دقتی در حدود ۹۸% و با سرعتی بسیار بالا قادر به شناسایی برچسبهای ادات سخن است. قابل ذکر است سرعت ابزار پیش رو در حدود ۱۰۰ هزار کلمه بر ثانیه است.