STeP-1: Standard Text preparation for Persian language
برای بسیاری از برنامههای پردازش زبان طبیعی لازم است تا مجموعهای از پیشپردازشها بر روی متن ورودی انجام گیرد تا متن به فرمت مناسبی برای پردازشهای سطح بالاتر تبدیل شود. از جملهی این پیشپردازشها میتوان به قطعهبندی، ریشهیابی و برچسبگذاری مقولهی نحوی اشاره کرد. کاربران پردازشهای زبان طبیعی به واسطی یکپارچه و ساده برای پردازشهای پایه بررروی متن نیاز دارند. STeP-1 یک بسته نرمافزاری شامل پردازشهای پایهی برروی زبان فارسی است. این بسته شامل قطعهبند و ویرایشگر متون فارسی، ریشهیاب و تحلیلگر ساختواژی و برچسبزن مقولهی نحوی است. این نرمافزار به زبان C# نوشته شده است. زیرسیستم قطعهبند، متن را به کلمات و جملات تشکیلدهندهاش تجزیه میکند. در این سیستم فاصلهها و نیم فاصلهها بین کلمات فارسی تصحیح میشود. همچنین این سیستم، متن را تا حدی بر اساس اصول نگارشی فرهنگستان زبان و ادب فارسی ویرایش میکند. زیرسیستم ریشهیاب قادر به ریشه یابی تمام کلمات تصریفی، تعدادی از کلمات اشتقاقی و تحلیل ساختواژی آنهاست. زیرسیستم برچسب زن مقولهی نحوی، مقولهی نحوی کلمات را در یک جمله مشخص میکند. برای انجام این کاری از ابزاری به نام TNT استفاده شده است. STeP-1 یک API است که در اختیار کاربران تخصصی پردازش زبان فارسی قرار میگیرد.