STeP-1: Standard Text preparation for Persian language

برای بسیاری از برنامه‌های پردازش زبان طبیعی لازم است تا مجموعه‌ای از پیش‌پردازش‌ها بر روی متن ورودی انجام گیرد تا متن به فرمت مناسبی برای پردازش‌های سطح بالاتر تبدیل شود. از جمله‌ی این پیش‌پردازش‌ها می‌توان به قطعه‌بندی، ریشه‌یابی و برچسب‌گذاری مقوله‌ی نحوی اشاره کرد. کاربران پردازش‌های زبان طبیعی به واسطی یکپارچه و ساده برای پردازش‌های پایه بررروی متن نیاز دارند. STeP-1 یک بسته نرم‌افزاری شامل پردازش‌های پایه‌ی برروی زبان فارسی است. این بسته شامل قطعه‌بند و ویرایش‌گر متون فارسی، ریشه‌یاب و تحلیل‌گر ساختواژی و برچسب‌زن مقوله‌ی نحوی است. این نرم‌افزار به زبان C# نوشته شده است. زیرسیستم قطعه‌بند، متن را به کلمات و جملات تشکیل‌دهنده‌اش تجزیه می‌کند. در این سیستم فاصله‌ها و نیم فاصله‌ها بین کلمات فارسی تصحیح می‌شود. همچنین این سیستم، متن را تا حدی بر اساس اصول نگارشی فرهنگستان زبان و ادب فارسی ویرایش می‌کند. زیرسیستم ریشه‌یاب قادر به ریشه یابی تمام کلمات تصریفی، تعدادی از کلمات اشتقاقی و تحلیل ساختواژی آن‌هاست. زیرسیستم برچسب زن مقوله‌ی نحوی، مقوله‌ی نحوی کلمات را در یک جمله مشخص می‌کند. برای انجام این کاری از ابزاری به نام TNT استفاده شده است. STeP-1 یک API است که در اختیار کاربران تخصصی پردازش زبان فارسی قرار می‌گیرد.