پردازش زبان های طبیعی (NLP) چیست؟

پردازش زبان‌های طبیعی زیرشاخه‌ای از هوش مصنوعی است که با توسعه و استفاده از مدل‌های رایانشی برای پردازش زبان سر و کار دارد. در این زمینه، دو حیطه اصلی پژوهش وجود دارد: ادراک، که با فرایندهایی سر و کار دارد که اطلاعات را از زبان استخراج می‌کنند (مانند درک زبان طبیعی، بازیابی اطلاعات) و تولید، که با فرایندهایی سر و کار دارد که با استفاده از زبان به انتقال اطلاعات می‌پردازند. معمولاً کارهای مرتبط با گفتار را تحت عناوین جداگانه تشخیص گفتار و تولید گفتار قرار می‌دهند.

با اینکه مجموعه گسترده‌ای از روش‌ها در پردازش زبان طبیعی بکار می‌روند، تکنیک‌های بکار رفته را می‌توان به سه دستۀ کلی تقسیم نمود: روش‌های آماری، روش‌های ساختاری/مبتنی بر الگو و روش‌های مبتنی بر استنتاج. باید توجه داشت که این راهکارها لزوماً از هم جدا نیستند. در واقع، جامع‌ترین مدل‌ها از ترکیب هر سۀ این روش‌ها استفاده می‌کنند. تفاوت این راهکارها در نوع عملیات پردازشی است که قادر به انجام آن هستند و میزان قواعدی که در مقابل آموزش/یادگیری خودکار از روی داده‌های زبانی نیاز دارند.

سطوح تحلیل زبانی

  • آواشناسی/واج‌شناسی
  • ساختواژه (صرف)
  • نحو
  • معنی‌شناسی
  • کاربردشناسی
  • گفتمان

تکنیک‌های پردازش زبان طبیعی

  • قطعه‌بندی و نرمال‌سازی متن:
    • برای پردازش متن در کاربردهایی مانند ترجمه ماشینی، بازیابی اطلاعات، تبدیل متن به گفتار و … باید متن ورودی قطعه بندی و نرمال‌سازی شود.
    • قطعه‌بندی: تقطیع دنباله کاراکترهای تشکیل دهنده متن به دنباله‌ای از کلمات.
      • مشکلات:
        • علائم نقطه‌گذاری معمولاً به کلمۀ قبل از خود می‌چسبند.
        • پسوندها و پیشوندها: در فارسی پسوندها و پیشوندها در بسیاری مواقع با فاصله از کلمه اصلی نوشته می‌شوند.
        • کلمات مرکب: بین اجزای کلمات مرکب معمولاً فاصله گذاشته می‌شود.
    • نرمال‌سازی: یکدست‌سازی واحدهای متنی به طوری که قابل پردازش توسط ماشین باشند.
      • مشکلات:
        • وجود encodingهای مختلف برای بعضی از کاراکترها مانند «ی» و «ک».
        • روش‌های مختلف چسبیدن وندها به کلمات اصلی.
        • روش‌های مختلف اتصال اجزای کلمات مرکب.
        • کلمات چنداملایی.
  • تحلیل ساختواژی:
    • چگونه کلمات از واحدهای کوچکتر به نام تکواژ تشکیل می شوند.
    • تکواژ: کوچکترین واحد دربردارنده معنا در زبان.
    • ساختواژه تصریفی.
    • ساختواژه اشتقاقی.
  • برچسب‌زنی جزء کلام:
    • فرایند انتساب مقولۀ نحوی به هر کلمه در پیکره متنی.
    • جزء کلام: مقولۀ نحوی که هر کلمه به آن تعلق دارد.
    • کاربردها:
      • مدل‌سازی زبانی (در بازشناسی گفتار و …): مقولۀ نحوی یک کلمه می‌تواند در پیش‌بینی کلمۀ بعدی کمک کند.
      • سنتز گفتار: مقولۀ نحوی یک کلمه می‌تواند اطلاعاتی در مورد نحوۀ تلفظ صحیح یک کلمه به ما بدهد.
      • بازیابی اطلاعات: دانستن مقولۀ نحوی کلمات می‌تواند به استخراج کلمات مهم در متن کمک کند.
      • رفع ابهام معنایی: دانستن مقولۀ نحوی کلمات می‌تواند به رفع ابهام معنایی کلمه کمک کند.
  • تجزیه یا پارس (تحلیل نحوی):
    • تجزیۀ جمله به ساختارهای نحوی تشکیل‌دهندۀ آن.
    • برای تعیین ساختارهای نحوی یک جمله به دو چیز نیاز داریم:
      • گرامر: دربردارندۀ توصیف رسمی از ساختارهای مجاز زبان.
      • تکنیک پارس: روش آنالیز جمله برای مشخص کردن ساختارهای نحوی آن بر اساس گرامر زبان.
  • تحلیل معنایی:
    • رفع ابهام از کلمه.
    • مطالعه در مورد معنای رخدادهای زبانی.
    • چگونه معنای یک جمله به معنای عبارات، کلمات و تکواژهای تشکیل دهندۀ آن مربوط می شود.
    • چهار روش متداول:
      • منطق مرتبه اول.
      • شبکه معنایی.
      • دیاگرام وابستگی مفهومی.
      • نمایش مبتنی بر قاب.
  • مدل‌سازی زبانی:یادگیری ماشین.
    • مدل زبانی نحوۀ رخداد توالی کلمات در زبان را مدل‌سازی می‌کند.
    • آماری.
    • ساختاری.
    • سطوح مختلف مدل سازی زبانی:
      • واژگانی محلی.
      • نحوی.
      • معنایی.
    • کاربردهای مدل زبانی:
      • پیش‌بینی کلمات.
      • بازشناسی گفتار.
      • درک زبان طبیعی.
      • ترجمه ماشینی.
      • بازشناسی نویسه‌های نوری.

کاربردهای پردازش زبان طبیعی

  • درک زبان طبیعی:
    • درک زبان گفتاری.
  • پردازش متون:
    • استخراج اطلاعات.
    • خلاصه‌سازی.
    • تشخیص موضوع.
    • خوشه‌بندی متون.
  • بازیابی اطلاعات:
    • جستجوی اطلاعات در مستندات مختلف و بازیابی آنها.
    • از بین مجموعه‌ای از مستندات، سندهایی را پیدا کنیم که با درخواست کاربر منطبق باشند.
    • بازیابی متن.
    • بازیابی متون گفتاری.
    • بازیابی تصویر.
    • بازیابی موسیقی.
  • ترجمۀ ماشینی:تولید متن.
    • ترجمۀ خودکار جملات از یک زبان طبیعی به زبان طبیعی دیگر به گونه‌ای که فرد بومی زبان مقصد همان مفهومی را دریافت کند که گوینده مدنظر داشته است.
    • سطوح مختلف ترجمه:
      • ترجمۀ ماشینی کاملاً اتوماتیک.
      • ترجمۀ ماشینی با کمک انسان.
      • ترجمۀ انسانی با کمک ماشین.
      • ترجمۀ کاملاً انسانی.
  • تصحیح املاء و دستور.
  • بازشناسی گفتار:ساخت گفتار از روی متن.
    • تشخیص گفتار انسان توسط ماشین و تبدیل آن به متن یا دستورالعمل معادل.
    • نکات مطرح در بازشناسی گفتار:
      • تعداد کلمات مورد بازشناسی.
      • پیوسته یا گسسته بودن ادای کلمات.
      • وابستگی یا استقلال از گوینده.
      • یک سیستم بازشناسی کامل:
        • قادر به بازشناسی گفتار پیوسته و محاوره‌ای باشد.
        • گفتار افراد مختلف، حتی با لهجه‌های متفاوت را بازشناسی نماید.
        • در محیط‌های شلوغ و نویزی هم جوابگو باشد.
        • بصورت بلادرنگ عمل کند.
        • قادر به فراگیری اطلاعات جدید نظیر کلمات، قوانین زبانی و . . . باشد.
  • بازشناسی نویسه‌های نوری.
  • سیستم‌های مکالمه گفتاری.
  • سیستم‌های پرسش و پاسخ.
  • ترجمه گفتار به گفتار.
تیم توسعه محتوا

منتشر شده توسط
تیم توسعه محتوا

مطالب اخیر