7 نکته مهندسی ویژگی برای داده های متنی


7 نکته مهندسی ویژگی برای داده های متنی

7 نکته مهندسی ویژگی برای داده های متنی
تصویر توسط ناشر

مقدمه

تعداد فزاینده‌ای از هوش مصنوعی و سیستم‌های مبتنی بر یادگیری ماشینی به یکدیگر نیرو می‌دهند داده های متنی – امروزه مدل‌های زبان نمونه‌ای قابل توجه هستند. با این حال، توجه به این نکته ضروری است که ماشین‌ها واقعاً زبان را درک نمی‌کنند، بلکه اعداد را درک می‌کنند. به عبارت دیگر: برخی مهندسی ویژگی معمولاً برای تبدیل داده‌های متن خام به ویژگی‌های داده‌های عددی مفید که این سیستم‌ها می‌توانند هضم کرده و برای استنتاج از آن استفاده کنند، مراحلی لازم است.

این مقاله هفت نکته آسان برای اجرای مهندسی ویژگی بر روی داده های متنی را ارائه می دهد. بسته به پیچیدگی و الزامات مدل خاص برای تغذیه داده های خود، ممکن است به مجموعه ای کم و بیش جاه طلبانه از این نکات نیاز داشته باشید.

  • اعداد 1 تا 5 معمولاً برای یادگیری ماشینی کلاسیک که با متن سروکار دارد، از جمله مدل های مبتنی بر درخت تصمیمبه عنوان مثال.
  • شماره 6 و 7 برای مدل‌های یادگیری عمیق مانند شبکه‌های عصبی بازگشتی و ترانسفورماتورها ضروری هستند، اگرچه شماره 2 (ساقه و ریشه‌بندی) ممکن است هنوز برای بهبود عملکرد این مدل‌ها ضروری باشد.

1. کلمات توقف را حذف کنید

حذف کلمات توقف به کاهش ابعاد کمک می کند: چیزی ضروری برای برخی از مدل ها که ممکن است از به اصطلاح نفرین ابعاد رنج ببرند. کلمات رایجی که ممکن است در درجه اول به داده های شما نویز بیافزایند، مانند مقالات، حروف اضافه و افعال کمکی، حذف می شوند و فقط آنهایی که معنای ضروری متن مبدأ را منتقل می کنند، حفظ می شوند.

در اینجا نحوه انجام آن در چند خط کد آورده شده است (به سادگی می توانید جایگزین کنید words با فهرستی از متون که به کلمات انتخابی شما تقسیم شده است). استفاده خواهیم کرد NLTK برای لیست کلمات توقف در انگلیسی:

2. ریشه یابی و ریشه یابی

کاهش کلمات به شکل ریشه آنها می تواند به ادغام تغییرات (به عنوان مثال، زمان های مختلف یک فعل) در یک ویژگی یکپارچه کمک کند. در مدل‌های یادگیری عمیق مبتنی بر جاسازی متن، جنبه‌های مورفولوژیکی معمولاً ثبت می‌شوند، بنابراین این مرحله به ندرت ضروری است. با این حال، زمانی که داده‌های موجود بسیار محدود است، همچنان می‌تواند مفید باشد، زیرا پراکندگی را کاهش می‌دهد و مدل را به تمرکز بر معنای اصلی کلمات به جای شبیه‌سازی بازنمایی‌های اضافی سوق می‌دهد.

3. بردارهای مبتنی بر اعداد: کیسه کلمات

یکی از ساده‌ترین رویکردها برای تبدیل متن به ویژگی‌های دیجیتال در یادگیری ماشینی کلاسیک، رویکرد کیسه کلمات است. بسادگی فرکانس کلمه را در بردارها رمزگذاری می کند. نتیجه یک آرایه دو بعدی از تعداد کلمات است که ویژگی‌های اساسی ساده را توصیف می‌کند: چیزی مفید برای ثبت حضور و ارتباط کلی کلمات در اسناد، اما محدود است زیرا نمی‌تواند جنبه‌های مهم برای درک زبان مانند ترتیب کلمات، بافت یا روابط معنایی را به تصویر بکشد.

با این وجود، به عنوان مثال، این می تواند یک رویکرد ساده اما موثر برای مدل های طبقه بندی متن نه چندان پیچیده باشد. با استفاده از scikit-یادگیری:

4. استخراج ویژگی TF-IDF

فرکانس اصطلاح – فرکانس معکوس سند (TF-IDF) مدتهاست که یکی از رویکردهای اساسی برای پردازش زبان طبیعی بوده است. این فراتر از کیسه کلمات است و فراوانی کلمات و ارتباط کلی را نه تنها در سطح تک متن (سند)، بلکه در سطح مجموعه داده ها نیز در نظر می گیرد. به عنوان مثال، در یک مجموعه داده متنی که شامل 200 قطعه متن یا سند است، کلماتی که اغلب در یک زیرمجموعه خاص محدود از متون ظاهر می شوند، اما به طور کلی در تعداد کمی از 200 متن موجود ظاهر می شوند، بسیار مرتبط در نظر گرفته می شوند: این ایده پشت فرکانس معکوس است. در نتیجه به کلمات منحصر به فرد و مهم وزن بیشتری داده می شود.

با اعمال آن در مجموعه داده کوچک زیر که شامل سه متن است، به هر کلمه در هر متن وزن اهمیت TF-IDF بین 0 و 1 اختصاص داده می شود:

5. N-گرام مبتنی بر عبارت

n-gram های مبتنی بر عبارت کمک می کنند تا تعامل بین کلمات، به عنوان مثال “new” و “york” به تصویر کشیده شود. با استفاده از CountVectorizer کلاس از scikit-یادگیریما می‌توانیم با تعریف کردن، معناشناسی را در سطح جمله به دست آوریم ngram_range پارامتر برای جاسازی توالی چند کلمه به عنوان مثال، آن را تنظیم کنید (1,2) ویژگی های مرتبط با هر دو کلمه واحد (unigrams) و ترکیبی از دو کلمه متوالی (bigrams) ایجاد می کند.

6. تمیز کردن و نشانه گذاری

اگرچه الگوریتم های توکن سازی تخصصی زیادی در کتابخانه های پایتون وجود دارد ترانسفورماتورهارویکرد اصلی آنها حذف علائم نگارشی، حروف بزرگ و سایر نمادهایی است که مدل‌های پایین دستی ممکن است درک نکنند. یک خط لوله پاکسازی و نشانه گذاری ساده می تواند شامل تقسیم متن به کلمات، حروف کوچک و حذف علائم نگارشی یا سایر کاراکترهای خاص باشد. نتیجه لیستی از واحدهای کلمه یا نشانه های تمیز و نرمال شده است.

THE re از کتابخانه مدیریت عبارات منظم می توان برای ایجاد یک توکنایزر ساده مانند زیر استفاده کرد:

7. ویژگی های متراکم: جاسازی کلمه

در نهایت، یکی از برجسته ترین و قدرتمندترین رویکردهای امروزی برای تبدیل متن به اطلاعات قابل خواندن توسط ماشین: جاسازی کلمه. آنها در گرفتن معناشناسی، مانند کلماتی با معانی مشابه، مانند “shogun” و “samurai”، یا “aikido” و “jiujitsu” که به عنوان بردارهای عددی مشابه (جاسازی‌ها) کدگذاری می‌شوند، عالی هستند. اساساً، کلمات با استفاده از رویکردهای از پیش تعریف شده مانند Word2Vec یا در فضای برداری نگاشت می شوند SpaCy:

ابعاد خروجی بردار جاسازی که هر کلمه به آن تبدیل می شود توسط الگوریتم جاسازی خاص و مدل مورد استفاده تعیین می شود.

نتیجه گیری

این مقاله هفت نکته مفید برای درک داده‌های متن خام هنگام استفاده از آن برای یادگیری ماشینی و مدل‌های یادگیری عمیق که وظایف پردازش زبان طبیعی مانند طبقه‌بندی و خلاصه‌سازی متن را انجام می‌دهند، ارائه می‌کند.



منبع:aitoolsclub.com/