مدت ها پیش یه دیتاست فارسی درست کردم به نام hystoclass
(hybrid social text and tabular classification)
که یه دیتاست ترکیبی هستش که از استوریهای اینستاگرام گردآوری شده (با در نظر گرفتن حریم خصوصی)
الان، تصمیم گرفتم این دیتاست رو به صورت عمومی منتشر کنم
این دیتاست علاوه بر متنهای فارسی منتشرشده در استوریها (ویژگی متنی content)، شامل ویژگیهای گرافیکی مانند رنگ پسزمینه، رنگ متن و فونت نیز هستش. برای همین، hystoclass برای مدلسازیهای چندوجهی (متنی-تصویری یا متنی-جدولی) بسیار مناسب است.
دستهبندیها
این دیتاست با نظارت انسانی به ۱۸ دسته مختلف تقسیم شده.
گیتهاب | هاگینگفیس
این دیتاست اطلاعات خوبی برای پژوهش در حوزههای پردازش زبان طبیعی (NLP)، تحلیل شبکههای اجتماعی و طبقهبندی ترکیبی متن و ویژگیهای گرافیکی ارائه میده.
با لایک و استار ⭐️ در گیتهاب و هاگینگفیس حمایت کنین❤️
>>Click here to continue<<