متریک های ارزیابی LLM ها
اینا رایجترین و مهمترین متریکهایی هستن که معمولاً قبل از این که سیستم LLM رو ببری توی محیط واقعی بهشون نیاز پیدا میکنی:Answer Relevancy
:
بررسی میکنه که آیا جواب مدل با سؤال یا ورودی مربوطه یا نه؛ یعنی جواب درست و جمعوجوره یا نه.
Task Completion:
چک میکنه که آیا مدل تونسته اون کاری که براش تعریف شده رو تا آخر انجام بده یا نه.Correctness:
مشخص میکنه که خروجی مدل از نظر اطلاعات واقعی درسته یا نه.Hallucination
:
بررسی میکنه که مدل اطلاعات ساختگی یا جعلی تولید کرده یا نه.Tool Correctness:
اگه مدل از ابزارهایی استفاده میکنه، این متریک بررسی میکنه که آیا ابزار درست رو برای کار مورد نظر انتخاب کرده یا نه.Contextual Relevancy
:
اگه سیستم LLMت بر پایه RAG (Retrieval-Augmented Generation) باشه، این بررسی میکنه که آیا اطلاعاتی که به عنوان context جمعآوری شده، واقعاً به درد مدل میخوره یا نه.Responsible Metrics:
شامل متریکهایی مثل Bias و Toxicity (محتوای سمی یا آزاردهنده) هستن، که بررسی میکنن آیا خروجی مدل محتوای آسیبزا یا توهینآمیز داره یا نه.Task-Specific Metrics:
اینا بستگی به کاربرد خاص مدل دارن، مثل وقتی که داری خلاصهسازی انجام میدی و یه سری معیار خاص خودت رو داری.
در کل، بیشتر متریکها عمومیان و برای همهی مدلها کاربرد دارن، ولی برای اینکه دقیقتر روی یه کاربرد خاص تمرکز کنی، کافی نیستن. واسه همین معمولاً باید یه متریک سفارشی Task-Specific داشته باشی تا سیستم ارزیابیت واقعاً به درد production بخوره.
مثلاً اگه اپلیکیشن LLMت واسه خلاصهکردن خبرها طراحی شده، لازمه یه متریک ارزیابی خاص داشته باشی که این چیزا رو بررسی کنه:
- خلاصه، اطلاعات کافی از متن اصلی داره یا نه؟
- آیا توی خلاصه، تناقض یا تخیلات (hallucinations) نسبت به متن اصلی هست یا نه؟
اینجا یه داکیومنتی خوبی در موردش نوشتن
@silicon_brain | از هوش مصنوعی عقب نمانید
>>Click here to continue<<