TG Telegram Group & Channel
Silicon Brain | جامعه هوش مصنوعی | United States America (US)
Create: Update:

متریک های ارزیابی LLM ها

اینا رایج‌ترین و مهم‌ترین متریک‌هایی هستن که معمولاً قبل از این که سیستم LLM رو ببری توی محیط واقعی بهشون نیاز پیدا می‌کنی:

Answer Relevancy:
بررسی می‌کنه که آیا جواب مدل با سؤال یا ورودی مربوطه یا نه؛ یعنی جواب درست و جمع‌وجوره یا نه.

Task Completion:

چک می‌کنه که آیا مدل تونسته اون کاری که براش تعریف شده رو تا آخر انجام بده یا نه.

Correctness:
مشخص می‌کنه که خروجی مدل از نظر اطلاعات واقعی درسته یا نه.

Hallucination:
بررسی می‌کنه که مدل اطلاعات ساختگی یا جعلی تولید کرده یا نه.

Tool Correctness:
اگه مدل از ابزارهایی استفاده می‌کنه، این متریک بررسی می‌کنه که آیا ابزار درست رو برای کار مورد نظر انتخاب کرده یا نه.

Contextual Relevancy:
اگه سیستم LLM‌ت بر پایه RAG (Retrieval-Augmented Generation) باشه، این بررسی می‌کنه که آیا اطلاعاتی که به عنوان context جمع‌آوری شده، واقعاً به درد مدل می‌خوره یا نه.

Responsible Metrics:
شامل متریک‌هایی مثل Bias و Toxicity (محتوای سمی یا آزاردهنده) هستن، که بررسی می‌کنن آیا خروجی مدل محتوای آسیب‌زا یا توهین‌آمیز داره یا نه.

Task-Specific Metrics:
اینا بستگی به کاربرد خاص مدل دارن، مثل وقتی که داری خلاصه‌سازی انجام می‌دی و یه سری معیار خاص خودت رو داری.

در کل، بیشتر متریک‌ها عمومی‌ان و برای همه‌ی مدل‌ها کاربرد دارن، ولی برای اینکه دقیق‌تر روی یه کاربرد خاص تمرکز کنی، کافی نیستن. واسه همین معمولاً باید یه متریک سفارشی Task-Specific داشته باشی تا سیستم ارزیابیت واقعاً به درد production بخوره.

مثلاً اگه اپلیکیشن LLM‌ت واسه خلاصه‌کردن خبرها طراحی شده، لازمه یه متریک ارزیابی خاص داشته باشی که این چیزا رو بررسی کنه:

- خلاصه، اطلاعات کافی از متن اصلی داره یا نه؟
- آیا توی خلاصه، تناقض یا تخیلات (hallucinations) نسبت به متن اصلی هست یا نه؟

اینجا یه داکیومنتی خوبی در موردش نوشتن

@silicon_brain | از هوش مصنوعی عقب نمانید

متریک های ارزیابی LLM ها

اینا رایج‌ترین و مهم‌ترین متریک‌هایی هستن که معمولاً قبل از این که سیستم LLM رو ببری توی محیط واقعی بهشون نیاز پیدا می‌کنی:

Answer Relevancy:
بررسی می‌کنه که آیا جواب مدل با سؤال یا ورودی مربوطه یا نه؛ یعنی جواب درست و جمع‌وجوره یا نه.

Task Completion:

چک می‌کنه که آیا مدل تونسته اون کاری که براش تعریف شده رو تا آخر انجام بده یا نه.

Correctness:
مشخص می‌کنه که خروجی مدل از نظر اطلاعات واقعی درسته یا نه.

Hallucination:
بررسی می‌کنه که مدل اطلاعات ساختگی یا جعلی تولید کرده یا نه.

Tool Correctness:
اگه مدل از ابزارهایی استفاده می‌کنه، این متریک بررسی می‌کنه که آیا ابزار درست رو برای کار مورد نظر انتخاب کرده یا نه.

Contextual Relevancy:
اگه سیستم LLM‌ت بر پایه RAG (Retrieval-Augmented Generation) باشه، این بررسی می‌کنه که آیا اطلاعاتی که به عنوان context جمع‌آوری شده، واقعاً به درد مدل می‌خوره یا نه.

Responsible Metrics:
شامل متریک‌هایی مثل Bias و Toxicity (محتوای سمی یا آزاردهنده) هستن، که بررسی می‌کنن آیا خروجی مدل محتوای آسیب‌زا یا توهین‌آمیز داره یا نه.

Task-Specific Metrics:
اینا بستگی به کاربرد خاص مدل دارن، مثل وقتی که داری خلاصه‌سازی انجام می‌دی و یه سری معیار خاص خودت رو داری.

در کل، بیشتر متریک‌ها عمومی‌ان و برای همه‌ی مدل‌ها کاربرد دارن، ولی برای اینکه دقیق‌تر روی یه کاربرد خاص تمرکز کنی، کافی نیستن. واسه همین معمولاً باید یه متریک سفارشی Task-Specific داشته باشی تا سیستم ارزیابیت واقعاً به درد production بخوره.

مثلاً اگه اپلیکیشن LLM‌ت واسه خلاصه‌کردن خبرها طراحی شده، لازمه یه متریک ارزیابی خاص داشته باشی که این چیزا رو بررسی کنه:

- خلاصه، اطلاعات کافی از متن اصلی داره یا نه؟
- آیا توی خلاصه، تناقض یا تخیلات (hallucinations) نسبت به متن اصلی هست یا نه؟

اینجا یه داکیومنتی خوبی در موردش نوشتن

@silicon_brain | از هوش مصنوعی عقب نمانید


>>Click here to continue<<

Silicon Brain | جامعه هوش مصنوعی




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)