TG Telegram Group & Channel
Silicon Brain | جامعه هوش مصنوعی | United States America (US)
Create: Update:

تبدیل فایل به دیتاست!

مایکروسافت یه ابزار خفن و open-source به نام MarkItDown MCP معرفی کرده که هر فایل رو به یه دیتاست آماده برای مدل‌های زبانی تبدیل می‌کنه!

انواع مختلف ورودی میتونه بگیره از جمله فایل‌های PDF، ورد، پاورپوینت، صدا و تصویر. و خروجیش یه Markdown تمیز، Structurable و آماده برای LLMهاست که در ادامه میتونه کلی استفاده داشته باشه

اما فقط یه مبدل ساده نیست، این کارها رو هم انجام می‌ده:

- متن رو از عکس‌ها استخراج می‌کنه (OCR)
- برای تصاویر کپشن هوشمند می‌سازه
- متادیتا و EXIF رو درمیاره
- صدا رو به متن تبدیل می‌کنه (transcription)

خودم باهاش کار میکنم و جزئیات بیشتری ازش میگم
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید

This media is not supported in your browser
VIEW IN TELEGRAM
تبدیل فایل به دیتاست!

مایکروسافت یه ابزار خفن و open-source به نام MarkItDown MCP معرفی کرده که هر فایل رو به یه دیتاست آماده برای مدل‌های زبانی تبدیل می‌کنه!

انواع مختلف ورودی میتونه بگیره از جمله فایل‌های PDF، ورد، پاورپوینت، صدا و تصویر. و خروجیش یه Markdown تمیز، Structurable و آماده برای LLMهاست که در ادامه میتونه کلی استفاده داشته باشه

اما فقط یه مبدل ساده نیست، این کارها رو هم انجام می‌ده:

- متن رو از عکس‌ها استخراج می‌کنه (OCR)
- برای تصاویر کپشن هوشمند می‌سازه
- متادیتا و EXIF رو درمیاره
- صدا رو به متن تبدیل می‌کنه (transcription)

خودم باهاش کار میکنم و جزئیات بیشتری ازش میگم
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید


>>Click here to continue<<

Silicon Brain | جامعه هوش مصنوعی




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)