نمونه گیری در داده های سری زمانی
عموما در بازارهای مالی با داده های سری زمانی سر و کار داریم. قبلا در این پست (لینک) در خصوص انتخاب داده، نمونه گیری و بازنمونه گیری در یادگیری ماشین صحبت شد. در نمونه گیری های متقاطع رایج، نمونه ها به صورت تصادفی از هر بخش جامعه انتخاب می شدند. اما در داده های سری های زمانی، روشهای اعتبارسنجی متقاطع (cross-validation) مناسب نیستند، چرا که منجر به آموزش روی دادههای آینده و ارزیابی روی دادههای گذشته میشوند. برای اطمینان از قابلمقایسهبودن معیارها در بین بخشها (folds)، نمونهها باید با فواصل زمانی مساوی انتخاب شوند. وقتی این شرط برقرار باشد، هر مجموعه آزمون بازهی زمانی یکسانی را پوشش میدهد و اندازه مجموعه آموزش با انباشت دادهها از تقسیمات قبلی افزایش مییابد.
این نوع اعتبارسنجی متقاطع، نوعی تغییر یافته از KFold است. در تقسیم kام، k بخش اول را بهعنوان مجموعه آموزش و بخش (k+1)ام را بهعنوان مجموعه آزمون برمیگرداند.
#پایتون_مالی
#انتخاب_داده
#نمونه_گیری
#سری_زمانی
#Time_series
#Sampling
پایتون برای مالی
🆔 hottg.com/python4finance
🆔 ble.ir/python4finance
>>Click here to continue<<
