TG Telegram Group & Channel
Data Science Archive | United States America (US)
Create: Update:

分享一篇介绍 Data Leak 的文章,说起 data leak 我早期是真的深受其害,毕竟真实世界的线上业务永远有一个特别的维度:时间。理论上完全服从独立同分布业务数据/问题并不多,所以很多时候我们是直接把时间维度忽略掉。若干年前参加过知乎的一次给短文本预测 tag 的竞赛最后也是因为当时原始数据存在一些 data leak(知乎作为举办方提供数据的时候把时间轴抹掉,但是数据本身又其实是时间排序的),最后的排名引起挺大的争议。对于 data leak 系统地考虑是线上数据科学工作非常重要的一环。https://towardsdatascience.com/data-science-mistakes-to-avoid-data-leakage-e447f88aae1c

分享一篇介绍 Data Leak 的文章,说起 data leak 我早期是真的深受其害,毕竟真实世界的线上业务永远有一个特别的维度:时间。理论上完全服从独立同分布业务数据/问题并不多,所以很多时候我们是直接把时间维度忽略掉。若干年前参加过知乎的一次给短文本预测 tag 的竞赛最后也是因为当时原始数据存在一些 data leak(知乎作为举办方提供数据的时候把时间轴抹掉,但是数据本身又其实是时间排序的),最后的排名引起挺大的争议。对于 data leak 系统地考虑是线上数据科学工作非常重要的一环。https://towardsdatascience.com/data-science-mistakes-to-avoid-data-leakage-e447f88aae1c


>>Click here to continue<<

Data Science Archive






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)