TG Telegram Group & Channel
Дата канальи — про «специалистов» в данных / ML / AI | United States America (US)
Create: Update:

Аксиома — когда выходишь на новую работу, от тебя ждут квик-винов.
Что бы тебе не втирали про стратегию, трансформацию, процессы, рисование планов и презентаций — твой кредит доверия это квик-вины.
Есть у меня история как я в первую неделю после выхода окупил свою годовую зп с большим запасом.

Была команда, человек 15, из них пяток DS и несколько DA, относительно молодая — основной состав вместе работал год-полтора.
И был у них главный регулярный KPI на качество модели скоринга — чтоб они эту модель улучшали значит все время. Не будем сейчас о разумности таких KPI (хотя если хотите кейсы про KPI DS-командам — можете сердечко поставить), история о другом.

Ища те самые квик-вины я прикинул что с одним DS и одним DA за полгода можно собрать витрины связей и ребятам графовые сетки сделать, оттестить и поставить в прод.
Какой-никакой аплифт по Gini получится.
Забегая вперед скажу — что так и вышло, только вот не за полгода) Но сейчас не об этом.

Чтобы что-то построить дополняющее неплохо бы сделать свой baseline, для этого надо таргетов собрать.
Команда работает полтора года, табличка с таргетами готова и тащательно вылизана — 3 года, примерно по 5-7 тыс единичек в году. На миллионы ноликов.

Чет маловато единичек, не?
Смотрю как собирается: есть две таблички — Clients и Contracts (кредитные договоры).
Вроде все ясно, джойнятся по client_id, потому что в Clients указан msisdn (телефон), к которому уже можно вязать витрины фичей (они про тот client_id не знают ничего).
Если телефон в Clients не указан — в таргеты такая строчка не попадает.

Все бы ничего, но рядом есть третья табличка — Applications (заявки на кредит), а там поле телефон обязательное!
Вот сджойнить c Applications и воткнуть COALESCE чтобы заполнить пропущенные телефоны хватило для того чтобы нарастить число единичек в 3.5-4 раза в каждый из годов. Что произошло после этого с моделью довольно очевидно)

Так что стратегия в любой задаче начинать со сбора и определения таргета оказалась вполне рабочей, да и кейс этот потом не раз выручал во внутренних дискуссиях.

Аксиома — когда выходишь на новую работу, от тебя ждут квик-винов.
Что бы тебе не втирали про стратегию, трансформацию, процессы, рисование планов и презентаций — твой кредит доверия это квик-вины.
Есть у меня история как я в первую неделю после выхода окупил свою годовую зп с большим запасом.

Была команда, человек 15, из них пяток DS и несколько DA, относительно молодая — основной состав вместе работал год-полтора.
И был у них главный регулярный KPI на качество модели скоринга — чтоб они эту модель улучшали значит все время. Не будем сейчас о разумности таких KPI (хотя если хотите кейсы про KPI DS-командам — можете сердечко поставить), история о другом.

Ища те самые квик-вины я прикинул что с одним DS и одним DA за полгода можно собрать витрины связей и ребятам графовые сетки сделать, оттестить и поставить в прод.
Какой-никакой аплифт по Gini получится.
Забегая вперед скажу — что так и вышло, только вот не за полгода) Но сейчас не об этом.

Чтобы что-то построить дополняющее неплохо бы сделать свой baseline, для этого надо таргетов собрать.
Команда работает полтора года, табличка с таргетами готова и тащательно вылизана — 3 года, примерно по 5-7 тыс единичек в году. На миллионы ноликов.

Чет маловато единичек, не?
Смотрю как собирается: есть две таблички — Clients и Contracts (кредитные договоры).
Вроде все ясно, джойнятся по client_id, потому что в Clients указан msisdn (телефон), к которому уже можно вязать витрины фичей (они про тот client_id не знают ничего).
Если телефон в Clients не указан — в таргеты такая строчка не попадает.

Все бы ничего, но рядом есть третья табличка — Applications (заявки на кредит), а там поле телефон обязательное!
Вот сджойнить c Applications и воткнуть COALESCE чтобы заполнить пропущенные телефоны хватило для того чтобы нарастить число единичек в 3.5-4 раза в каждый из годов. Что произошло после этого с моделью довольно очевидно)

Так что стратегия в любой задаче начинать со сбора и определения таргета оказалась вполне рабочей, да и кейс этот потом не раз выручал во внутренних дискуссиях.
55👍13🥴5🔥4💔1


>>Click here to continue<<

Дата канальи — про «специалистов» в данных / ML / AI




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)