TG Telegram Group & Channel
Аналитика данных / Data Study | United States America (US)
Create: Update:

Всем привет!

Решил поделиться своим подходом к оформлению документации при анализе и профайлинге данных из нового источника.

Первым делом хочу отметить несколько правил, которых я придерживаюсь:

1. Пиши так, чтобы документация была понятна даже человеку из другой команды. Важно помнить, что в дальнейшем вашей докой будут пользоваться также и другие люди

2. Документируй каждый день свои новые находки, иначе завтра можешь уже не вспомнить ключевые моменты

3. Оценивай трудозатраты задач с учетом создания документации. Это помогает трезво оценить скоп работы и заложить время на фиксирование анализа

Я люблю все документировать в Confluence - это продукт Atlassian, который работает как некая база знаний во многих компаниях для организации документации. Не очень удобно распихивать отдельные части анализа в разные места: excel-файлы, cloud диски как google drive или box. Все стараюсь зафиксировать на одной странице или разделе страниц

📍Важная и полезная фишка: можно создавать под себя и команду шаблоны страниц, чтобы не тратить время на постоянную структуризацию

Как выглядит моя структура страницы:

Название страницы (куда де без него 😅). Пишу обычно по теме анализа

Ссылка на Jira-тикет
- Очень помогает связывать тикеты и страницы документации для быстрого доступа к нужным страницам сразу из таск-трекера
- Помогает задокументировать каждую открытую задачу и ни про что не забыть

Описание источника данных
- Название БД, схемы, таблицы
- Кто бизнес-владелец источника (имя, контакт)
- Контакты технической команды поддержки
- Ссылка на документацию источника
- Как получить доступ (необходимы роли и действия
- Расписание обновления данных в источнике

AS-IS схема данных (если есть)
- ER-диаграмма
- Data Dictionary (словарь всех атрибутов с бизнес-описанием)

TO-BE схема данных
- ER-диаграмма
- Data Dictionary
- Source to Target mapping (таблица сопоставления атрибутов между источниками AS-IS и TO-BE) - если нужен

Data Profiling
- Таблица с результатами исследования данных (что такое data profiling писал в предыдущих постах ⬆️)
- SQL-скрипт для профайлинга (прикрепляется макросом в Confluence очень удобно)

Открытые вопросы и видимые риски
- Список вопросов, которые нужно уточнить у технической команды или со стороны бизнеса
- Все возможные риски по качеству данных, внедрению нового источника, получения доступов и т.п (если есть)

Полезные ссылки
- Все ссылки или материалы, которые были найдены или использованы во время анализа


Примерно так выглядит каждая страница в Confluence, которая создается мной после анализа и проверки источника данных.

Всем привет!

Решил поделиться своим подходом к оформлению документации при анализе и профайлинге данных из нового источника.

Первым делом хочу отметить несколько правил, которых я придерживаюсь:

1. Пиши так, чтобы документация была понятна даже человеку из другой команды. Важно помнить, что в дальнейшем вашей докой будут пользоваться также и другие люди

2. Документируй каждый день свои новые находки, иначе завтра можешь уже не вспомнить ключевые моменты

3. Оценивай трудозатраты задач с учетом создания документации. Это помогает трезво оценить скоп работы и заложить время на фиксирование анализа

Я люблю все документировать в Confluence - это продукт Atlassian, который работает как некая база знаний во многих компаниях для организации документации. Не очень удобно распихивать отдельные части анализа в разные места: excel-файлы, cloud диски как google drive или box. Все стараюсь зафиксировать на одной странице или разделе страниц

📍Важная и полезная фишка: можно создавать под себя и команду шаблоны страниц, чтобы не тратить время на постоянную структуризацию

Как выглядит моя структура страницы:

Название страницы (куда де без него 😅). Пишу обычно по теме анализа

Ссылка на Jira-тикет
- Очень помогает связывать тикеты и страницы документации для быстрого доступа к нужным страницам сразу из таск-трекера
- Помогает задокументировать каждую открытую задачу и ни про что не забыть

Описание источника данных
- Название БД, схемы, таблицы
- Кто бизнес-владелец источника (имя, контакт)
- Контакты технической команды поддержки
- Ссылка на документацию источника
- Как получить доступ (необходимы роли и действия
- Расписание обновления данных в источнике

AS-IS схема данных (если есть)
- ER-диаграмма
- Data Dictionary (словарь всех атрибутов с бизнес-описанием)

TO-BE схема данных
- ER-диаграмма
- Data Dictionary
- Source to Target mapping (таблица сопоставления атрибутов между источниками AS-IS и TO-BE) - если нужен

Data Profiling
- Таблица с результатами исследования данных (что такое data profiling писал в предыдущих постах ⬆️)
- SQL-скрипт для профайлинга (прикрепляется макросом в Confluence очень удобно)

Открытые вопросы и видимые риски
- Список вопросов, которые нужно уточнить у технической команды или со стороны бизнеса
- Все возможные риски по качеству данных, внедрению нового источника, получения доступов и т.п (если есть)

Полезные ссылки
- Все ссылки или материалы, которые были найдены или использованы во время анализа


Примерно так выглядит каждая страница в Confluence, которая создается мной после анализа и проверки источника данных.
👍37🔥115


>>Click here to continue<<

Аналитика данных / Data Study




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)