Всем привет!
Решил поделиться своим подходом к оформлению документации при анализе и профайлинге данных из нового источника.
Первым делом хочу отметить несколько правил, которых я придерживаюсь:
1. Пиши так, чтобы документация была понятна даже человеку из другой команды. Важно помнить, что в дальнейшем вашей докой будут пользоваться также и другие люди
2. Документируй каждый день свои новые находки, иначе завтра можешь уже не вспомнить ключевые моменты
3. Оценивай трудозатраты задач с учетом создания документации. Это помогает трезво оценить скоп работы и заложить время на фиксирование анализа
Я люблю все документировать в Confluence - это продукт Atlassian, который работает как некая база знаний во многих компаниях для организации документации. Не очень удобно распихивать отдельные части анализа в разные места: excel-файлы, cloud диски как google drive или box. Все стараюсь зафиксировать на одной странице или разделе страниц
📍Важная и полезная фишка: можно создавать под себя и команду шаблоны страниц, чтобы не тратить время на постоянную структуризацию
Как выглядит моя структура страницы:
✅ Название страницы (куда де без него 😅). Пишу обычно по теме анализа
✅ Ссылка на Jira-тикет
- Очень помогает связывать тикеты и страницы документации для быстрого доступа к нужным страницам сразу из таск-трекера
- Помогает задокументировать каждую открытую задачу и ни про что не забыть
✅ Описание источника данных
- Название БД, схемы, таблицы
- Кто бизнес-владелец источника (имя, контакт)
- Контакты технической команды поддержки
- Ссылка на документацию источника
- Как получить доступ (необходимы роли и действия
- Расписание обновления данных в источнике
✅ AS-IS схема данных (если есть)
- ER-диаграмма
- Data Dictionary (словарь всех атрибутов с бизнес-описанием)
✅ TO-BE схема данных
- ER-диаграмма
- Data Dictionary
- Source to Target mapping (таблица сопоставления атрибутов между источниками AS-IS и TO-BE) - если нужен
✅ Data Profiling
- Таблица с результатами исследования данных (что такое data profiling писал в предыдущих постах ⬆️)
- SQL-скрипт для профайлинга (прикрепляется макросом в Confluence очень удобно)
✅ Открытые вопросы и видимые риски
- Список вопросов, которые нужно уточнить у технической команды или со стороны бизнеса
- Все возможные риски по качеству данных, внедрению нового источника, получения доступов и т.п (если есть)
✅ Полезные ссылки
- Все ссылки или материалы, которые были найдены или использованы во время анализа
Примерно так выглядит каждая страница в Confluence, которая создается мной после анализа и проверки источника данных.
>>Click here to continue<<