Рекомендации по моделированию данных
Введение
Всем привет! Меня зовут Елизавета Акманова, и я рада приветствовать вас в моей новой статье. Если вы помните, моя первая публикация касалась пяти ключевых трендов в бизнес-анализе. Сегодня я приглашаю вас отправиться в увлекательное путешествие под названием «Рекомендации по моделированию данных».
Отмечу, что в данной статье не будут рассмотрены технические аспекты, такие как типы баз данных, уровни нормализации, типы данных, и т.п. Эти вопросы не являются предметом обсуждения. Основное внимание будет уделено бизнес-целям создания модели данных. Я дам рекомендации по работе с моделями данных, основанные на моем личном опыте.
Первое, с чего хочется начать: что такое модель данных и база данных? Зачем их разделяют и в чем их принципиальное отличие?
Модель данных и база данных: одно и то же или нет?
База данных — это структурированное хранилище информации, где данные организованы и хранятся в определенном формате. Она служит для эффективного хранения и извлечения информации. В отличие от этого, модель данных описывает логическую структуру данных, определяя их отношения и способы взаимодействия. Модель данных является абстракцией, которая помогает понять, как данные связаны друг с другом и как они используются в конкретной предметной области. В то время как база данных предоставляет физическое хранение данных, модель данных предоставляет концептуальное представление о том, как эти данные связаны и как они используются в бизнес-процессах.
В фокусе создания модели данных лежит бизнес-ориентированная стратегия, не затрагивающая технических деталей. Основываясь на бизнес-целях, вы можете оптимизировать производительность, сократить количество ошибок и обеспечить более эффективный анализ данных. Планирование организации данных становится ключевым элементом в достижении этих целей, учитывая потребности бизнес-процессов и пользователей. Создание надежной модели данных — это не просто упражнение, а стратегический шаг к обеспечению успешного функционирования вашего бизнеса в динамичной среде.
Почему важно моделирование данных?
Бестселлер «Designing Data-Intensive Applications» убедительно аргументирует необходимость моделей данных: «Data models have such a profound effect not only on how the software is written but also on how we think about the problem that we are solving». Что в переводе означает: «Модели данных оказывают такое глубокое влияние не только на то, как написано программное обеспечение, но и на то, как мы мыслим о решаемой проблеме». Эта цитата объясняет причину, по которой мы вообще создаем программное обеспечение: для решения проблем.
Современные организации создают большие объемы данных, и их эффективное моделирование обеспечивает систематизацию, консолидацию и трансформацию для удобного использования и поддержки хранилища данных. Точное моделирование оказывает существенное влияние на рост и зрелость бизнеса, обеспечивая конкурентное преимущество и открывая возможности для анализа данных и повышения производительности.
Статистика по самым высоким созданным данным из статьи «Amount of Data Created Daily (2024)»:
- Ежедневно создается около 328,77 млн терабайт данных
- В этом году будет сгенерировано около 120 зеттабайт данных
- В 2025 году будет сгенерирован 181 зеттабайт данных
Источник: Amount of Data Created Daily (2024)
Рекомендации по моделированию данных
1. Понимание потребностей бизнеса и требуемых результатов
Помочь организации функционировать более эффективно — вот цель моделирования данных. С точки зрения квалифицированного специалиста, наиболее существенной проблемой, связанной с моделированием данных, является точное определение потребностей бизнеса. Это необходимо для того, чтобы понять, какие данные должны собираться, сохраняться, изменяться и предоставляться пользователям.
В ходе проекта я проводила идентификацию ключевых заинтересованных сторон — это процесс выявления отдельных лиц или групп, которые имеют значительный интерес или участие в нашем проекте. Это включает в себя понимание того, на кого повлияют результаты и кто может внести свой вклад в его успех. Определив эти ключевые заинтересованные стороны, я могла проанализировать их точки зрения, потребности и проблемы, чтобы обеспечить эффективную коммуникацию, взаимодействие и сотрудничество.
Это помогло мне удовлетворить их ожидания и заручиться поддержкой, что увеличило шансы на достижение желаемых результатов.
Опрашивая пользователей и заинтересованных лиц о результатах, которые им нужны на основе данных, вы можете получить полное представление о потребностях. Помня об этих целях, начните упорядочивать свои данные. Предпочтительно начинать структурировать наборы данных вдумчиво с учетом потребностей пользователей и заинтересованных лиц.
2. Визуализация моделируемых данных
Обладание великолепной моделью данных не имеет смысла, если никто не знает, как ее использовать. Наблюдение за множеством строк и столбцов текста вряд ли приведет к пониманию. Большинству людей гораздо удобнее работать с графическим представлением данных, которое позволяет легко выявлять аномалии, быстро анализировать и объединять таблицы данных. Методы визуализации данных помогают очистить данные, чтобы они были полными, согласованными и не содержали ошибок и избыточности.
По этой же причине визуализация данных привлекает внимание людей. На рынке представлены современные инструменты визуализации данных и передовое программное обеспечение. Некоторые из лучших инструментов визуализации данных включают Google Charts, Tableau, Grafana, Chartist, FusionCharts, Datawrapper, Infogram, ChartBlocks и т.д. Эти инструменты поддерживают различные визуальные стили, просты и удобны в использовании и способны обрабатывать большие объемы данных.
Небольшое отступление в виде истории из жизни: мы вместе с бывшими коллегами часто обмениваемся рабочими историями и одна из них меня поразила. Идея заключалась в том, чтобы разработчик отслеживал статус обращений клиентов, где «Все понравилось» — 1, а «Вообще не понравилось» — 2. Однако из-за сложного маппинга со смежной системой, он оказался с точностью да наоборот. В течение трех месяцев на основе этих данных руководство принимало стратегические решения, выдавало премии и даже увольняло сотрудников. Когда ситуация стала проясняться, было довольно неприятно. Именно поэтому модели ваших данных должны быть четкими и понятными, чтобы специалисты смежных направлений могли легко разобраться в них и эффективно организовать свою работу и процессы в компании.
3. Начните с простого моделирования данных и расширяйте его
Наборы данных могут быстро усложняться из-за таких аспектов, как множество переменных, сложные взаимосвязи между данными, аномалии в информации, а также постоянные изменения в структуре и объеме данных. Поддержание небольших и скромных моделей данных на начальном уровне упрощает исправление любых проблем или неправильных поворотов.
Если вы уверены, что ваши предварительные модели точны и выразительны, вы можете добавить больше наборов данных, постепенно улучшая точность. Использование инструментов, удобных для старта, но способных масштабироваться для работы с обширными моделями данных, может значительно упростить объединение данных из разных источников.
4. Ищите связь, а не просто корреляцию
Моделирование данных включает в себя руководство в подходе, при котором используются смоделированные данные. Несмотря на то, что предоставление пользователям самостоятельного доступа к бизнес-аналитике является важным действием, необходимо, чтобы они не делали поспешных выводов.
Например, мы замечаем, что продажи двух разных продуктов увеличиваются и падают одновременно. Управляют ли продажи одного продукта продажами другого, или они то растут, то падают в зависимости от других аспектов, таких как экономика или погодные условия? Запутанная связь и корреляция здесь могут направить в неверном направлении и, таким образом, ухудшить ресурсы.
5. Сделайте так, чтобы ваши модели данных развивались и совершенствовались
Модели данных никогда не высечены в камне, поскольку источники данных и требования пользователей постоянно меняются. Следовательно, было бы полезно, если бы вы лучше планировали их обновления с течением времени.
Я применяла принципы проектирования с учетом изменений и меняющихся требований. Данный подход к созданию системы или продукта основывается на возможности их модификации и адаптации к меняющимся потребностям со временем. В ходе работы я учитывала потенциальные изменения и обновления, которые могут потребоваться, интегрируя гибкость в процесс проектирования. Таким образом, обеспечивается легкая модифицируемость, модернизация и расширение системы или продукта, минимизируя необходимость в серьезных доработках или сбоях.
Чтобы не забыть о всех возможных модификациях и изменениях, я делала некоторые сноски внутри модели данных, указывая потенциальные изменения, которые могут затронуть ту или иную модель. Это практическое решение помогло мне минимизировать затраты на работу, когда необходимость в этих изменениях возникала.
Такой подход необходим не только при проектировании модели данных, но и в общих случаях, где требуется принятие решений, например, при рассмотрении архитектурных вопросов. Если вы, как технический лидер, описываете текущие требования к системе и при этом предоставляете хотя бы в виде комментария возможные варианты развития, это может повлиять на архитектурное решение, обеспечивая легкость и безболезненность внесения дальнейших изменений.
Заключение
Моделирование данных — это понимание вашего бизнеса и данных, прежде чем переходить к аналитике. Этот ценный инструмент поможет получить максимальную отдачу от данных. Приобретение знаний о современных методах моделирования данных и передовых практиках поможет вам построить модель данных, которая будет отвечать требованиям вашего бизнеса и конечных пользователей.