Что такое общая модель данных и зачем она нужна? Часть 3 из серии «Поток данных» в Power BI

Tags: Microsoft, Power BI, dataflow, data, data lake

В двух недавних статьях вы узнали, что такое поток данных и примеры сценариев его использования в Power BI, а также научились создавать поток данных. Прежде чем идти дальше в обсуждении потока данных, мы должны сделать небольшую паузу и поговорить об общей модели данных (CDM). Интеграция потоков данных с CDM является важным и ценным активом для бизнес-приложений, а также Power BI. В этой статье вы узнаете, что такое CDM, и все подробности о нем, которые вам нужны для вашего решения Power BI.


Необходимое условие


Чтобы понять содержание этой статьи, полезно иметь общую информацию о том, что такое поток данных, и сценарии использования потока данных:

Каковы варианты использования потока данных для вас в Power BI?

Начало работы с потоком данных в Power BI - часть 2 серии «Поток данных»

Силосы данных

Чтобы понять общую модель данных, вы должны сначала понять необходимость в ней. В настоящее время многие организации имеют десятки приложений, которые выполняют различные функции. Например, одно приложение для учета, другое приложение для ERP, одно приложение, которое заботится о своем веб-сайте, и приложение для их системы расписаний и т. д. Многие организации также имеют много баз данных, поскольку обычно каждое приложение поставляется с базой данных. Могут быть также некоторые базы данных без приложения для этого. Например, файл Excel, в котором у продавца есть список потенциальных клиентов и контактов, на которые можно ссылаться. В каждой организации могут быть сотни баз данных.

В качестве примера силосов данных, попробуйте ответить на этот вопрос: сколько приложений может хранить данные клиентов? ERP может хранить эту информацию. Интернет-сайт может иметь раздел в своей базе данных для него. Кроме того, в приложении учета может быть таблица клиентов. Как бы вы синхронизировали все эти данные клиентов вместе? Как интегрировать?

Проблема интеграции

Одна из больших проблем в вышеупомянутом сценарии (десятки приложений и сотни баз данных) - это интеграция. Приложение ERP хотело бы получить доступ к данным с веб-сайта. Приложению бухгалтерского учета потребуется импортировать некоторые детали из приложения ERP. Приложению для составления отчетов потребуются данные из всех приложений. Если мы хотим создать интегрированную модель между десятью приложениями и сотнями баз данных, мы получим что-то похожее на диаграмму ниже!

 

Единая модель данных

Как вы можете видеть на скриншоте выше, интеграция между приложениями и базами данных выглядит очень сложной и безумной. Большинству организаций приходится тратить много ресурсов и бюджета, чтобы сделать ее, и с появлением следующего приложения или базы данных, всю операцию необходимо выполнить снова! Вместо приведенной выше модели гораздо эффективнее, если мы сможем интегрировать все данные в «единую модель данных». Единая модель данных будет источником единой версии истины. Все системы будут читать и записывать данные в эту модель. Другие приложения по-прежнему имеют свою собственную базу данных, но если они хотят интегрироваться с другим приложением, единая модель данных является их адаптером.

 

Единая модель данных может помочь архитектуре решения стать намного более эффективной, как показано ниже:

 

Единая модель данных сделает приложения изолированными от изменений в других приложениях, и в результате потребуется гораздо меньше усилий по интеграции. Теперь давайте посмотрим, что такое Common Data Model.

Общая модель данных: CDM

Общая модель данных (CDM) - это модель общих данных, которую вы видели на предыдущей диаграмме. Это место для хранения всех общих данных для совместного использования между приложениями и источниками данных. Это обеспечивает целостность и согласованность приложения. Каждое приложение должно знать только, как обращаться с CDM.  Общая модель данных имеет шаблоны структуры таблицы для большинства потребностей бизнес-функций. Инициатива общей модели данных началась с Dynamics 365. Таким образом, структура таблицы в основном получена из этой структуры. На момент написания этой статьи в общей модели данных насчитывалось более 250 таблиц. Следующий скриншот показывает некоторые из этих объектов:

 

В Github есть хранилище CDM для схемы общей модели данных: https://github.com/Microsoft/CDM. CDM работает с другими технологиями Microsoft, как описано в следующем разделе.

CDM и другие службы Microsoft

Общая модель данных уже поддерживается в общих службах данных для приложений, Dynamics 365, Power Apps, Power BI и будет поддерживаться во многих будущих службах данных Azure. Мы остановимся на Power BI в этой статье. Поток данных может отображать выходные данные запроса на объект в общей модели данных. Эта функция обрабатывается с помощью параметра «Map to Standard» в Dataflow Power Query Editor.

Службы общих данных также предоставляют концентратор для дополнительного анализа, а также для бизнес-анализа, основанного на искусственном интеллекте. На диаграмме ниже показано, как CDM можно использовать со всеми другими службами Microsoft.

 

CDM и поток данных

Общая модель данных может быть местом хранения данных в потоке данных. Чтобы использовать эту функцию, вам нужно использовать опцию «Map to Standard». Это опция, которую вы увидите, когда будете в онлайн-редакторе запросов потока данных.

 

Затем вы можете выбрать стандартный объект. Стандартный объект является одним из объектов в общей модели данных, как вы можете видеть на скриншоте ниже, есть много предопределенных объектов.

 

После выбора объекта вы можете сопоставить поля из исходного столбца со стандартным объектом.

 

Этот процесс загружает данные в таблицу CDM.

CDM и бизнес-приложения

Доступ к общей модели данных можно получить из бизнес-приложений Microsoft, таких как Microsoft PowerApps, Power BI и Dynamics 365.

 

Хранение данных для общей модели данных

Общая модель данных сохраняет данные в хранилище озера данных Azure. Структура хранилища использует папки, называемые папками CDM. Каждая папка содержит файлы метаданных и несколько файлов данных. Файл метаданных представляет собой файл * .json, а данные хранятся в виде файлов * .csv. На приведенном ниже снимке экрана показан пример структуры папки CDM:

 

В одной из следующих статей мы подробно объясним структуру папок CDM и как можно ее использовать для создания внешнего потока данных.

Главное преимущество  CDM

Как упоминалось выше, CDM помогает упростить интеграцию. Как прямой результат, она помогает отделить приложения и источники данных друг от друга. И это означает, что вы можете создать отчет для определенной цели, и если этот отчет использует CDM, его можно легко применить к аналогичному сценарию, в котором источник данных отличается. Тот же процесс применяется, когда у вас есть приложения, использующие Dynamics 365 или PowerApps, использующие CDM. Это приводит к некоторым возможностям, таким как ускорители промышленного решения, которые представляют собой предварительно упакованные приложения, использующие CDM.

 

 

Здесь уже опубликованы некоторые ускорители отраслевых решений Microsoft.

Резюме

Поток данных загружает данные в хранилище озера данных Azure, но он может быть еще более эффективным, если загружает данные в единую модель данных. Единая модель данных уменьшит усилия, необходимые для интеграции между источниками данных и приложениями. Общая модель данных - это единая модель данных, к которой могут обращаться различные технологии Microsoft. Общая модель данных сохраняется в озере данных Azure. Поток данных может загружать данные в CDM, а другие приложения, а также Power BI могут получать данные из CDM.

No Comments

Add a Comment