* При перепечатке материалов ссылка на www.SeoLiga.ru обязательна!
Определение и типовые архитектуры хранилищ данных
17 марта 2009
Концептуально модель хранилища данных можно представить в виде схемы. Данные из различных источников помещают в хранилище, а их описания — в репозиторий метаданных. Репозиторий — место для хранения данных, моделей, интерфейсов и программных реализаций. Метаданные – данные о данных: каталоги, справочники, реестры, базы метаданных, содержащие сведения о составе данных, содержании, статусе, происхождении, местонахождении, качестве, форматах и формах представления, условиях доступа, приобретения и использования, авторских, имущественных и смежных с ними правах на данные и другое. Конечный пользователь, используя различные инструменты (средства визуализации, построения отчетов, статистической обработки и т. д.) и содержимое репозитория, анализирует данные в хранилище. Результатом является информация в виде готовых отчетов, найденных скрытых закономерностей, каких-либо прогнозов. Так как средства работы конечного пользователя с хранилищем данных могут быть самыми разнообразными, то теоретически их выбор не должен влиять на структуру хранилища и функции его поддержания в актуальном состоянии. Физическая реализация данной концептуальной схемы может быть самой разнообразной.
В информационном хранилище используется методология метаданных, благодаря этому блоки базы превращаются в единый работоспособный объект. Все форматы представления метаданных жестко связаны с прикладной программой, которая их использует. Метаданные необходимы для описания каталогов и схем расположения данных. Метаданные позволяют также определять время, источник и приемник данных, алгоритм выполненного преобразования. Это нужно тогда, когда необходимо найти первичную информацию, на которой основывались обобщения. Наряду с большими универсальными базами данных с помощью информационных баз также создаются тематические комплексы, касающиеся разных аспектов деятельности предприятия либо организации. Простые типы информационных баз используются в информационных витринах. Информационные витрины обеспечивают сотрудников тематической информацией, касающейся финансов, материальных запасов, персонала и т. д. Витрины дают возможность обойтись без создания единого физического хранилища. Для каждого подразделения можно иметь свою витрину, на которой отображать всю информацию, необходимую этому подразделению. В системах управления приобретением знаний используются разновидности информационных хранилищ, именуемые хранилищами знаний. Виртуальное хранилище данных — это система, предоставляющая интерфейсы и методы доступа к регистрирующей системе, которые эмулируют работу с данными в этой системе, как с хранилищем данных. Виртуальное хранилище данных можно организовать, создав ряд «представлений» (view) в базе данных либо применив специальные средства доступа. Главными достоинствами такого подхода являются: простота и малая стоимость реализации, единая платформа с источником информации, отсутствие сетевых соединений между источником информации и хранилищем данных. Однако недостатков гораздо больше. Создавая виртуальное хранилище данных, пользователь создает не хранилище как таковое, а иллюзию. Структура хранения и само хранение не претерпевают изменений, и остаются проблемы: производительности, трансформации данных, интеграции данных с другими источниками, отсутствие истории, чистоты данных, зависимость от доступности и структуры основной базы данных. Двухуровневая архитектура хранилища данных подразумевает построение витрин данных (data mart) без создания центрального хранилища, при этом информация поступает из регистрирующих систем и ограничена конкретной предметной областью. При построении витрин используются основные принципы построения хранилищ данных, поэтому их можно считать хранилищами данных в миниатюре. Плюсы: простота и малая стоимость реализации; высокая производительность за счет физического разделения регистрирующих и аналитических систем, выделения загрузки и трансформации данных в отдельный процесс, оптимизированной под анализ структурой хранения данных; поддержка истории; возможность добавления метаданных. Построение полноценного корпоративного хранилища данных обычно выполняется в трехуровневой архитектуре. На первом уровне расположены разнообразные источники данных — внутренние регистрирующие системы, справочные системы, внешние источники (данные информационных агентств, макроэкономические показатели). Второй уровень содержит центральное хранилище, куда стекается информация от всех источников с первого уровня, и, возможно, оперативный склад данных, который не содержит исторических данных и выполняет две основные функции. Во-первых, он является источником аналитической информации для оперативного управления, и, во-вторых, здесь подготавливаются данные для последующей загрузки в центральное хранилище. Под подготовкой данных понимают их преобразование и проведение определенных проверок. Наличие оперативного склада данных просто необходимо при различном регламенте поступления информации из источников. Третий уровень представляет собой набор предметно-ориентированных витрин данных, источником информации для которых является центральное хранилище данных. Именно с витринами данных и работает большинство конечных пользователей.