SQL Server 2005 приростає бізнес-аналітикою
АНАЛІЗ ДАНИХ
До початку нинішнього сторіччя ПО корпорації Microsoft на ринку бізнес-аналітики (Business Intelligence, BI) в основному було представлено клієнтськими офісними додатками, в першу чергу електронними таблицями Excel. Правда, в кінці 1990-х рр. компанія вирішила створити спеціалізований OLAP-клієнт - Data Analyzer, але далі першої версії він, здається, розвитку не отримав, і акцент потім був зроблений на тому ж Excel. В останні три-чотири роки число клієнтських BI-додатків поповнилося програмами MapPoint (геоінформаційна система) і Visio (візуалізація структурованих даних).
Однак з випуском на рубежі століть нової версії MS SQL Server 2000 компаній Microsoft приступила до формування на базі цієї СУБД власних серверних BI-технологій корпоративного рівня. BI-комплекс поповнювався поетапно, за чотири роки після випуску самої СУБД в його складі з'явилися також служби Analysis Services (служби OLAP для створення попередньо побудованих кубів для швидкого інтерактивного аналізу), Data Transformation Services (інструменти для витягання, перетворення і завантаження даних між операційними системами і системами бізнес-аналізу), Accelerator for BI (система швидкої розробки для побудови і розгортання аналітичних додатків) і Reporting Services (управління звітами).
У листопаді минулого року корпорація випустила MS SQL Server 2005, в якому комплекс BI-засобів називається одним з трьох ключових нововведень цієї системи (поряд з розвитком власне ядра СУБД і засобів розробки). Саме в цьому продукті серверна платформа бізнес-аналітики Microsoft прийняла в общем-то закінчений вигляд комплексного вирішення масштабу підприємства.
Інтегрована платформа керування даними
SQL Server 2005 являє собою високопродуктивну масштабовану багатофункціональну платформу, яка побудована навколо ядра, що забезпечує роботу реляційної бази даних, і включає велику кількість сервісів. В цілому система тісно інтегрована з усім комплексом ПО Microsoft (рис. 1), а сама СУБД і ряд її сервісів, в свою чергу, є ключовими компонентами, що забезпечують роботу багатьох продуктів Microsoft.
Мал. 1. Платформа управління даними SQL Server 2005
SQL Server 2005 містить наступні основні компоненти:
- реляційна база даних (Relation Database) - безпечне, надійне, масштабоване високодоступних ядро з поліпшеною продуктивністю, що дозволяє працювати як зі структурованими, так і з неструктурованими (XML) даними, а також забезпечує підтримку .NET CLR (створення збережених процедур, функцій і тригерів на керованому коді) і ADO;
- сервіси реплікації (Replication Services) - реплікація даних для розподілених і мобільних додатків обробки інформації, висока доступність систем, масштабований паралелізм з вторинними сховищами для звітних рішень підприємства та інтеграція з різнорідними системами, включаючи існуючі бази даних Oracle;
- сервіси нотифікацій (Notification Services) - розвинені можливості повідомлень для розробки і впровадження масштабованих додатків, здатних доставляти своєчасні персоналізовані оновлення інформації безлічі з'єднаних і мобільних пристроїв;
- сервіси інтеграції (Integration Services) - можливості вилучення, перетворення і завантаження інформації для сховищ даних і інтеграції даних в масштабі підприємства;
- аналітичні сервіси (Analysis Services) - аналітична обробка в реальному часі (OLAP) для швидкого і складного аналізу великих і змішаних наборів даних, при якій використовується багатовимірне зберігання кубів, і рішення задач Data Mining (витяг знань);
- сервіси звітів (Reporting Services) - вичерпне рішення для управління як традиційними паперовими, так і інтерактивними звітами, заснованими на Web-технологіях, а також для їх створення і доставки;
- інструменти управління - SQL Server включає засоби управління для налаштування баз даних і розвиненого управління ними, забезпечує тісну інтеграцію з такими інструментами, як Microsoft Operations Manager (MOM) і Microsoft Systems Management Server (SMS). Стандартні протоколи доступу до даних істотно зменшують час, необхідне для інтеграції SQL Server з існуючими системами. На додаток вбудована підтримка Web-служб для забезпечення взаємодії з іншими додатками і платформами;
- інструменти розробки - SQL Server пропонує інтегровані інструменти розробки для ядра бази даних, вилучення, трансформації й завантаження даних, добування інформації, OLAP і звітності, які тісно інтегровані з Microsoft Visual Studio для надання наскрізних можливостей розробки додатків. Кожна головна підсистема SQL Server поставляється зі своєю власною об'єктною моделлю і набором API для розширення системи даних в будь-якому напрямку, яке унікально для вашого бізнесу.
Засоби бізнес-аналітики
Комплекс засобів інтелектуальної обробки даних - Integration Services, Analysis Services OLAP, Analysis Services Data Mining і Reporting Services, що міститься в SQL Server 2005, - значно змінений і поліпшений в порівнянні з версією 2000. Крім того, в SQL Server 2005 додані два нових компонента: SQL Server Management Studio та SQL Server Business Intelligence Development Studio, які на ранніх етапах бета-тестування були відомі під назвами SQL Server Workbench і BI Workbench.
Основні завдання бізнесу, які вирішуються методами видобутку даних
Для вирішення BI-завдань в SQL Server 2000 використовувалося кілька автономних інструментів, що мали несхожі інтерфейси і не повністю відповідають сучасним стандартам розробки ПЗ. Тому в версії 2005 року вони замінені на два нові інструменти, побудованих на базі інтегрованого середовища Visual Studio 2005 IDE.
Пакету BI Development Studio (рис. 2) відводиться основна роль в створенні BI-рішень, він повністю реалізує функціональність Analysis Manager 2000, додаючи до неї можливості завантаження і перетворення інформації, управління звітами і вилучення знань. У його середовищі можна створювати і інші проекти Visual Studio (з використанням Visual C #, Visual Basic NET і т. Д.), Що дозволить розробникам створювати дійсно наскрізні програми.
Мал. 2. Управління аналітичними службами в середовищі SQL Server 2005 Business Intelligence Development Studio
Візуальний інструмент управління базами даних SQL Server Management Studio з'єднав функціональність Enterprise Manager, Query Analyzer, Analysis Manager і деяких засобів адміністрування, що були в версії 2000, додавши нові можливості Reporting Services, Notification Services, XML і SQL Server 2005 Mobile Edition. Підвищення продуктивності, масштабованості та доступності досягається за допомогою таких нових технологій, як Snapshot Isolation, Database Mirroring, Database Snapshots, Service Broker. Для зберігання конфіденційної інформації застосовуються засоби шифрування баз даних.
В общем-то все основні компоненти BI-платформи Microsoft в тому чи іншому вигляді з'явилися ще в складі SQL Server 2000. Хронологічно найостаннішим з них став набір служб керування звітами - це сталося на початку 2004 р (опис версії 2000 см. В PC Week / RE, N 7/2004, с. 35). Фактично вже тоді він створювався з прицілом на версію SQL Server 2005 і тому в новому варіанті в цілому зазнав найменші зміни, в основному стосуються більш високої інтеграції з іншими BI-службами, розширення можливостей користувачів і підвищення інтерактивності. Крім того, потрібно підкреслити, що Reporting Services мають більш високий рівень автономності в порівнянні з іншими компонентами СУБД: ці служби можуть працювати з даними з різних джерел, включаючи інтерфейси ODBC і OLE DB, і таким чином бути сумісними практично з будь-якої ІТ-архітектурою, а також бесшовно вбудовуватися в додатки. Саме тому MS SQL Server Reporting Services часто поширюється і застосовується як окремий продукт.
Власне аналітичні сервіси SQL Server 2005 представлені двома основними доповнюють один одного функціональними частинами - On-Line Analytical Processing (OLAP) і Data Mining. Основні нововведення OLAP-сервісів ми вже розглядали на прикладі бета-версії продукту (див. PC Week / RE, N 30/2004, с. 22). Тому тепер більш докладно розповімо тільки про двох інших BI-компонентах СУБД.
сервіси інтеграції
Integration Services хоча і є наступником DTS (Data Transformation Services) в SQL Server 2000, все ж цілком можуть вважатися нововведенням в SQL Server 2005. Integration Services були повністю перероблені в порівнянні з DTS, щоб стати реальною ETL-платформою підприємства (Extract, Transformation, and Loading - витяг, перетворення і завантаження даних).
Архітектура Integration Services поєднує в собі як орієнтований на операції механізм потоку завдань (task-flow), так і масштабований і продуктивний механізм потоку даних (data-flow). Таке поєднання потоків завдань і потоків даних дозволяє ефективно використовувати Integration Services в проектах з традиційними системами ETL і в проектах зі створення сховищ даних, а також в більш складних проектах, наприклад по впровадженню центрів даних.
Ядром Integration Services є конвеєр перетворення даних, що використовує буферну архітектуру, яка забезпечує високу продуктивність при маніпуляції наборами даних шляхом завантаження їх в пам'ять. Такий підхід дозволяє всі кроки перетворення даних в ETL-системах виробляти як одну операцію, т. Е. Без проміжних результатів. У цьому полягає істотна відмінність Integration Services від традиційних засобів ETL, які дуже часто створюють проміжні результати майже на кожному кроці процесу заповнення сховища або інтеграції даних.
У Integration Services всі типи даних (структуровані, неструктуровані, XML і т.д.) наводяться до табличному (т. Е. Що складається з стовпців і рядків) виду безпосередньо шляхом завантаження в буфери. При цьому операції, застосовні до табличного поданням інформації, можуть бути задіяні на будь-якому етапі конвеєра обробки даних.
В цілому така архітектура дозволяє використовувати Integration Services у багатьох проектах по інтеграції даних, починаючи від традиційних ETL-систем для сховищ даних і закінчуючи нетрадиційними технологіями інтеграції інформації, і при цьому забезпечувати можливість роботи не тільки з великими наборами даних, але і зі складними їх потоками . Служби інтеграції можуть витягувати (а також вивантажувати) дані з різних джерел, включаючи OLE DB, керовані джерела (ADO. NET), ODBC, плоскі файли, Excel і XML, за допомогою спеціального набору компонентів, які називаються адаптерами (adapters).
Крім цих основних перетворень для сховищ даних є підтримка таких розширених сховищ, як Slowly Changing Dimensions (SCD - рідко оновлювані розмірності). Майстер SCD допоможе користувачам визначити, які виміри є рідко оновлюваними, і на основі цієї інформації створить повністю готовий до використання потік даних з декількома перетвореннями, що реалізують завантаження повільно змінюються вимірів.
Однією з ключових особливостей Integration Services є їх здатність інтегрувати не тільки дані, але і методи їх обробки. Такий підхід дозволяє включити в нього кошти очищення інформації, засновані на методах нечіткої логіки (fuzzy logic). У поєднанні з технологією Data Mining в процесі передачі інформації можна виявити аномальні дані, а також автоматично виправити їх і замінити на кращі значення.
видобуток даних
Служби SQL Server 2005 Data Mining є технологію інтелектуальної обробки даних, яка допомагає створювати складні аналітичні моделі і інтегрувати їх в бізнес-процеси (див. Таблицю). Вони поставляються з найпопулярнішими алгоритмами видобутку даних, склад яких може бути розширений за рахунок вбудовування алгоритмів незалежних розробників.
Дерева прийняття рішень (Decision Trees) часто є початковою точкою дослідження даних. Цей алгоритм класифікації добре працює для прогнозування і дискретних, і безперервних атрибутів. Коли алгоритм будує модель, він враховує, як кожен вхідний атрибут у наборі даних впливає на результат прогнозованого атрибута.
Алгоритм Naive Bayes швидко будує моделі видобутку даних, які можуть використовуватися для класифікації та прогнозування. Він розраховує ймовірність, з якою кожне можливе стан вхідного атрибута приводить до кожного станом прогнозованого атрибута. Алгоритм підтримує тільки дискретні атрибути і вважає, що всі вхідні атрибути впливають на прогнозований атрибут незалежно один від одного.
Кластеризація (Clustering) використовує ітеративний процес для угруповання рядків з набору даних в кластери, що містять рядки з однаковими характеристиками. Метод застосовується для пошуку взаємозв'язків і виконання прогнозів.
Пошук асоціацій (Association) заснований на алгоритмі a priori і забезпечує ефективний метод знаходження кореляцій у великих наборах даних. Алгоритм, наприклад, дозволяє рухатися в циклі по транзакціях в базі даних для пошуку товарів, які з найбільшою ймовірністю з'являться разом з транзакціями одного покупця. Він в основному використовується для аналізу набору товарів (market basket analysis).
Послідовна кластеризація (Sequence Clustering) поєднує аналіз послідовності операцій з кластеризацией для дослідження даних і прогнозування. Така модель чутлива до послідовності виникнення подій. Алгоритм може застосовуватися для аналізу маршруту переміщення користувача по сторінках при аналізі трафіку Web-сайту, а також для визначення того, які сторінки сайту найбільше пов'язані з продажем будь-якого товару і які наступні сторінки сайту будуть відвідані (прогноз).
Тимчасові ряди (Time Series) створюють моделі, які можуть використовуватися для прогнозування однієї або декількох постійно змінюються змінних, наприклад ціни акції. Алгоритм прогнозування грунтується виключно на трендах, отриманих з навчальних даних при створенні моделі. Він використовує методику AutoRegression Trees, дуже простий в застосуванні і генерує моделі з високою точністю прогнозування.
Нейронна мережа (Neural Net), як і алгоритми дерев прийняття рішень і Naive Bayes, в основному використовується для дослідження даних, класифікації і прогнозування. Це методика штучного інтелекту, яка досліджує всі можливі взаємозв'язки між даними. Оскільки цей алгоритм досліджує дані ретельніше інших, він є найповільнішим з трьох алгоритмів класифікації.
Що чекає попереду
Використовуючи SQL Server 2005 в якості серверної BI-платформи, Microsoft має намір істотно підвищити і роль в цьому напрямку своїх офісних продуктів, на які покладається в основному завдання доставки необхідної бізнес-інформації до конкретних робочих місць. Саме ці функції будуть предметом розвитку нової версії MS Office 12, вона повинна з'явитися на ринку до кінця поточного року. Ключова ж роль в справі інтеграції клієнтських робочих місць з SQL Server 2005 відводиться Excel і SharePoint.
В Excel 12 будуть посилені засоби взаємодії між електронними таблицями і зовнішніми джерелами даних, а також поліпшені можливості детального аналізу вихідних даних: модернізовані засоби сортування та фільтрації інформації, включений розширений склад методів візуалізації даних, реалізовані більш широкі можливості узагальненого аналізу за допомогою засобів PivotTables і PivotCharts . Найбільш цікавим нововведенням має стати створення серверного варіанту функціоналу Excel під назвою Excel Services, доступ до якого можна отримати через Web-браузер.
На продукти і технології SharePoint покладаються функції реалізації порталу для доступу до всіх BI-даними, в тому числі службам SQL Server Reporting Services і Excel Services. Нове покоління SharePoint буде будуватися на більш широкому застосуванні персональної настройки призначеного для користувача інтерфейсу за допомогою технології DashBoards (приладова панель управління) без необхідності написання коду.
Але Office 12 - це ще тільки плани. А ось більш конкретним кроком в напрямку розвитку бізнес-засобів є випуск минулої осені нового серверного рішення в складі офісного сімейства - Microsoft Office Business Scorecard Manager (MOBSM) 2005 (рис. 3). Цей продукт дозволяє особам, які приймають рішення, краще оцінювати ефективність роботи своїх інформаційних та ділових систем з точки зору загального бізнесу компанії, використовуючи методи таблиці кадрів (scorecards, отримання послідовних "знімків" стану системи) і аналізу ключових параметрів продуктивності (KPI, key performance indicators ).
Мал. 3. Business Scorecard Manager 2005 поповнив арсенал засобів бізнес-аналізу Microsoft
Версія для друку
Тільки зареєстровані користувачі можуть залишати коментарі.