Системи моніторингу та аналізу ЗМІ

АНАЛІТИКА

У сучасну епоху великим державним і комерційним структурам стає все важче стежити за динамічно змінювався світ навколо них інформаційним полем, яке містить масу новинних і оглядових матеріалів. Регулярне ознайомлення з публікаціями ЗМІ для будь-якої серйозної діяльності необхідно, але не завжди достатньо. Великі масиви інформації повинні піддаватися якісному аналізу. На основі фактів і припущень, почерпнутих з відкритих джерел, можна не тільки аналізувати стан справ у своїй галузі, а й будувати прогнози розвитку ситуації, що життєво важливо для прийняття вірних рішень.

Вибачте за тимчасові незручності нам потрібна?

Важливу роль в сучасному бізнесі грає конкурентна розвідка, в основі якої, принаймні на Заході, лежить маркетингова інформація, що отримується з преси. За твердженням фахівців, близько 80% інформації, необхідної для підтримки процесу стратегічного управління може видобуватися з відкритих джерел, таких, як Інтернет, традиційні ЗМІ, інформаційно-рекламні матеріали компаній і т. Д.

Приклад 1. Американська інвестиційна компанія на рубежі 80-х і 90-х років минулого століття розробляла план свого стратегічного розвитку. Працюючи з матеріалами ЗМІ останніх років, вона виявляла найбільш перспективні напрямки сучасного бізнесу і науки з тим, щоб прибутково вкласти гроші. Прес-аналітиків цікавила динаміка публікацій з заздалегідь певних тем. З'ясувалося, що принаймні дві тенденції заслуговують на увагу. По-перше, тоді значно зріс інтерес преси до нового виду комп'ютерних мереж - Інтернету. По-друге, на гребені піку своєї популярності з наукової преси раптом практично зникли публікації, що стосуються високотемпературної надпровідності. Перша свідчила про те, що Інтернет скоро стане масовим явищем і в його розвиток вигідно вкладати гроші. Друга наводила на думку про те, що дослідження вчених по високотемпературної надпровідності засекретили, а це також свідчить про її виключній перспективності. І в тому і в іншому випадку аналітики мали рацію.

Завдання, описана в прикладі 1, вирішувалася нешвидко, не однією людиною і практично без залучення комп'ютерних технологій. Проблема обробки інформації такого роду полягає у відсутності у неї будь-якої прийнятної структури та в її величезних обсягах. Проте, маючи зручні інструменти, її цілком можна вирішити. Завдання з прикладу 2 вирішувалася швидко, однією людиною за допомогою простих програм моніторингу ЗМІ.

Приклад 2. Якась російська фірма запланувала поглинути одне з цікавих для її бізнесу підприємств. Вирішили вийти на акціонерів цього підприємства і домовитися з кожним про продаж їх акцій. Але списку акціонерів у фірми не було. Тоді аналітик абсолютно законним шляхом з відкритою регіональної та загальноросійської преси зібрав інформацію про основних акціонерів і тим самим допоміг своєму керівництву оперативно і результативно вирішити задачу поглинання. (Приклад наводиться Сергієм Чістопрудом в журналі "Профі".) За оцінками зарубіжної преси, 9 з 10 великих американських компаній витрачають щорічно в середньому 1 млн. Дол. На моніторинг діяльності конкурентів. Вкладені кошти окупляться за рахунок правильних рішень, прийнятих на основі відібраної і проаналізованої інформації.

Інструменти моніторингу ЗМІ

Під "зручними інструментами для роботи з інформацією" розуміються комп'ютерні програми, які допомагають збирати і сортувати матеріали ЗМІ. Таких програм на ринку близько сотні, але всі вони займаються, як правило, організацією зберігання середніх або великих обсягів інформації, мають простими пошуковими можливостями і / або тематичним рубрикатором, не пропонуючи жодного механізму якісного аналізу. І це не випадково, бо якісний аналіз тексту передбачає оцінку таких нюансів, як емоції, загрози, характер відносин між об'єктами ... У цих сферах людський мозок, здатний накопичувати досвід і володіє інтуїцією, краще. Хоча швидкість оцінки при цьому і невелика, ми виграємо в якості.

При вирішенні інтелектуальних завдань комп'ютерна програма покликана максимально полегшити працю людини: по-перше, забезпечити його обмеженою вибіркою документів, відсіявши по встановленим фільтрам зайве, по-друге, надати зручний автоматизоване робоче місце (АРМ) для проведення оцінок. Деякі з програм вміють виробляти "інтелектуальний" пошук по масиву даних, відбираючи документи по набору ключових слів, частоті їх вживання і відносного розташуванню, і роблять це з урахуванням морфології. Ці програми вже здатні на простий контент-аналіз, т. Е. На семантичну статистичну обробку.

Клас таких аналітичних (за термінологією їх авторів, хоча не всі вони в повній мірі відповідають цій назві) програм російських розробників має хороші шанси саме в нашій країні. Там, де доводиться мати справу з російськими текстами і документами, у вітчизняних комп'ютерних фірм немає гідних конкурентів. У їх числі виробники правових баз даних і систем розпізнавання текстів, пошукових "движків" і автоматичних класифікаторів, словників і перекладачів на іноземні мови.

А що ж може запропонувати вітчизняна комп'ютерна думка в області моніторингу і аналізу ЗМІ? Збором інформації займаються багато, аналізом - одиниці. Моніторингові компанії лише перерахуємо, а ось про тих, хто пропонує продукти для виявлення нових знань в сховищах даних - (knowledge discovery in databases, KDD), розповімо докладніше.

Чи не менше десятка баз даних, орієнтованих на збір і зберігання матеріалів ЗМІ, можна виявити в Рунеті. Найбільш відомі з них: "Артефакт" компанії "Інтегрум-Техно" (www.integrum.ru); система "Парк", створена "Парк.Ру" (is.park.ru); електронний кіоск Russian Story (www.russianstory.ru); Національна електронна бібліотека від НСН (nel.nns.ru); "Медіалогія" (www.medialogia.ru); УІС РОСІЯ (www.cir.ru); каталог ЗМІ від "СМІ.ру" (www.smi.ru). Робота з усіма перерахованими джерелами, крім "СМІ.ру", платна, і всі їхні власники пропонують не тільки можливість ознайомитися з матеріалами ЗМІ, а й деякі моніторингові послуги. А ось компанія WPS (www.wps.ru) свій електронний архів газет, журналів, транскриптов теле- і радіопередач в Інтернеті не тримає, використовуючи Мережа як рекламний майданчик і інструмент для просування власних моніторингових продуктів.

Аналітичні програми для роботи з текстами

Аналітичні системи розрізняються перш за все по виду оброблюваних даних - повнотекстових або фактографічних. Методи обробки фактографічних даних відомі досить давно. Серед них останнім часом особливою популярністю користуються OLAP-аналіз і Data Mining (виявлення послідовностей, асоціацій, дерева рішень і т. Д.). Ці методи в тій чи іншій мірі зараз підтримуються всіма сучасними системами. Частково вони реалізовані в MS OLAP Services і в продуктах компанії Business Objects. Найбільш повно - в системі PolyAnalyst компанії Megaputer.

Методи аналізу текстів поширені набагато менше. Це в основному тематичне рубріцірованіе вхідного потоку документів і підрахунок статистики зустрічаються слів і словосполучень. Для автоматизації процедури рубріцірованія застосовують так звані авторубрікатори. Найбільш відомими виробниками цих систем і окремих компонентів є канадська фірма Hummingbird (продукт Hummingbird Knowledge Management), а також російські компанії Media Lingva ( "Класифікатор"), Megaputer (TextAnalyst) і "Гарант-Парк-Интернет" (її продукт реалізований на основі технологій американської фірми InterMedia). Як правило, в їх рішеннях забезпечується і підрахунок статистики зустрічаються слів.

Найчастіше для більш швидкого і якісного аналізу збір статистики проводять з використанням OLAP-кубів. З їх допомогою аналітик в результаті стандартних операцій може швидко отримати відповіді на свої питання. Ось приклад найпростішого запиту: "Хто з політиків частіше за інших згадувався в провідних виданнях зазначеного регіону за вибраний відрізок часу?". Зрозуміло, реальні запити бувають більш складними.

Для успішного застосування такого роду методів вхідний потік завжди піддається попередній обробці, що включає перегляд оператором, автоматичний контроль орфографії, використання фільтра стоп-слів, нормалізацію регістра і ін. Для подальшого контекстного пошуку проводиться повнотекстове індексування вмісту документів.

Короткий огляд програмних продуктів, представлених на російському ринку

"Астарта" (www.cognitive.ru/products/astarta.htm) Компанія Cognitive Technologies пропонує інструмент автоматизації аналітичних досліджень "Астарта". Він являє собою експертний рубрикатор, призначений для збору, зберігання і семантичного аналізу текстових матеріалів. Під аналізом тут розуміється автоматичне рубріцірованіе і угруповання, а також інтелектуальна вибірка інформації по заданій темі. Технологічною основою для "Астарти" є її "старший брат", комплекс засобів для створення електронних архівів "Євфрат". Програма вже має практичні впровадження, зокрема на "Норильському нікелі", де з її допомогою аналізується база патентної інформації, яка містить понад 100 тис. Документів. В "Астарті" є підсистема, яка вміє обробляти матеріали з ЗМІ в потоковому режимі. З її допомогою аналітики "Норильського нікелю" роблять, наприклад, висновки про зміни інтересів провідних фірм в обраних для спостереження областях. В кінці 2002 р в пресі повідомлялося про початок впровадження "Астарти" в ФАПСИ.

"Галактика-Zoom" (http://zoom.galaktika.ru) Програмний комплекс "Галактика-Zoom", призначений для аналітичної обробки текстових неструктурованих документів, пропонує корпорація "Галактика". Програма може збирати інформацію на Інтернет-сайтах або брати документи з підключаються баз даних. Автори обіцяють користувачеві інформаційну підтримку прийнятих управлінських рішень завдяки швидкому пошуку та контент-аналізу відібраної інформації. При випробуванні системи у мене склалося повне відчуття роботи з тематичним рубрикатором, здатним проводити уточнення "на льоту". Наприклад, в результаті пошуку по слову "горілка" мені був виданий список документів з цим словом і список тем для уточнення запиту (спирт, фальсифікувати, пиво, Петро ...). Схоже, що список тем формується не випадковим чином, а з урахуванням частоти вживання в текстах з "горілкою". Якщо це так, то ми маємо справу з рубрикатором, що створює структуру, в якій "горілка" - головна рубрика, а "спирт", "фальсифікувати", "пиво" - підрубрики. Такий підхід дозволяє вирішувати деякі типові маркетингові задачі або складати інформаційний портрет об'єкта, що представляє інтерес.

Такий підхід дозволяє вирішувати деякі типові маркетингові задачі або складати інформаційний портрет об'єкта, що представляє інтерес

"Медіалогія" (www.medialogia.ru) Інформаційно-аналітична система "Медіалогія" однойменної компанії розроблена групою російських вчених, аналітиків, а також фахівців в області інформаційних технологій. Прототипом "Медіалогії" є система IBS-Media, більш відома як модуль ситуаційних центрів, створюваних і просуваються відділенням систем імітаційного моделювання компанії IBS. Розробники сповідують змішаний підхід до оцінки статей та інших об'єктів. Це означає, що частина найменш інтелектуальної чорнової роботи виконує програма. Більш тонкі оцінки, що відображають характер згадки об'єктів в статті і то, в яких стосунках вони між собою знаходяться, бере на себе чоловік.

Більш тонкі оцінки, що відображають характер згадки об'єктів в статті і то, в яких стосунках вони між собою знаходяться, бере на себе чоловік

На поточний момент система здійснює моніторинг більш ніж 24 000 об'єктів, фіксуючи статистичну та аналітичну інформацію з тисячі джерел (центральна і регіональна паперова преса, інформаційні агентства, транскрипти і оригінали теле-, радіопередач, Інтернет-джерела). На обробці повідомлень задіяно кілька сотень кваліфікованих операторів, безупинно які переглядають до десяти тисяч повідомлень на добу. Система дозволяє класифікувати публікації за значимістю, визначати ставлення ЗМІ до об'єктів, аналізувати характеристики PR-кампаній, встановлювати відображені в ЗМІ зв'язку між об'єктами і т. Д.

Технології Hummingbird (www.hbsltd.biz/products_km.asp) В системі, яка створювалася на замовлення російської компанії HBS для аналізу регіональних ЗМІ, була реалізована технологія обробки електронних текстів з використанням пошукового сервера Hummingbird SearchServer (раніше Fulcrum SearchServer) компанії Hummingbird. Надходить інформація автоматично рубріціруется, а потім піддається OLAP-аналізу. В пакетах Hummingbird SearchServer і Hummingbird KnowledgeServer є кошти, за допомогою яких користувачі можуть самі створювати нові або настроювати наявні дерева рубрик.

Для підвищення якості авторубріцірованія в системі реалізовані розвинені можливості предобработки документів, що надходять. Зокрема, проводиться контроль орфографії, використовується фільтр стоп-слів, здійснюється нормалізація регістра і ін. При виконанні пошукових запитів можна підключати тезаурус (словник синонімів). Вибірка документів проводиться за допомогою як контекстного пошуку, так і OLAP-аналізу.

TextAnalyst (www.analyst.ru) Програма TextAnalyst від НПІЦ "Мікросистема" є інструментом для аналізу змісту текстів, смислового пошуку інформації, формування електронних архівів. Вона також здатна будувати семантичні дерева, але не за об'єктами, а за окремими статтями, в результаті чого створюється смисловий портрет кожного тексту на основі кількості згадок і близькості виникнення різних значущих, на думку програми, слів. У TextAnalyst є також модуль, що генерує реферат текстового документа. Програма не призначена для потокової обробки матеріалів ЗМІ, але може брати з диска файли в форматі txt і rtf і після аналізу тексту зберігати результати в окремому файлі.

Програма не призначена для потокової обробки матеріалів ЗМІ, але може брати з диска файли в форматі txt і rtf і після аналізу тексту зберігати результати в окремому файлі

Semantic Explorer (www.neurok.ru/products) Semantic Explorer - це клієнт-серверний програмний комплекс компанії "НейрОК". Клієнтський інтерфейс Semantic Explorer орієнтований на роботу з семантикою документів і пошук по смисловим і тематичним асоціаціям. На відміну від TextAnalyst семантична карта будується не за окремими документами, а по їх базі. На такій карті (мапі Кохонена) кожен документ має своє унікальне становище. Причому близькі за змістом документи розташовуються поруч.

Причому близькі за змістом документи розташовуються поруч

Велику увагу компанія приділяє технологіям Інтернет-агентів, які покликані здійснювати в Інтернеті "осмислений" пошук. Якщо зв'язати таких агентів в єдину мережу, то можна створити розподілене індексне поле обробленої ними спільно інформації, істотно полегшує пошук.

TopSOM (http://research.metric.ru) Компанія "Гарант-Парк-Интернет" вже не перший рік веде дослідження в області інтелектуального пошуку і тематичного аналізу текстових документів. Дослідники пропонують лінійку продуктів, одним з яких є TopSOM, що базується на технології нейронної мережі Кохонена.

Всі безліч документів розбивається на невелику кількість класів схожих за змістом документів. Ці класи відображаються на площину у такий спосіб, що близькі класи відповідають близьким областям площині. Завдання нелінійного відображення багатомірного семантичного простору в простір малої розмірності вирішується нейромережевим алгоритмом.

Таке відображення дозволяє наочно уявити тематичний склад великий (десятки тисяч текстів) колекції документів в цілому і допомогти користувачеві зорієнтуватися в океані інформації.

Convera RetrievalWare (www.convera.com/press/webinar/comm.html) Інформаційно-пошукова система Convera RetrievalWare - продукт американської компанії Convera Technologies, але ми все ж включили її в огляд вітчизняного ринку, так як російська компанія "Звістка-МетаТехнологія" не тільки локалізувала інтерфейс і документацію, а й адаптувала пошуковий механізм системи до роботи з російськомовними документами. Для цього була складена семантична мережа словника російської мови, яка містить близько 100 тис. Слів і ідіоматичних виразів і більше 350 тис. Зв'язків між ними, підключена бібліотека морфологічного аналізу, внесені зміни в ядро ​​оригінальної системи. А компанія "Одеон", авторизована для роботи на ринках СНД, в 2002 р завершила істотну переробку механізму пошуку і семантико-морфологічного розбору. Зокрема, новий механізм дозволяє при пошуку та аналізі тексту створювати семантичну мережу не тільки з синонімів, але і антонімів, морфем, варіантів вимови, сленгу, а також виділяти суті і передавати результати в СУБД. Новий словник містить понад 1,2 млн. Взаємозалежних словоформ.

RetrievalWare є промислове засіб повнотекстового і атрибутивного пошуку не тільки в текстових архівах, а й в масивах графічної і відеоінформації. Крім того, новий модуль перетворення мови в текст дозволяє в реальному часі індексувати вхідний аудиопоток для подальшого аналізу і пошуку.

IntellSoft Vision (www.intellsoft.ru/vision) Компанія IntellSoft пропонує керівникам верхнього рівня програму IntellSoft Vision, що допомагає їм у виборі об'єктів, що становлять інтерес, і в реалізації бізнес-стратегій. Програма забезпечує:

- ситуаційно-аналітичний моніторинг кон'юнктури;

- інтелектуальний аналіз даних;

- інтерактивний пошук рішень на базі моделювання;

- маневрування ресурсами; оцінку тенденцій матеріалів ЗМІ;

- інтеграцію з зовнішніми інформаційними ресурсами.

Рішення, створене для Міністерства культури РФ за допомогою інструментарію IntellSoft Vision, є надбудовою над індустріальними OLAP-сховищами, консолідуючими інформацію, що надходить від відомчих структур і з численних незалежних зовнішніх джерел.

Проект ВААЛ (www.vaal.ru) В рамках проекту ВААЛ створені дві системи контент-аналізу: ВААЛ-2000 для психолінгвістичного дослідження російськомовних текстів і Vaal Toolbox для аналогічних досліджень англомовних джерел інформації. ВААЛ-2000 дозволяє скористатися встановленими аналітичними моделями або створити власні. У його розпорядженні, наприклад, методика психоаналізу, критерії якого оцінюють наявність в тексті слів, що відносяться до сексуальної символіки (по З. Фрейду), архетипів (за К. Юнгом) і вираженню агресивності. А емоційно-лексичний аналіз дозволяє виявити емоційну насиченість прямої мови по 15 найбільш значущим для російської культури критеріям.

Ця програма застосовувалася в дослідженні, покликаному відповісти на питання: "У чому причина того, що СРСР зник з політичної карти світу?". Аналізу були піддані 1000 віршів 200 російських поетів XX століття. Виявлені динамічні залежності аффіляціі (потреби в соціальній підтримці) і фрустрації (стану пригніченості і тривоги, що виникає у людини в результаті краху надій) показують, що мінімум аффіляціі і пік фрустрації припадають якраз на початок 90-х років минулого століття.

Висновки і перспективи

Багато хто з перерахованих продуктів забезпечені власними або вбудованими авторубрікаторамі і аннотаторамі, а це означає, що зазначені інструменти поступово стають стандартними для інформаційно-аналітичних систем. Нагальною потребою для такого класу програм є вміння працювати з тезаурусом (словником синонімів) і враховувати морфологію мови: без цих функцій при пошуку легко пропустити потрібні документи. Оскільки результати досліджень найчастіше передаються високому керівництву, що не схильному сидіти за комп'ютером, не слід забувати і про зручні засоби генерації паперової звітності.

Бажаючи залишатися в руслі основних тенденцій розвитку ІТ-індустрії, багато розробників переводять свої клієнт-серверні додатки на Інтернет-платформи. Всі перераховані в огляді продукти, крім "Астарти" і TextAnalyst, мають Web-оболонку і використовують для передачі даних TCP / IP. Дуже бажаним для замовника властивістю складних систем є їх модульність, що дозволяє легко будувати необхідні (нерідко дешевші) конфігурації.

І останнє побажання розробникам аналітичних систем. Довіряючи в рамках проведення контент-аналізу комп'ютера кількісні оцінки, не варто забувати надавати людині можливість ручної якісної оцінки досліджуваних текстів, що допомагає фіксувати і структурувати новий шар знань для подальшого його аналізу.

Але справжній прорив в обробці матеріалів ЗМІ буде досягнуто тоді, коли самі автори стануть супроводжувати текст деякої інформаційної структурою, яка описує зміст статті і "знання", в ній викладені, іншими словами, коли запанує підхід, заснований на поділі даних, що характеризують зміст, уявлення і смислове значення. Адептом цього підходу є один із засновників сучасного Інтернету Тім Бернерс-Лі. Він пропонує об'єднати документи подібного роду в єдину мережу знань, яка буде називатися Semantic Web. Розробляються і мови представлення знань - XML, RDF, OIL, DAMP і ін. Але обговорення цієї теми виходить за рамки даної статті.

Версія для друку

Вибачте за тимчасові незручності нам потрібна?
А що ж може запропонувати вітчизняна комп'ютерна думка в області моніторингу і аналізу ЗМІ?
Ось приклад найпростішого запиту: "Хто з політиків частіше за інших згадувався в провідних виданнях зазначеного регіону за вибраний відрізок часу?
Ця програма застосовувалася в дослідженні, покликаному відповісти на питання: "У чому причина того, що СРСР зник з політичної карти світу?