Сравнение текстовых, документальных и реляционных
систем управления базами данных
Клиффорд Рейд
Согласно данным всемирно известной фирмы по исследованию марке-
тинга DataQuest Inc., ежегодно в организациях издается более 2,7
биллиона документов. Подсчитано также, что 70% того, что мы сегодня
читаем, готовится электронным способом и хранится где-то на компь-
ютере. Главная проблема, стоящая перед нами, заключается в том, как
управлять таким объемом информации. Существует острая необходимость
в средствах управления, доступа и распространения текстовой и графи-
ческой информации, начиная с данных ASCII в свободной форме и кончая
сканируемыми документами, хранящимися на оптических устройствах. В
данной статье рассматриваются современные типы интегрированных текс-
то-графических баз данных и вопросы развития технологии, касающиеся
систем управления большими массивами документов, содержащих смешан-
ные типы данных.
Сравнение реляционных, текстовых и документальных систем
управления
Начиная с первых применений в сфере бизнеса, для управления ба-
зами данных с ориентированными на запись транзакциями использовались
компьютеры. В настоящее время реляционные СУБД (RDBMS) являются но-
вым стандартным средством хранения и поиска ориентированных на за-
пись данных (данные структурированы по строкам и столбцам). Системы
управления текстовой информацией (TIMS), с другой стороны, осуществ-
ляют хранение и поиск неструктурированных данных (текст ASCII в сво-
бодной форме). Третий тип продукта - документальные системы управле-
ния (DMS) - ориентированы больше на обработку растровых изображений
документов, чем символьной (ASCII) информации, используя обычно тех-
нологии хранения данных на оптических носителях.
Границы между этими системами начинают исчезать. Причина этого
заключается в переопределении понятия "документ". Прежде считалось,
что хранящийся в компьютере документ должен состоять только из кодов
ASCII. В соответствии с новым определением документ состоит из одно-
родно интегрированных текстовых, графических и документальных струк-
тур.
На рис. 1 изображен спектр типов данных, входящих в документ.
Слева в диаграмме представлены неинтегрированные текстовые базы дан-
ных и неинтегрированные графические базы данных. В настоящее время
эти типы баз данных обрабатываются посредством TIMS и DMS. Крайний
правый столбец диаграммы содержит структурированные (представленные
в виде строк и колонок) базы данных, управляемые RDBMS. В центре ди-
аграммы изображены два варианта интегрированных тексто-графических
баз данных. Следующее поколение систем управления большими объемами
документов будет ориентирована на эти две модели интегрированных
тексто-графических баз данных.
Неструктурированные Структурированные
<===================================================================>
Свободный текст¦ Слабо связанные ¦ Тесно связанные ¦ RDBMS
---------------+-----------------+------------------+----------------
ASCII ¦ASCII&изображения¦ASCII, изображения¦ Записи
Без структуры ¦Отдельная база ¦и структура ¦ Транзакции
Текстовая ин- ¦данных "ссылок" ¦Ссылки, имеющиеся ¦ Операции соеди-
формация ¦ ¦в документах ¦ нения
Управление ¦ ¦ ¦ В лучшем случае,
¦ ¦ ¦ картотека
---------------+-----------------+------------------+----------------
Рис. 1. Спектр типов данных, входящих в документы
Некоторые пользователи RDBMS пытались обрабатывать неструктури-
рованные текстовые базы данных с помощью RDBMS. Модель RDBMS, ориен-
тированная на среду управления транзакцией, с неструктурированным
текстом работает плохо. При использовании RDBMS в качестве средства
обработки изображений и текста эта система может служить только сло-
варем для хранения имен файлов и кратким перечнем ключевых слов, от-
ражающих содержание документов. Впоследствии документы могут быть
найдены по именам файлов или ключевым словам. В противоположность
этому, TIMS обладает большей способностью динамически "читать" любой
документ и искать документ по его контексту.
Идеалом, к которому стремится промышленность, является возмож-
ность управления как неструктурированными, так и структурированными
данными в рамках единой архитектуры. Это произойдет, когда современ-
ные неинтегрированные архитектуры будут заменены интегрированными
системами, способными обрабатывать графическую, текстовую и структу-
рированную информацию.
________
¦ ¦
__________________¦ ¦_________________
Книга ¦ _________ ¦
__ ¦ /________/ ¦
¦\/¦ ¦ ¦ ¦ ¦
¦ ¦_¦ ¦___¦ Оптическое распознавание ¦
¦ ¦ ¦ ¦ ¦ символов ¦
\/ ¦__¦ ¦ ¦
¦ ¦
Сканнер ¦ Изображения \ / Границы страницы
¦ -------¬ --------¬ //
¦ ¦ ¦ <------------- ¦ ¦ / /
¦ -->¦ 11 ¦ ¦ ¦ / /
¦ ¦------¦ ¦-------¦ / /
¦ ¦ ¦ <------------- ¦ ¦ / /
¦ -->¦ 12 ¦ ¦ ¦ / /
¦ ¦------¦ ¦-------¦ /
¦ ¦ ¦ <-------------- ¦ ¦ /
¦ -->¦ 13 ¦ ¦ ¦ /
¦ ¦------¦ ¦-------¦ /
¦ ¦ ¦ <-------------- ¦ ¦ /
¦ -->¦ 14 ¦ ¦ ¦ /
¦ ¦------¦ ¦-------¦
¦ ¦ ¦ <-------------- ¦ ¦
¦ -->¦ 15 ¦ ¦ ¦
L------- L--------
Изображения Символы
страниц документов
Слабо связанные данные
Взгляд пользователя Физическое представление
---------------¬ ---------¬ Изображение
¦ ----¬ ¦ ¦ ¦ ----¬
¦ ¦ ¦ ¦ ¦ -----> ¦ ¦
¦ L---- ¦ ¦ ¦ L----
¦ ¦ ¦ ¦
¦ ¦ ¦ ¦ Изображение
¦ ----¬ ¦ ¦ ¦ ----¬
¦ ¦ ¦ ¦ ¦ -----------> ¦ ¦
¦ L---- ¦ ¦ ¦ L----
¦ ¦ / ----------- ¦ ¦
¦ ¦ \ ----------- ¦ ¦ Изображение
¦ ----¬ ¦ ¦ ¦ ----¬
¦ ¦ ¦ ¦ ¦ ------> ¦ ¦
¦ L---- ¦ ¦ ¦ L----
¦ ¦ ¦ ¦
¦ ¦ ¦ ¦ Изображение
¦ ----¬ ¦ ¦ ¦ ----¬
¦ ¦ ¦ ¦ ¦ -----------> ¦ ¦
¦ L---- ¦ ¦ ¦ L----
¦ ¦ ¦ ¦
L--------------- L---------
Структурированный документ Текст и ссылки к изображениям
Тесно связанные данные
Рис. 2. Системы управления данными со слабой и тесной связью
Технические соображения по поводу интеграции текста и
изображений
Существует два типа интегрированных тексто-графических баз дан-
ных: слабо интегрированные БД, в которых текст, изображения и ссылки
между ними хранятся как отдельные единицы; и сильно интегрированные
базы данных, в которых смешанные типы данных хранятся вместе как од-
но целое.
Слабо интегрированные тексто-графические базы данных
Базовая архитектура слабо интегрированной тексто-графической
системы базы данных состоит из массива простых текстовых документов,
хранящихся в файлах, массива изображений, хранящихся в других фай-
лах, и массива ссылок, связывающих изображения с текстом (см. рис.
2). Ссылки обычно хранятся в отдельном файле, хотя они могут также
храниться непосредственно в текстах документов. Первоначальный дос-
туп к документам осуществляется по их текстам. Как только пользова-
тель нашел и отобразил на экране текст документа, он или она может
также вывести на экран изображения, связанные с текстом. Эти изобра-
жения могут содержать либо дополнительную информацию, касающуюся до-
кумента (например, рисунки или таблицы), либо графическое представ-
ление самого текста.
Отсюда вытекают следующие технические особенности, относящиеся
к этой разновидности тексто-графических баз данных:
- создание ссылок от текста к изображениям;
- вывод на экран синхронизированного представления символа и
изображения;
- подсветка слов в тексте;
- управление форматами изображений.
Формирование ссылок от документов к изображениям
Типичным приложением для слабо интегрированной тексто-графичес-
кой базы данных является сканирование множества бумажных документов
с целью создания графических представлений документов, а также ис-
пользование системы оптического распознавания символов - (optical
character recognition system - OCR) для интеграции представлений до-
кумента в виде символов ASCII.
Такие коммерческие системы, как Filenet и Viewstar обрабатывают
текст и изображения посредством графических сканнеров и систем OCR.
Обычно документы сканируются по одной странице за единицу вре-
мени и результирующие изображения хранятся в базе данных в одностра-
ничных файлах. Сгенерированные посредством OCR символьные представ-
ления документов также формируются в виде одностраничных файлов, а
затем добавляются друг к другу для восстановления непрерывного доку-
мента. При соединении одностраничных файлов для получения одного
непрерывного файла необходима синхронизация между символьным и гра-
фическим образом документа, которую надо либо поддерживать, либо
позднее осуществить вручную. Ручная синхронизация может оказаться
неэкономной с точки зрения временных затрат.
Вывод на экран синхронизированного
символьного и графического
представления
Привлекательной особенностью просмотра на экране интегрирован-
ной тексто-графической базы данных является способность пользователя
позиционировать курсор в символьном представлении документа и путем
нажатия одной клавиши "вывести на поверхность" изображение текста
ниже курсора. В грубом приближении это может быть достигнуто путем
присоединения обычных синхронизирующих ссылок от документа к изобра-
жениям и интерполяции в файл изображений для вычисления эффективной
позиции курсора. Этот метод работает не всегда, например, с изобра-
жениями документов, состоящих из двух колонок.
Подсвечивание слов
Если текстовый документ найден с помощью документальной поиско-
вой системы, эта система может осуществить подсветку слов в символь-
ном представлении документа, указывая, почему этот документ был най-
ден. Однако подсветка "слова" (двоичный код) в графическом представ-
лении документа требует либо большого объема внешней памяти, либо
вычислений.
Управление множественными графическими форматами
Существует множество "стандартных" графических форматов, таких,
как TIFF, PC-X, Sun Raster, PDA и CCITT. Любая система управления
текстом и изображением должна быть способной обрабатывать все разно-
образие имеющихся в настоящее время графических форматов так же, как
и выводить их на имеющиеся разнообразные устройства вывода.
Сильно интегрированные составные документы
Базовая архитектура составного документа включает поддержку
двух дополнительных типов данных помимо плоских ASCII - документов:
смешанные типы данных (текст, изображения и потенциальные типы, нап-
ример, рабочие листы, аудио и т.п.) и структуры внутри документов
(заглавие, заголовки, приложения и т.д.). Вся эта информация хранит-
ся вместе как одно целое. Некоторые архитектуры составных документов
осуществляют хранение составных документов в едином файле, а другие
обеспечивают функциональный интерфейс, который делает документ кажу-
щимся приложением, хранящимся в одном файле, в то время, как физи-
чески разбивает документ на множество файлов.
Основные технические особенности, касающиеся сильно интегриро-
ванных тексто-графических баз данных, включают:
- стандартные форматы;
- анализ составных документов;
- вывод на экран составных документов.
Стандартные форматы
Количество архитектур составных документов (compound document
architecture - CDA) быстро растет. CDA фирмы Digital Equipment
Corporation включает множество DDIF спецификаций документов, архи-
тектуру конвертора CDA и пакет разработчика CDA. Архитектура конвер-
тора обеспечивает способ преобразования входного файла в одном фор-
мате в выходной файл в другом формате. Пакет разработчика - это на-
бор подпрограмм, которые активизируют работу конвертора CDA и прог-
раммных приложений, соответствующих CDA. CDA становится стандартом
для всего ряда программных продуктов фирмы DEC, предоставляя единый
формат для разработчиков приложений.
Архитектура составного документа фирмы IBM называется MO:DCA
(mixed object document content architecture - смешанный объект: ар-
хитектура содержания документа); она обеспечивает обмен документами
между различными системами SAA.
Фирма Apple Computer предлагает архитектуру составного докумен-
та под названием RichText. ISO рекламирует SGML (Standart
generalized markup language - стандартный обобщенный язык с расши-
ренными возможностями), еще один стандарт, с которым придется конку-
рировать.
Будущий прогресс будет связан с сильно интегрированными базами
данных, включающими разнообразные типы составных документов и прило-
жения, обрабатывающие множество форматов составных документов. Сле-
дующий этап развития технологии систем управления текстовой информа-
цией быстро приближается; он обеспечит обработку сильно интегриро-
ванного текста, изображений и структур для разнообразных архитектур
составных документов.
Анализ составных документов
Такие приложения, как документальные поисковые системы, которым
необходимо распознавать входящие в документ подструктуры (напр.,
слова, предложения и параграфы), должны уметь анализировать в дета-
лях формат составного документа. Если всю эту информацию действи-
тельно можно получить для каждого документа, в распоряжение разра-
ботчиков приложений будут предоставлены полное представление доку-
мента и соответствующая обработка запросов для извлечения этой ин-
формации.
Отображение на экране составных документов
Некоторые архитектуры составных документов стандартизованы в
соответствии с форматами отображения на экран, такими, как Display
Postscript Adobe Systems. Преобразование документов для отображения
в аппаратных средах, не поддерживающих собственный формат вывода для
этих документов, является сложной вычислительной задачей, сопряжен-
ной с проблемами реализации.
Объединение структурированных и неструктурированных данных
Вообще говоря, технические требования к слабо интегрированным
тексто-графическим базам данных приводят к формированию ссылок между
текстовыми и графическими компонентами баз данных. В сильно интегри-
рованных тексто-графических БД эти ссылки уже существуют в полном
формате представления документа. Задача состоит в том, чтобы манипу-
лировать ими способом, который сопряжен с трудностями при практичес-
ком применении.
Многие из современных систем управления текстовой информацией
представляют собой символьные представления документов, способные
управлять ссылками к изображениям.
Система управления текстовой информацией TOPIC разработана с
целью использования этих особенностей в документальных БД. TOPIC
осуществляет хранение и поиск документов, представляющих различные
текстовые и графические форматы. Она делает "умные выводы" о струк-
турированных документах с целью поиска наиболее релевантных интере-
сам пользователей документов. Поскольку результат стандартизации
становится все очевиднее, TIMS будет развиваться в направлении обра-
ботки документов, состоящих из сильно интегрированных текстов в фор-
мате ASCII, изображений в различных форматах и структур внутри доку-
ментов.
|