Реферат: Глоссарий A3D


Глоссарий

A3D — стандарт генерации таких эффектов, как густой туман или подводные звуки, позволяет моделировать конфигурацию помещения, в котором раздаются и распространяются звуки.

Anchors — ссылки. Гипертекстовые ссылки, внедренные в Web-документ. Позволяют пользователю переходить от одного фраг-; мента информации к другому независимо от места ее хранения в Internet.

ANSI (American National Standards Institute) — американский национальный институт стандартов — неправительственная организация, устанавливающая стандарты. Развивает и издает стандарты для «добровольного» использования в Соединенных Штатах. Набор стандартов принимается национальными организациями через поставщиков данной страны.

^ API (Application Program Interface) — интерфейс прикладной программы. Функциональный интерфейс, поддерживаемый операционной системой (ОС) или специальной программой, который позволяет прикладной программе использовать специфические данные или функции ОС или программы.

^ APRP (Adaptive Pattern Recognition) — адаптивное распознавание образов.

ASCII (American Standard Code for Information Interchange) — Американский стандартный код для обмена информацией — соглашение для представления символьной информации; код для представления английской текстовой информации, используемый с отдельными модификациями в большинстве вычислительных систем.

Authentication — установление личности пользователя, делающего попытку доступа к системе.

Authorization — определение набора привилегий, которыми обладает пользователь.

^ Backup — резервное копирование. Процесс (регулярный или разо вый) копирования данных на другие носители, обычно оптичв»'

ские или ленточные. Все файлы или только недавно измененные маркируются для последующего копирования.

^ BLOB (Binary Large Object) — тип данных СУБД, используется для хранения произвольной информации, которая может быть представлена в двоичном виде. Тип данных BLOB является частью структуры базы данных, которая обеспечивает полную функциональность СУБД для манипулирования BLOB-элементами. То есть BLOB-элементы могут создаваться, удаляться, проверяться или копироваться. Но чаще всего отсутствует возможность работы внутри BLOB. Например, невозможно извлечение частей текста, индексирование и перемещение по BLOB.

CASE-средства (технологии) — программные средства, поддерживающие процессы создания и сопровождения ИС, включая анализ и формулировку требований, проектирование прикладного ПО (приложений) и баз данных, генерацию кода, тестирование, документирование, обеспечение качества, конфигурационное управление и управление проектом, а также другие процессы.

^ CCITT (Consultative Committee on International Telegraphique et Telephonique) — Международный консультативный комитет по телеграфии и телефонии, МККТТ, в настоящее время ITU-T. CCITT Group 4 — один из стандартов по сжатию изображений.

^ CD-ROM (Compact Disc Read Only Memory) — постоянная память на компакт-дисках емкостью более 600 Мбайт. Низкая цена способствует массовому распространению данных, записанных на CD-ROM.

Client — прикладная программа, которая делает запрос программе сервера на получение информации или выполнение задания сервером от имени клиента. Клиент и сервер взаимодействуют через специальный протокол. Клиент и сервер могут работать на различных хостах в сети и эти хосты могут быть компьютерами совершенно различной конфигурации и платформы.

^ Collaborative Authoring — совместное создание документа группой людей, даже если они находятся в различных местах или работают в различное время.

COM (Component Object Model) — составляющая программного обеспечения, поддерживающая OLE 2.

Content — содержательная часть данных документа, в противоположность атрибутам. Может включать текст, изображения, видео, звук, программы или любой другой материал, содержащийся на


бумаге, дискете, компакт-диске (CD-ROM) и др. Отметим, что некоторые системы управления документами расценивают данные как один из атрибутов.

СР 866 — распространенная в РФ кодировка символьной информации на базе кода ASCII с расширением его до 256 символов: кодовая страница 866 для IBM PC, в части кириллицы отсортирована по алфавиту, используется для работы с немодифицируемыми (нерусскоязычными) программами в ОС типа MS-DOS, сохраняет наиболее часто используемые в программах псевдографические знаки.

^ Data mining — «добыча» данных. Набор методов, позволяющих извлекать из сырых данных ранее неизвестные знания о зависимостях и закономерностях поведения рассматриваемого объекта. При этом все результаты формулируются в текстовых и графических формах, удобных для восприятия человеком.

^ Data model — модель данных. Описание содержания базы данных на более детализированном уровне, чем требуется непосредственно системе управления базы данных.

^ Data transformation — преобразование данных. Процесс изменения данных при начальной загрузке или при выполнении перемещения данных. Данные могут быть преобразованы для улучшения удобочитаемости при объединении данных из различных источников, для улучшения качества данных при их суммировании и т. д.

^ Data warehouse — хранилище (склад, кладовая) данных. База данных, разработанная для решения прикладных задач, в основном, in области принятия решений. Данные извлекаются из файловых систем операционных систем, из всевозможных СУБД и т. п. Затем они преобразуются и объединяются, чтобы стать подходя щими для анализа пользователями.

^ Database design — проектирование базы данных. Проект базы данных описывает организацию данных в БД на детальном уровне, требуемом СУБД для управления этими данными. Описывает pa i деление данных на таблицы и столбцы, и основные типы I столбцах, например, целое число или 8-символьная строка. Проектирование базы данных — это область деятельности адмишх i ратора базы данных. Простые проекты базы данных соответстну» ют информационной модели базы данных, содержание которой имеет представление, ориентированное на пользователя.

^ DBMS (Database management system) — Система управления базой данных.

DDE (Dynamic Data Exchange) — динамический обмен данными. Digital Video — видео, фиксируемое в цифровом формате.

DirectX — предложенная Microsoft система команд управления позиционированием виртуального звукового источника.

^ Distribution Media — среда вывода для хранения и копирования документов.

DMS (Document Management System) — Система управления документами.

Document Content Model — структура составного документа.

^ Document Interchange Format — правила представления документов с целью обмена.

Document Retrieval — поиск, выборка и использование документа из архивного хранилища.

downsizing — разукрупнение, децентрализация средств обработки данных. Переход с больших ЭВМ на ПК конечного пользователя и ЛВС.

dpi (dot per inch) — плотность печати или разрешение сканирования в точках на дюйм.

dpi (dots per inch — точек на дюйм) — единица измерения разрешения, в частности, оптического разрешения сканера.

DSL — Dictionary Specification Language, «язык описания словарей». В электронном словаре ABBYY Lingvo так называется встроенный инструмент, позволяющий пользователю создавать и редактировать собственные словари. Эти словари впоследствии могут быть подключены к Lingvo наряду с типовыми словарями из комплекта поставки.

^ DTD (Document Type Definition) — определение типа документа — начало (преамбула) SGML-документа, где определяются компоненты документа и его структура. Описание типа (шаблона) документа.

^ ЕАХ (Environmental Audio Extensions) — модель добавления реверберации в A3D, с учетом звуковых препятствий и поглощения звуком,

EDI (Electronic Data Interchange) — обмен данными и документами между различными пользователями согласно стакДЯрТНЫМ (ANSI X.I2, EDIFACT) правилам.


^ EDIFACT (Electronic Data Interchange For Administration, Commerce And Transport) — электронный обмен данными в управлении, торговле и на транспорте (ISO 9735—1987).

Embedding — размещение (вложение, внедрение) данных в составном документе, при котором данные и связанные с ними управляющие приложения физически размещены внутри документа.

Firewall — защитный экран, брандмауэр, противопожарная стена — жаргон системных администраторов. Системный компонент, выполняющий роль шлюза в сети, т. е. система или набор систем, через которую должен проходить весь трафик между внешней сетью (например, Internet) и внутренней сетью организации. Механизм, защищающий пакеты внутренней сети от попадания во внешнюю (глобальную) сеть и наоборот.

FlexiCapture — метаязык, разработанный специалистами компании ABBYY для описания структуры гибких форм. Используется для разработки описания гибкой формы FlexiLayout в программе ABBYY FlexiCapture Studio.

FlexiLayout — описание структуры гибкой формы в терминах языка FlexiCapture. Это описание разрабатывается в программе ABBYY FlexiCapture Studio и передается в ABBYY FormReader или приложение на базе ABBYY FineReader Engine. FlexyLayout — своего рода «инструкция» о том, как следует искать и идентифицировать поля на гибкой форме.

^ FTP (File Transfer Protocol) — протокол передачи файлов — сетевой протокол для передачи файлов между компьютерами. Клиентская программа, использующая FTP-транзакции, является или ftp или браузером паутины. Серверной программой для FTP-транзакций является ftpd.

GB — гигабайт (Гбайт).

^ GIF (Graphics Interchange Format) — формат обмена графическими данными. Используется в качестве стандарта компактного хрв нения и распространения файлов изображений в Internet.

Groupware — программное обеспечение, поддерживающее неформм лизованную последовательность обработки документов. ^ ПОЗВО ляет участвовать в объединенном проекте многим сотрудникам, работающим в сети.

GUI (Graphical User Interface) — графический интерфейс пользам» теля.

^ HTML (Hypertext Markup Language) — язык высокого уровня для определения структуры документов. Разработан в CERN и является одним из применений SGML. В настоящее время разрабатывается третья версия HTML. Некоторые разработчики, например, Netscape, создали свои расширения.

^ HTTP (Hyper Text Transfer Protocol) — сетевой протокол передачи (получения) документов HTML.

ICR — аббревиатура слов Intelligent Character Recognition, «интеллектуальное распознавание символов». Так называют технологии или системы, предназначенные для массовой обработки документов, заполненных печатными буквами и цифрами от руки, т. е. для распознавания рукописных символов. Если OCR-система должна построить точную электронную модель исходного документа, то перед ICR-системой такая задача не стоит. От ICR-системы требуется найти на изображении документа информацию, извлечь ее и передать во внешнюю базу данных. Извлеченные данные упорядочиваются по заранее заданным правилам, а как выглядит и какую структуру имеет исходный документ, при этом несущественно.

^ ID — уникальный номер или идентификатор документа (записи) в БД.

Information object(s) — информационный объект(ы) — 1. Объект, который используется в рассматриваемом процессе, может быть электронным либо материальным, в обоих случаях он представляет собой либо сырые данные, либо результат работы. 2. Блоки, из которых состоит документ. Например, текст, уравнения, штриховая графика, векторные данные, извлечения из баз данных, фотографии, звуковая информация, видео, программы.

^ Information warehouse — информационный склад. Архитектура, разработанная IBM в начале 1990-х гг. для складируемых данных. Описывается в IBM Visual Warehouse.

Internet — всемирная компьютерная сеть — Сеть сетей, объединяющая множество компьютерных сетей во всем мире и предоставляющая доступ к мировым информационным ресурсам.

Interoperability — интероперабельность. Функциональная совместимость.

Intranet — интрасеть. Корпоративная сеть, использующая протоколы и стандарты Internet.

IPA, принципы IPA (Integrity, Purposefulness, Adaptability) — принципы целостности, целенаправленности, адаптивности. На этих принципах базируется восприятие животных и людей, природных «чемпионов по распознаванию». И на этих же принципах основаны технологии распознавания ABBYY. ABBYY FineReader — система OCR, которая на всех этапах обработки документа действует в соответствии с принципами IPA.

^ ISO (International Organization for Standardization) — Международная организация по стандартизации (ВОС).

ISO 8859/5 — распространенная в РФ кодировка символьной информации на базе кода ASCII с расширением его до 256 символов: используется в русскоязычных версиях VAX/VMS и на ряде персональных компьютеров, получила достаточно широкое распространение благодаря явной направленности на работу с русским языком. Эта кодировка зафиксирована ГОСТ 19768—87.

Java — объектно-ориентированный язык для создания распределенных прикладных Web-систем.

JPEG — 1. Joint Photographic Experts Group — объединенная экспертная группа по фотографии, разработавшая алгоритм сжатия изображения. 2. Стандартный алгоритм сжатия неподвижного изображения, разработанный группой JPEG. Сжатие по этому алгоритму основано на психовизуальном восприятии изображений человеком и ведет к потере информации за счет исключения мелких деталей. Коэффициент сжатия варьируется в пределах от 2 до 100 раз.

^ LAN (Local Area Network) — локальная компьютерная сеть.

Linking — объединение (связывание) объектов в составной документ, вследствие чего ссылка связи, вставленная в документ, указывает на фактические данные, которые физически находят* ся в другом месте документа или в каком-то другом документе.

Localization — локализация. Адаптация программного продукта к национальным особенностям страны или географического ре гиона, в котором он используется. Например, разработчики программ обработки текстов должны локализовать алгоритмы сортировки списков для различных алфавитов.

^ Mapping — отображение. Процесс определения, какие преобраюин ния данных требуются при начальной загрузке склада данный или при перемещении данных. Результат «отображения» -то, что хранится в метаданных.

^ MDA (Multilevel Document Analysis) — Многоуровневый анализ документа.

Metadata — Метаданные.

Middleware — программное обеспечение, обеспечивающее интерфейс высокого уровня, освобождающий разработчика прикладных программ от знания сложностей аппаратных средств, операционной системы и сетевой семантики.

^ MIDI (Musical Instrument Digital Interface) — протокол передачи и интерпретации команд управления воспроизведением звука. Применяется в звуковых картах и определяет основные средства для управления расположением инструментов, голосов, а также для деления на инструментальные группы (клавишные, ударные и т. д.)

^ MIDI секвенсор — устройство, которое записывает и воспроизводит команды MIDI, а не аудиосигналы.

MIME (Multipurpose Internet Mail Extention) — многоцелевое расширение электронной почты Internet. Официально предложенный стандарт электронной почты в Internet. MIME-формат позволяет включать в сообщение электронной почты помимо текста также изображения, звук, видео.

^ Mosaic — один из первых графических браузеров для просмотра HTML-документов всемирной паутины, разработанный NCSA.

MS-DOS — дисковая операционная система, созданная фирмой Microsoft. Однозадачная, однопользовательская операционная система с интерфейсом командной строки.

Navigation — процесс целенаправленного перемещения от одного узла сети к другому.

Netscape — многоплатформный интерфейс — браузер для навигации и просмотра информации в гипертекстовой системе WWW, разработанный Netscape Communication Corporation.

^ NNTP (Network News Transfer Protocol) — сетевой протокол передачи новостей. Служит для помещения и извлечения статей в телеконференциях.

OCR (Optical Character Recognition) — распознающая программа для ввода документов с использованием оптического сканера. Характерным представителем относительно дешевых OCR-программ является пакет FineReader. В качестве примера OCR-npo-

граммы для автоматического распознавания типографского набора можно привести пакет CuneiForm 1.2R.

ODA (Office Data/Document Architecture) — архитектура деловых документов (стандарт ISO 8613).

ODBC (Open Database Connectivity) — стратегический интерфейс Microsoft для вызова данных в гетерогенной среде реляционных и нереляционных систем управления базами данных. ODBC предназначен обеспечить универсальный набор команд интерфейса для доступа к данным, что обеспечивает доступ к множественным различным базам данных. Интерфейс используется разработчиком, чтобы определить команды, которые затем транслируются драйверами для различных видов SQL, используемого различными продавцами DBMS.

ODIF (Office Document Interchange Format) — формат обмена документами в делопроизводстве (ISO 8613).

ODMA (Open Document Management API) — API для связи прикладных программ с системой управления документами и другим групповым ПО.

OLAP (On-line analytical processing) — аналитическая обработка данных в оперативном режиме. Прикладное ПО для анализа информации, хранящейся в базе данных.

OLE 2.0 (Object Linking and Embedding 2.0) — набор стандартных спецификаций и способов их реализации, находящийся в собственности и поддерживаемый Microsoft для составных документов.

On-line — 1. Режим работы с компьютером или каким-либо другим устройством, при котором подразумевается постоянное с ним взаимодействие. Синонимы: интерактивный, диалоговый, оперативный. 2. Постоянно включенное устройство; неавтономный режим работы.

OODBMS (Object Oriented DBMS) — объектно-ориентированная система управления базами данных. Система управления базами данных, выполняющая ряд функций, основанных на объектных понятиях (концепциях). В зависимости от целей их проектирования такие системы обладают одним или всеми из следующих свойств: системы более гибкого типа, чем найденные в RDBMS; легкая связываемость с помощью интерфейса с объектными языками; способность обрабатывать неструктурированные и

мультимедийные данные; более быстрая эффективность, чем у RDBMS.

ORACLE — система управления реляционными базами данных и широкий набор работающих с ней инструментальных средств разного уровня, доступные практически на всех распространенных вычислительных машинах и операционных системах.

OSI (Open System Interconnection) — связь открытых систем. Иной (не Internet) набор сетевых протоколов, предложенный ISO. Этот стандарт сетевого и межсетевого взаимодействия определяет семь уровней взаимодействия компонентов сети: физический, канальный, сетевой, транспортный, сеансовый, уровень представления данных и прикладной. Для каждого уровня разработан один или несколько протоколов, которые обеспечивают сетевое взаимодействие широкого класса устройств.

PDF — аббревиатура слов Portable Document Format, «универсальный формат документов». Термин введен корпорацией Adobe, которой был разработан данный формат. Удобство формата PDF в том, что он может быть прочитан специальной программой — Adobe Acrobat, версии которой существуют почти для любых платформ и операционных систем.

PDL (Page Description Language) — язык описания страниц. ЕДИНЫЙ формат для передачи готового документа в нередпктируемом виде. Позволяет просматривать и печатать документ пи ра'ишч ном оборудовании.

Plug-and-play — «вставляй и работай». Способ, реализуемый II УС1 ройствах для массового непрофессиональною ПОЛЬЭОМТвЛЯ.

Point-and-click — «укажи и щелкни». В GUI способ ЗШУСКЙ ро \n\v\

ных приложений.

Postscript — распространенный формат электронных документов -язык описания страниц печатных документом для лазерных принтеров и других устройств ВЫНОДП, Разработан фирмой Adobe.

RAID (Redundant Array of Independent Disc) дисковый массив, обеспечивающий резервирование и дублирование данных.

RDBMS (Relational Dadihiisc Management System) — реляционная система управления бйзоми данных. Основная технология баз данных, используемая и складировании данных. Реляционная технология 6ВЗЫ данных была определена Т. Коддом, который также издал набор прижги, определяющих OLAP.

Recovery — восстановление, возобновление, возврат, возврат в исходное состояние.

^ Relational database — реляционная база данных.

Replication — процесс физического дублирования данных из одной базы данных в другую. Дублирование увеличивает функциональные возможности преобразования данных. Гетерогенное копирование, где исходные и целевые типы данных различны, осуществляется разными средствами. Некоторые репликаторы позволяют двунаправленное копирование, где любая копируемая база данных может модифицироваться, тогда изменения автоматически распространяются в другую.

Repository — склад. Корпоративный информационный ресурс^ содержащий всю разработку, предоставленную от анализа до кодов программ, и способный к сохранению версий и конфигураций. Узловой центр для интегрированной среды обработки с различным набором инструментальных средств и способствующий использованию информации для стандартизации семантики.

Retrieval — процесс поиска, выборки документов или их частей в системах управления документами.

Router — маршрутизатор, устройство для передачи сетевых пакетов из одной сети в другую на основе информации, содержащейся в передаваемом пакете. Сетевой шлюз является наиболее типичным представителем маршрутизаторов.

^ RPC (Remote Procedure Call) — вызов удаленной процедуры, дистанционный вызов процедуры. Используется в серверной части приложения. Механизм RPC скрывает от программиста детали сетевых протоколов нижележащих уровней.

^ Scan&Read, мастер Scan&Read — встроенное средство ABBYY FineReader, позволяющее начинающему пользователю с первых же минут начать эффективно работать с программой.

Scanning — сканирование — процесс преобразования информации, находящейся на твердом носителе, в цифровой формат.

^ Schema — проект базы данных, написанный на языке областей определения данных (DDL) специфической системы управлении базами данных.

Security — безопасность — функция системы, правила, ограничп вающие доступ к документам: установление личности пользой!

теля, делающего попытку доступа, определение набора привилегий, доступных пользователю.

^ SGML (Standard Generalized Markup Language) — язык разметки высокого уровня для представления документов сложной структуры, обычно используемых в технических приложениях.

^ SMTP (Simple Mail Transfer Protocol) — простой (упрощенный) протокол электронной почты. Прикладная служба в сетях TCP/IP для передачи текстовых сообщений.

SNA (Systems Network Architecture) — сетевая архитектура систем. Разработана корпорацией IBM для организации сети своих хост-машин и терминалов. Состоит из семи уровней протоколов, которые подобны уровням модели OSI. Определяет способы передачи информации: иерархический (связь между хост-машиной и терминалами) и одноранговый (равноправный).

^ SQL (Structured Query Language) — структурированный язык запросов. Стандартный язык запросов, используемый для обращения к реляционным базам данных. Разработан фирмой IBM. ANSI-стандарты были изданы для SQL в 1986 и 1989 г.

^ TCP/IP (Transmission Control Protocol/Internet Protocol) — набор протоколов для коммуникации в локальной сети или во взаимосвязанном наборе сетей. Основной протокол Internet/Intranet.

TIFF (Tagged Image File Format) — теговый формат файла изображений.

Trigger — триггер — предшествующее событие в последовательной паре событий процесса, трактуемое как причина последующего события этой пары. Синоним — Event.

^ URL (Universal Resource Locator) — последовательность символов, обозначающая адрес документа (или его части) на сервере Паутины. Типичный URL содержит 3 части: используемый протокол при извлечении документа (ftp, http и др.); доменное имя компьютера, где хранится документ; путь к документу (pathname) в локальной файловой системе; синтаксис URL — protocol://server name/path.

^ View — показ — представление содержания документа в читаемой форме.

WAN (Wide Area Network) — глобальная вычислительная сеть.

Warehouse population — складская совокупность. Процесс извлечения данных из исходных баз данных, преобразование их для

улучшения удобочитаемости и качества данных, транспортировка по физическим сетям, объединение информации из различных источников, загрузка в склад данных. Спецификация, реализация и управление складской совокупностью — это наиболее трудный, дорогой и опасный процесс в складировании данных.

^ WWW (World Wide Web) — Всемирная паутина.

Х.400 — наборы протокольных стандартов для международной пересылки электронной почты. Это стандарт для систем работы с сообщениями электронной почты позволяет включать в сообщения не только текстовую, но и другую информацию, например факсы и графические изображения. Поддерживается поставщиками в основном в качестве инструмента, позволяющего работать с различными системами электронной почты.

XML — extensible Markup Language, «расширяемый язык разметки». Современный инструмент для создания и обработки документов; его возможности используются многими программами.

^ Агрегат данных — именованная совокупность элементов данных, представленных простой (векторной) или иерархической (группы или повторяющиеся группы) структурой. Примеры — массивы, записи, комплексные числа и пр.

^ Агрегатные функции — вычислительные функции СУБД, реализующие при выводе отчета или чтении таблицы данных вычисление агрегатных данных по группе записей БД (строк таблицы) -МАХ (максимальное значение данного поля в обработанной группе записей/строк),. MIN (минимальное значение), AVER (среднее значение), COUNT (подсчет числа записей) и пр.

^ Адаптивная бинаризация, adaptive binarization, AB — способ обработки изображения; алгоритм, выбирающий порог бинаризации it зависимости от контрастности данного участка изображения. Дает возможность точно распознавать текст со сложных ориги налов, например, ветхих, истертых страниц. Адаптивная бинаризация используется ABBYY FineReader для повышения качества распознавания.

^ Администратор базы данных (АБД) — лицо или группа, уполномоченные для ведения БД (модификация структуры и содержании БД, активизация доступа пользователей, выполнение других административных функций, которые затрагивают всех пользоип-телей). С этой целью он идентифицирует объекты БД и модели-

рует базу, используя язык описания данных. Администратор решает также все вопросы, связанные с размещением БД в памяти, выбором стратегии доступа и ограничением доступа к данным. В функции АБД входят также организация загрузки, ведения и восстановления БД.

^ Анализ документа — процедура обработки изображения, в ходе которой OCR-программа создает электронную редактируемую копию документа. Собственно распознавание текста — одна из составных частей анализа документа.

^ Архитектура документа — структурное описание документа, включающее в себя все входящие в него виды информации (текст, векторная и растровая графика, таблицы).

Атрибут — поле данных, содержащее информацию об объекте.

^ База данных (БД) — именованная совокупность взаимосвязанных данных, отображающая состояние объектов и их отношений в некоторой предметной области, используемых несколькими пользователями и хранящимися с минимальной избыточностью. Базы данных предоставляют собой более жесткую среду для хранения нежели файловые системы ОС. Базы данных характеризуются многопользовательским интерфейсом, протоколированием, словарями данных для моделирования метаданных, определяемой пользователем структурой, жесткими типами данных и сложными языками запросов.

Байт — 1. Единица количества информации, равная обычно восьми битам. 2. Ячейка памяти, соответствующая одному байту.

Безопасность — защита данных от преднамеренного или непреднамеренного доступа, модификации или разрушения.

^ Библиографические данные (записи) — выходные данные (включают авторов, заголовок, классификационный индекс, место публикации и пр.), иногда реферат.

Бинаризация — перевод изображения в бинарный формат, когда каждая точка может быть либо белого, либо черного цвета. Бинаризация выполняется всеми OCR-программами в процессе подготовки изображения к распознаванию. В некоторых случаях качество бинаризации очень сильно влияет на точность распознавания.

^ Бит — 1. Двоичная единица количества информации. 2. ЕДИНИЦ1 объема памяти, соответствующая одному биту информации

Битрейт (bitrate) — ширина потока (битовая скорость). Для звукового сигнала термин обозначает общую ширину потока, безразлично к тому, монофонический или стереофонический сигнал он содержит, варьируется от наибольшего для МРЗ, равного 320 кбит/с (320 килобит в секунду), до 96 кбит/с и ниже.

Браузер — прикладная программа клиента, которая позволяет просматривать, извлекать и показывать содержание документов, находящихся на серверах Всемирной паутины. Наиболее распространенные браузеры — Netscape Navigator и Internet Explorer.

Валидация — автоматическая проверка распознанных данных на соответствие заданным правилам. Например, проверка на попадание численных данных в определенный интервал, проверка совпадение сумм, указанных цифрами и прописью, проверка на соответствие формату или заданному значению.

Верификация — проверка распознанных данных оператором. Производится путем сличения результатов распознавания с исходным изображением части документа. Технология верификации реализована в продуктах ABBYY с учетом основных психосоматических особенностей человека: выработки привычек, использования навыков, целостности и целенаправленности восприятия.

^ Вид документа — элемент классификации множества документов, циркулирующих в организации.

Видеоадаптер — электронная плата, генерирующая видеосигнал, посылаемый видеодисплею по кабелю.

Восстанавливаемость — запроектированная возможность восстановления целостности БД после любого сбоя системы.

^ Всемирная паутина (WWW) — Internet-обслуживание, которое дает возможность пользователям читать и выбирать документы со всего мира.

Вторичный документ — документ, являющийся результатом аналити-ко-синтетической переработки одного или нескольких первичных документов.

Гипертекст — информационная система из узлов данных и смысловых связей между ними.

^ Глобальная вычислительная сеть — сеть передачи данных, охватывающая значительное географическое пространство (регион, страну, ряд стран, континенты).

Данные — информация, обработанная и представленная в формализованном виде для дальнейшей обработки

Дескриптор — предназначенное для координатного индексирования документов и информационных запросов нормативное ключевое слово, по определенным правилам отобранное из основного словарного состава того или иного естественного языка.

^ Дескрипторный язык — информационно-поисковый язык, словарный состав которого состоит из дескрипторов, а использование основано на принципе координатного индексирования.

Документ — агрегат данных в документальных системах (АИПС), имеющий иерархическую структуру и, кроме форматных полей (элементы или агрегаты данных фиксированной длины), обычно содержащий текстовые поля, или символьные последовательности неопределенной длины, логически подразделяющиеся на параграфы (PAR, SEGM), предложения (SENT), слова (WORD).

Естественный язык — язык, словарь, грамматические правила которого обусловлены практикой применения и не всегда формально зафиксированы.

^ Запись логическая — идентифицируемая (именованная) совокупность элементов или агрегатов данных, воспринимаемая прикладной программой как единое целое при обмене информацией с внешней памятью. Запись — это упорядоченная в соответствии с характером взаимосвязей совокупность полей (элементов) данных, размещаемых в памяти в соответствии с их типом.

^ Запись физическая — совокупность данных, которая может быть считана или записана как единое целое одной командой ввода-вывода.

Запрос (информационный) — сообщение, обычно неформатированное, информационно-поисковой системе со стороны абонента, содержащее его информационную потребность и подвергающееся автоматическому индексированию.

^ Иерархическая модель данных — использует представление предметной области БД в форме иерархического дерева, узлы которого связаны по вертикали отношением «предок—потомок». Навигация в БД представляет собой перемещение по вертикали и горизонтали в данной структуре. Одной из наиболее популярных ие-

рархических СУБД была Information Management System (IMS) компании IBM, появившаяся в 1968 г.

^ Импорт (загрузка, download) — утилита (функция, команда) СУБД, служащая для чтения файлов операционной системы, которые содержат данные из базы данных, представленные в некотором коммуникативном формате.

Инвертированный файл (список) — файл, предназначенный для быстрого произвольного поиска записей по значениям ключей, организованный в виде независимых упорядоченных списков (индексов) ключей — значений определенных полей записей основного файла.

Индекс —'таблица ссылок на объекты, используемая для определения адреса записи.

Индексирование — формирование описания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий либо из текстов документов.

^ Информационная система — система, предназначенная для хранения, обработки, поиска, распространения, передачи и предоставления информации.

Информационная технология — совокупность методов, производственных процессов и программно-технических средств, объединенных в технологический комплекс, обеспечивающий сбор, создание, хранение, накопление, обработку, поиск, вывод, копирование, передачу и распространение информации.

^ Информационно-поисковая система (ИПС) — программная система для хранения и поиска данных по неформатированным запросам. Для общения пользователя с ИПС разработчики системы стремятся применять упрощенный естественный язык.

Информационно-поисковый язык (ИПЯ) — искусственный язык, обеспечивающий компактную, строго алгоритмизированную запись содержания документов и запросов в ИПС. ИПЯ можно определить как специализированную семантическую систему, состоящую из алфавита, правил образования (грамматики) и правил интерпретации (семантики).

^ Информационные ресурсы — совокупность накопленной информации, зафиксированной на материальных носителях в любой форме, обеспечивающей ее передачу во времени и пространен»1 В контексте автоматизированных информационных систем ПОЙ информационными ресурсами обычно подразумевают информн

ционные массивы и базы данных, рассматриваемые совместно с информационными технологиями, обеспечивающими их доступность.

^ Информационный агент — интеллектуальный агент (агент знаний). Программа, делаюшая документ самоосведомленным посредством анализа его содержания и сравнения этого содержания с профилем пользователя или уровнем его интересов. Наиболее передовой задачей интеллектуального агента является получение сжатого содержания документа в виде автоматической аннотации.

^ Информационный запрос — записанный на естественном языке текст, выражающий некоторую информационную потребность.

Информационный поиск — процесс отыскания в поисковом массиве таких записей, которые соответствуют признакам, указанным в информационном запросе.

Информация — сведения, воспринимаемые человеком и (или) специальными устройствами как отражение фактов материального или духовного мира в процессе коммуникации.

^ Искусственный язык — язык, специально созданный и регулируемый на основе согласованных принципов.

Классификация — процесс соотнесения содержания документов с понятиями, зафиксированными в заранее составленных систематических схемах.

Клиент — программы, написанные как пользователями, так и поставщиками СУБД, внешние или «встроенные» по отношению к СУБД. Программа-клиент организована в виде приложения, работающего «поверх» СУБД и обращающегося для выполнения операций с данными к компонентам СУБД через интерфейс внешнего уровня.

Клиент/сервер — технология (архитектура) взаимодействия клиента и сервера. Клиент — программа, запрашивающая у сервера информацию или выполнение какого-либо задания на сервере от имени клиента. Сервер — прикладная программа, исполняющая запросы клиента. Клиент и сервер взаимодействуют по определенному протоколу. Программа клиента и программа сервера могут располагаться как на одной машине, так и на совершенно различных компьютерах произвольной сети.

^ Ключ — значение (элемент данных), используемый для идентификации или определения адреса записи.

Ключевое поле — поле в структуре записи. Поле определяют как ключевое (или индексированное) для убыстрения или упрощения операций поиска и/или для модификации операций обработки данных.

^ Ключевое слово — предметное слово, выбираемое из не
еще рефераты
Еще работы по разное