Трагедия Свободы  Умопримечания | Стихи | Библиотека 
  на первую страницу НОВОСТИ | ССЫЛКИ   
Р.Л. Стратонович. Определение ценности информации. Обобщенная теорема Шеннона
от 13.04.03
  
Библиотека


Из 9, 11 глав

Нет ничего более практически ценного,
чем хорошая теория

Людвиг Больцман

Глава 9. Определение ценности информации Понятие ценности информации, вводимое в настоящей главе, связывает шенноновскую теорию информации с теорией статистических решений. В последней теории основным является понятие средних потерь или риска, которое характеризует качество принимаемых решений. Ценность информации специализируется как та максимальная польза, которую данное количество информации способно принести в деле уменьшения средних потерь. Такое определение ценности информации оказывается связанным с формулировкой и решением определенных условных вариационных задач. Ввести понятие ценности информации можно тремя родственными способами, выбирая за основу хартлиевское, больцмановское или шенноновское количество информации. При выборе шенноновского количества информации нужно решать третью вариационную задачу. Между указанными определениями существует известная связь, и одно понятие может служить удобной заменой другого. Все эти понятия характеризуют определенный обьект - бейесовскую систему, который наряду с каналом является важнейшим обьектом исследования теории информации. Прежде чем теория ценности информации превратилась в самостоятельный раздел теории информации, существующий и развивающийся независимо от теории передачи сообщений по каналам, некоторые ее элементы и результаты вызревали в недрах традиционной теории, исследующей каналы. К. Шенноном в 1948 г. [1] была рассмотрена третья вариационная задача, взятая в форме минимизации энтропии при заданном уровне потерь или, в шенноновской терминологии, при заданной точности воспроизведения. Используемая при этом терминология далека от терминологии статистических решений, но это, разумеется, не меняет математической сущности. Позднее Колмогоровым [1] было введено основанное на указанной вариационной задаче понятие e - энтропии и получен ряд относящихся к нему результатов. Вместо термина e -энтропия мы используем здесь термин a - информация, поскольку рассматривается все-таки не энтропия, а шенноновская информация. В настоящее время в работах американских авторов вслед за работами Шеннона [1,3] данная теория (в первоначальной шенноновской интерпретации) получила значительное развитие (см. особенно монографию Бергера [1]). Мы придерживаемся, однако, другой интерпретации и другой терминологии. В принятом нами способе изложение понятия и результаты теории рассматриваются независимо от понятия каналов с помехами, их пропускной способности. Мы хотим подчеркнуть, что круг вопросов, связанный с третьей вариационной задачей, равноправен кругу вопросов, относящихся ко второй или первой вариационной задаче (это, конечно, не исключает возможности обьединенного рассмотрения, например, формулировки обобщенной теоремы Шеннона, см. 11. 5)
9.1. Уменьшение средних штрафов при уменьшение неопределенности Польза, приносимая информацией, заключается в том, что она позволяет уменьшить потери, связанные со средними штрафами. Предполагается, что в условии задачи указана функция штрафов, которая по-разному штрафует различные действия и решения, принимаемые действующим лицом. За более удачные действия назначаются меньшие штрафы или большие награды, чем за менее удачные. Цель заключается в минимизации средних штрафов. Имеющаяся в распоряжении информация позволяет добиться меньшего уровня средних потерь. Прежде чем переходить к математической формулировке сказанного, рассмотрим в этом параграфе, носящем подготовительный характер, более простую задачу (типа первой вариационной задачи), иллюстрирующую тот факт, что высокая неопределенность в системе (негинформация), действительно, повышает уровень потерь. Пусть имеется система с дискретными возможными состояниями. В действительности осуществляется одно из возможных состояний и величина x, описывающая состояние, принимает одно определенное значение. Пусть в соответствии с назначением системы указана функция штрафа с(x). Если, например, требуется, чтобы система придерживалась вблизи нулевого состояния x=0 (задача стабилизации), то может быть взята, скажем, функция штрафа с(x) = abs(x). По каким-либо причинам пусть в данный задаче невозможно обеспечить идеальное равенство x=0. Например, вследствие неизбежных флюктуаций в составных частях системы, в ней присутствует статистический разброс, т.е. имеет место неопределенность - негинформация. При этом величина x будет случайной и будет описываться некоторыми вероятностями P(x).  Мерой неопределенности, как известно, является энтропия
Hx   = S P(x)  ln P(x).

(9.1.1)


Будем предполагать, что количество неопределенности Hx зафиксировано и рассмотрим, какие при этом возможны средние штрафы M c(x). Существует некоторый нижний предел для этих штрафов, который может быть найден теми же методами, что и в 3.2, 3.3, 3.6. В самом деле, там уже решалась задача на экстремум средних штрафов при условии фиксированной энтропии (первая экстремальная задача)…
<...>
Согласно теореме 3.4 потери R0(Hx) при Т > 0 возрастают с ростом энтропии H(x). Пусть теперь имеется приток информации, уменьшающий энтропию согласно (1.1.2). Если сначала в системе была негоинформация Hx и вследствие притока информации I она уменьшилась до величины Hx - I = Hps, то, очевидно, это привело к уменьшению потерь. Разность говорит о той пользе, которую принесла информация I. Она есть количественная мера ценности информаци
<...>
рис. 9.1

Рис. 9.1.


Средние потери и дифференциальная ценность информации как функции от энтропии (пример 1).
<...>
Как было отмечено, уменьшение неопределенности в системе может быть достигнуто приобретением информации. При этом количество информации мыслилось просто как разность двух энтропий Hx одной переменной x. Между тем, согласно в гл. 6, количество информации I = Ixy является более сложным понятием, предполагающим существование двух случайных величин x и y (а не одной x). Должна быть случаная величина x, о которой передается информация, и случайная величина y, которая несет эту информацию. Это заставляет усложнить приведенные в настоящем параграфе рассуждения, перейдя от простой (первой) вариационной задачи к усложненной вариационной задаче, которую будем называть третьей вариационной задачей теории информации
<…>
9. 3.  Определение ценности шенноновского количества информации и a-информации Как и в п. 2 предыдущего параграфа, будем считать, что задана случайная величина x, описываемая распределением P(dx) и (измеримая) функция штрафов c(x,u) от x и оценки u. Значения x и u являются точками заданных измеримых пространств X и U соответственно. Тем самым задана система [P(dx), c(x,u)], которую будем называть бейсовской системой
Для любого условного распределения P(du/x) можно вычислить средние штрафы или риск
Mc(x,u) = Sum c(x,u) P(du/x) P(dx)    -  где Sum - знак интеграла

(9.3.1)


И шенноновское количество информации
I(xu) = Sum ln [p(du/x)/Sum P(du/x) P (dx)] P(du/x)P(dx)

(9.3.2)


Сформулируем следующую третью экстремальную задачу. Назовем условное распределение P(dx/u) экстремальным, если оно обращает в экстремум средние штрафы (9.3.1) при фиксированном значении количества информации (9.3.2):
I(xu) = I

(9.3.3)


Где I - независимо задаваемое число. Как показывает анализ, это же распределение обращает в экстремум, а именно в минимум, информацию I(xu) при фиксированных средних штрафах:
I(xu) = min,
Sum c(x,u) P(du/x) P(dx) = a = fix.

(9.3.4)


Средние штрафы (риск) (9.3.1) экстремального распределения будем обозначать буквой R, Вследствие условия (9.3.3) они являются функцией от I:
R(I) = Sum c(x,u) P(du/x) P(dx).

(9.3.5)


Наряду с R(I) можно рассматривать и обратную зависимость I(xy) от а. Значение I(a) называем информацией, соответствующей уровню потерь R = a или, коротко а-информацией. Как видно из последующего (теорема 9.6), функция I(xy) от а - является вогнутой (рис. 9.7).  Поэтому R(I) является, вообще говоря, двузначной. В общем случае функция R(I) принимает минимальное значение, равное нулю, на некотором интервале
R0 =< R =< RQ

(9.3.6)


Функцию R(I) = R+(I), обратную функции I(R), R =< R0, назовем нормальной ветвью, а функцию R(I) = R-(I), обратную к I(R), R >= RQ, аномальной ветвью. Для нормальной ветви определяем ценность шенноновской информации
V(I) = R0 - R+(I).

(9.3.7)


Для аномальной ветви ценность информации определяем формулой
V(I) = R-(I) - RQ.

(9.3.8)


<…>
Теорема 9.2. Пусть задана бейесовская система [P(dx), c(x,u)] и наблюдаемая функция у(х), описываемая условным распределением P(y/x). Каков бы ни был решающий алгоритм u = d(y) (рандомизированный или нерандомизированный), уровень потерь удовлетворяет неравенству
Мс(х, d(y))>=R(I(xy)) = R0 - V (I(xy))
<…>
Приведенная теорема свидетельствует о плодотворности введения понятия ценности информации. Вопрос о том, как фактически достигать предельно малых средних штрафов, указываемых теорией ценности информации - будет разбираться в гл. 11. Понятие информации, соответствующей заданному уровню потерь, было введено (под названием скорости создания сообщений) Шенноном [1] и (под  названием W-энтропии или e-энтропии Колмогоровым [1], а понятие ценности информации - Стратоновичем [3].
<…>
Глава 11. Асимптотические результаты, касающиеся ценности информации. Третья асимптотическая теорема Главным асимптотическим результатом, затрагивающим ценность информации, следует признать факт асимптотической равноценности различных родов информации: хартлиевской, больцмановской, шенноновской, имеющей место при весьма широких предположениях типа требований информационной устойчивости. Этот факт не сводится к факту асимптотической безошибочности передачи информации через канал с помехами, утверждаемому теоремой Шеннона (гл.7), а является самостоятельным и не менее значимым. Комбинация двух указанных фактов приводят к обобщенному результату, носящему название обобщенной теоремы Шеннона (п.11.5). В последней рассматривается общий критерий качества, определяемый произвольной функцией штрафов и соответствующим ей риском. Исторически факт асимптотической равноценности информации был впервые доказан (1959 г.) именно в такой комбинированной, завуалированной форме, в сочетании со вторым фактом (асимптотической безошибочности). Он не осмысливался сначала как самостоятельный факт, а составлял по существу часть обобщенной теоремы Шеннона. Мы в этой главе придерживаемся другого способа изложения и рассматриваем факт асимптотической равноценности различных количеств информации как совершенно особый самостоятельный факт, более элементарный, нежели обобщенная теорема Шеннона. Этот принцип изложения мы считаем более предпочтительным как с принципиальной, так и с педагогической точки зрения. При этом отчетливее видна симметрия теории информации, равноправие второй и третьей вариационных задач. Помимо самого факта асимптотической равноценности информаций, разумеется, важен и интересен вопрос о величине расхождения между ценностями различных родов информации. В п. 11.3, 11.4 приводятся найденные автором первые члены асимптотического разложения для указанного расхождения. Эти члены являются точными для выбранного случайного кодирования и дают представление (как во всяком асимптотическом, полусходящемся разложении) о быстроте убывания расхождения, хотя сумма всех остальных членов разложения и не оценивается. Особо рассматривается вопрос об инвариантности результатов относительно преобразования функции штрафов с(x, y) ->  с(x, y) + f(x), которое не сказывается на передаче информации и на ее ценности. Предпочтение отдается тем формулам, в которых фигурируют величины и функции, инвариантные относительно указанного преобразования, например, берется отношение инвариантной разности R' - R = V - V' к инвариантной величине V, а не к риску R, который является неинвариантным (см. теорему 11.2). Разумеется, исследования в данном направлении могут быть дополнены и улучшены. Скажем, при рассмотрении обобщенной теоремы Шеннона в п.11.5 законно ставить вопрос о быстроте исчезновения расхождения в рисках. Этот вопрос, однако, остался нерасмотренным
11.5 Обобщенная теорема Шеннона Здесь будет рассмотрено обобщение результатов п.7.3 (теоремы 7.1 и 7.2) и п.8.1 (теорема 8.1) на случай произвольного критерия качества. Напомним, что в гл. 7 был взят единственный критерий качества, именно, качество информационной системы характеризовалось средней вероятностью принятия ложного сообщения. Работами Колмогорова [1], Шеннона [4], Добрушина [1] начато распространение указанных результатов на случай более общего критерия качества, характеризуемого произвольной функцией штрафов с

  
СТАТИСТИКА

  Веб-дизайн © Kirsoft KSNews™, 2001 Copyright © Трагедия Свободы, 2001-2004