Пређи на садржај

Кулбак-Лајблерова дивергенција

С Википедије, слободне енциклопедије

У математичкој статистици, Кулбак—Лајблерова (КЛ) дивергенција (такође се назива релативна ентропија и I-дивергенција[1]), означена као , јесте тип статистичке раздаљине: мера колико се модел расподеле вероватноће Q разликује од стварне расподеле вероватноће P.[2][3] Математички, дефинише се као

Једноставна интерпретација КЛ дивергенције P од Q је очекивани вишак изненађења од коришћења Q као модела уместо P, када је стварна расподела P. Иако је то мера разлике између две расподеле и стога јесте раздаљина у неком смислу, она заправо није метрика, што је најпознатији и формални тип раздаљине. Конкретно, није симетрична у двема расподелама (за разлику од варијације информације) и не задовољава неједнакост троугла. Уместо тога, у смислу информационе геометрије, то је тип дивергенције,[4] генерализација квадратне Еуклидске раздаљине, и за одређене класе расподела (посебно експоненцијалну фамилију), задовољава генерализовану Питагорину теорему (која се примењује на квадратне раздаљине).[5]

Релативна ентропија је увек ненегативан реалан број, са вредношћу 0 ако и само ако су две расподеле у питању идентичне. Има различите примене, како теоријске, као што је карактеризација релативне (Шенонове) ентропије у информационим системима, случајности у непрекидним временским серијама и добитка информација при поређењу статистичких модела закључивања; тако и практичне, као што су примењена статистика, механика флуида, неуронаука, биоинформатика и машинско учење.

Увод и контекст

[уреди | уреди извор]

Размотримо две расподеле вероватноће P и Q. Обично, P представља податке, опсервације или измерену расподелу вероватноће. Расподела Q уместо тога представља теорију, модел, опис или апроксимацију P. Кулбак—Лајблерова дивергенција се тада тумачи као просечна разлика у броју битова потребних за кодирање узорака из P коришћењем кода оптимизованог за Q уместо оног оптимизованог за P. Треба напоменути да се улоге P и Q могу заменити у неким ситуацијама где је то лакше израчунати, као што је случај са алгоритмом очекивање-максимизација (EM) и прорачунима доње границе доказа (ELBO).

Етимологија

[уреди | уреди извор]

Релативну ентропију су увели Соломон Кулбак и Ричард Лајблер 1951. године као „средњу информацију за дискриминацију између и по опсервацији из ”,[6] где се пореде две мере вероватноће , а су хипотезе да се бира из мере (респективно). Означили су је са , и дефинисали „’дивергенцију’ између и ” као симетризовану количину , коју је већ дефинисао и користио Харолд Џефриз 1948. године.[7] У Kullback (1959), симетризовани облик се поново назива „дивергенцијом”, а релативне ентропије у сваком смеру се називају „усмереним дивергенцијама” између две расподеле;[8] Кулбак је преферирао термин дискриминациона информација.[9] Термин „дивергенција” је у супротности са раздаљином (метриком), пошто симетризована дивергенција не задовољава неједнакост троугла.[10] Бројне референце на раније употребе симетризоване дивергенције и на друге статистичке раздаљине дате су у Kullback (1959, стр. 6–7, §1.3 Divergence). Асиметрична „усмерена дивергенција” постала је позната као Кулбак—Лајблерова дивергенција, док се симетризована „дивергенција” сада назива Џефризова дивергенција.

Дефиниција

[уреди | уреди извор]

За дискретне расподеле вероватноће P и Q дефинисане на истом простору исхода, , релативна ентропија од Q до P је дефинисана[11] као

што је еквивалентно са

Другим речима, то је очекивана вредност логаритамске разлике између вероватноћа P и Q, где се очекивање узима користећи вероватноће P. Релативна ентропија је дефинисана на овај начин само ако, за све x, имплицира (апсолутна непрекидност). У супротном, често се дефинише као ,[1] али вредност је могућа чак и ако је свуда,[12][13] под условом да је бесконачног опсега. Аналогни коментари се примењују на непрекидне и опште случајеве мере дефинисане у наставку.

Кад год је нула, допринос одговарајућег члана се тумачи као нула јер

За расподеле P и Q непрекидне случајне променљиве, релативна ентропија се дефинише као интеграл[14]

где p и q означавају функције густине вероватноће од P и Q.

Уопштеније, ако су P и Q мере вероватноће на мерљивом простору и P је апсолутно непрекидна у односу на Q, онда се релативна ентропија од Q до P дефинише као

где је Радон—Никодимов извод од P у односу на Q, тј. јединствена Q скоро свуда дефинисана функција r на таква да је која постоји јер је P апсолутно непрекидна у односу на Q. Такође претпостављамо да израз са десне стране постоји. Еквивалентно (по правилу ланца), ово се може написати као

што је ентропија од P у односу на Q. Настављајући у овом случају, ако је било која мера на за коју густине p и q са и постоје (што значи да су P и Q обе апсолутно непрекидне у односу на ), онда је релативна ентропија од Q до P дата као

Приметите да таква мера за коју се могу дефинисати густине увек постоји, пошто се може узети , иако ће у пракси то обично бити она која се примењује у контексту као што је мера пребројавања за дискретне расподеле, или Лебегова мера или њена погодна варијанта као што је Гаусова мера или униформна мера на сфери, Харова мера на Лијевој групи итд. за непрекидне расподеле. Логаритми у овим формулама се обично узимају са основом 2 ако се информација мери у јединицама битова, или са основом e ако се информација мери у натима. Већина формула које укључују релативну ентропију важе без обзира на основу логаритма.

Постоје различите конвенције за именовање речима. Често се назива дивергенцијом између P и Q, али то не успева да пренесе фундаменталну асиметрију у односу. Понекад, као у овом чланку, може се описати као дивергенција P од Q или као дивергенција од Q до P. Ово одражава асиметрију у Бајесовом закључивању, које почиње од априорне расподеле Q и ажурира се до апостериорне расподеле P. Други уобичајен начин за означавање је релативна ентропија P у односу на Q или добитак информација од P у односу на Q.

Основни пример

[уреди | уреди извор]

Кулбак[3] даје следећи пример (Табела 2.1, Пример 2.1). Нека су P и Q расподеле приказане у табели и на слици. P је расподела на левој страни слике, биномна расподела са и . Q је расподела на десној страни слике, дискретна униформна расподела са три могућа исхода x = 0, 1, 2 (тј. ), сваки са вероватноћом .

Две расподеле за илустрацију релативне ентропије
x
Расподела
0 1 2
9/25 12/25 4/25
1/3 1/3 1/3

Релативне ентропије и се рачунају на следећи начин. Овај пример користи природни логаритам са основом e, означен као ln, да би се добили резултати у натима (видети јединице информације):

Интерпретације

[уреди | уреди извор]

Статистика

[уреди | уреди извор]

У области статистике, Нејман—Пирсонова лема наводи да је најмоћнији начин за разликовање између две расподеле P и Q на основу опсервације Y (извучене из једне од њих) путем логаритма односа њихових веродостојности: . КЛ дивергенција је очекивана вредност ове статистике ако је Y заиста извучена из P. Кулбак је мотивисао ову статистику као очекивани логаритамски однос веродостојности.[15]

Кодирање

[уреди | уреди извор]

У контексту теорије кодирања, се може конструисати мерењем очекиваног броја додатних битова потребних за кодирање узорака из P коришћењем кода оптимизованог за Q уместо кода оптимизованог за P.

Закључивање

[уреди | уреди извор]

У контексту машинског учења, се често назива добитком информација оствареним ако би се P користило уместо Q које се тренутно користи. По аналогији са теоријом информација, назива се релативном ентропијом P у односу на Q.

Изражено језиком Бајесовог закључивања, је мера информације добијене ревидирањем уверења од априорне расподеле вероватноће Q до апостериорне расподеле вероватноће P. Другим речима, то је количина информација изгубљена када се Q користи за апроксимацију P.[16]

Информациона геометрија

[уреди | уреди извор]

У применама, P обично представља „праву” расподелу података, опсервација или прецизно израчунату теоријску расподелу, док Q обично представља теорију, модел, опис или апроксимацију P. Да бисмо пронашли расподелу Q која је најближа P, можемо минимизовати КЛ дивергенцију и израчунати информациону пројекцију.

Иако је то статистичка раздаљина, она није метрика, најпознатији тип раздаљине, већ је то дивергенција.[4] Док су метрике симетричне и генерализују линеарну раздаљину, задовољавајући неједнакост троугла, дивергенције су асиметричне и генерализују квадратну раздаљину, у неким случајевима задовољавајући генерализовану Питагорину теорему. Уопштено није једнако , а асиметрија је важан део геометрије.[4] Инфинитезимални облик релативне ентропије, конкретно њена Хесијанова матрица, даје метрички тензор који је једнак Фишеровој информационој метрици; видети § Фишерова информациона метрика. Фишерова информациона метрика на одређеној расподели вероватноће омогућава одређивање природног градијента за информационо-геометријске алгоритме оптимизације.[17] Њена квантна верзија је Фубини-Студи метрика.[18] Релативна ентропија задовољава генерализовану Питагорину теорему за експоненцијалне фамилије (геометријски интерпретиране као дуално равне многострукости), и то омогућава минимизацију релативне ентропије геометријским средствима, на пример информационом пројекцијом и у процени максималне веродостојности.[5]

Релативна ентропија је Брегманова дивергенција генерисана негативном ентропијом, али је такође у облику f-дивергенције. За вероватноће над коначним азбуком, она је јединствена по томе што припада обема класама статистичких дивергенција. Примена Брегманове дивергенције се може наћи у алгоритму спуштања у огледалу (mirror descent).[19]

Финансије (теорија игара)

[уреди | уреди извор]

Размотримо инвеститора који оптимизује раст у фер игри са међусобно искључивим исходима (нпр. „трка коња” у којој збир званичних квота износи један). Стопа поврата коју очекује такав инвеститор једнака је релативној ентропији између вероватноћа у које инвеститор верује и званичних квота.[20] Ово је посебан случај много општије везе између финансијских поврата и мера дивергенције.[21] Финансијски ризици су повезани са путем информационе геометрије.[22] Ставови инвеститора, преовлађујући став на тржишту и ризични сценарији формирају троуглове на релевантној многострукости расподела вероватноће. Облик троуглова одређује кључне финансијске ризике (и квалитативно и квантитативно). На пример, тупоугли троуглови у којима се ставови инвеститора и ризични сценарији појављују на „супротним странама” у односу на тржиште описују негативне ризике, оштроугли троуглови описују позитивну изложеност, а правоугла ситуација у средини одговара нултом ризику. Проширујући овај концепт, релативна ентропија се хипотетички може користити за идентификацију понашања информисаних инвеститора, ако се ово схвати као представљено величином и одступањима од претходних очекивања токова фондова, на пример.[23]

Мотивација

[уреди | уреди извор]
Илустрација релативне ентропије за две нормалне расподеле. Јасно је видљива типична асиметрија.

У теорији информација, Крафт—Макмиланова неједнакост утврђује да се било која шема кодирања која се може директно декодирати за кодирање поруке ради идентификације једне вредности из скупа могућности X може посматрати као представљање имплицитне расподеле вероватноће над X, где је дужина кода за у битовима. Стога се релативна ентропија може тумачити као очекивана додатна дужина поруке по податку која се мора пренети ако се користи код који је оптималан за дату (погрешну) расподелу Q, у поређењу са коришћењем кода заснованог на правој расподели P: то је вишак ентропије.

где је унакрсна ентропија од Q у односу на P, а је ентропија од P (што је исто као и унакрсна ентропија P са самим собом).

Релативна ентропија се може геометријски посматрати као статистичка раздаљина, мера колико је расподела Q удаљена од расподеле P. Геометријски, то је дивергенција: асиметричан, генерализован облик квадратне раздаљине. Унакрсна ентропија је сама по себи такво мерење (формално функција губитка), али се не може сматрати раздаљином, јер није нула. Ово се може исправити одузимањем како би се боље ускладило са нашом представом о раздаљини, као вишак губитка. Резултујућа функција је асиметрична, и иако се може симетризовати (видети § Симетризована дивергенција), асиметрични облик је кориснији. Видети § Интерпретације за више о геометријској интерпретацији.

Релативна ентропија се односи на „функцију стопе” у теорији великих девијација.[24][25]

Артур Хобсон је доказао да је релативна ентропија једина мера разлике између расподела вероватноће која задовољава неке жељене особине, које су канонско проширење оних које се појављују у често коришћеној карактеризацији ентропије.[26] Сходно томе, међусобна информација је једина мера међусобне зависности која поштује одређене повезане услове, пошто се може дефинисати у терминима Кулбак—Лајблерове дивергенције.

  • Релативна ентропија је увек ненегативна, резултат познат као Гибсова неједнакост, при чему је једнако нули ако и само ако је као мере. Конкретно, ако је и , онда је -скоро свуда. Ентропија стога поставља минималну вредност за унакрсну ентропију , очекивани број битова потребних када се користи код заснован на Q уместо P; и Кулбак—Лајблерова дивергенција стога представља очекивани број додатних битова који се морају пренети да би се идентификовала вредност x извучена из X, ако се користи код који одговара расподели вероватноће Q, уместо „праве” расподеле P.
  • Не постоји горња граница за општи случај. Међутим, показано је да ако су P и Q две дискретне расподеле вероватноће изграђене дистрибуцијом исте дискретне количине, онда се максимална вредност може израчунати.[27]
  • Релативна ентропија остаје добро дефинисана за непрекидне расподеле, и штавише, инваријантна је под трансформацијама параметара. На пример, ако се изврши трансформација из променљиве x у променљиву , онда, пошто је и где је апсолутна вредност извода или уопштеније Јакобијана, релативна ентропија се може преписати: где су и . Иако се претпостављало да је трансформација непрекидна, то не мора бити случај. Ово такође показује да релативна ентропија производи димензионално конзистентну количину, пошто ако је x димензионисана променљива, и су такође димензионисани, јер је нпр. бездимензионално. Аргумент логаритамског члана је и остаје бездимензионалан, као што и мора бити. Стога се може посматрати као у неким аспектима фундаменталнија количина од неких других својстава у теорији информација[28] (као што су сопствена информација или Шенонова ентропија), које могу постати недефинисане или негативне за недискретне вероватноће.
  • Релативна ентропија је адитивна за независне расподеле на сличан начин као Шенонова ентропија. Ако су независне расподеле, и , и слично за независне расподеле , онда
  • Релативна ентропија је конвексна у пару мера вероватноће , тј. ако су и два пара мера вероватноће онда
  • се може развити у Тејлоров ред око свог минимума (тј. ) као који конвергира ако и само ако скоро сигурно у односу на .

Означимо и приметимо да је . Први извод од се може извести и израчунати на следећи начин Даљи изводи се могу извести и израчунати на следећи начин Стога, решавањем за путем Тејлоровог развоја од око израчунатог у добија се с.с. је довољан услов за конвергенцију реда следећим аргументом апсолутне конвергенције с.с. је такође неопходан услов за конвергенцију реда следећим доказом контрадикцијом. Претпоставимо да је са мером строго већом од . Тада следи да морају постојати неке вредности , и такве да је и са мером . Претходни доказ довољности је показао да је компонента реда мере где је ограничена, па се морамо бавити само понашањем компоненте реда мере где је . Апсолутна вредност -тог члана ове компоненте реда је тада доње ограничена са , што је неограничено када , па ред дивергира.

Формула дуалности за варијационо закључивање

[уреди | уреди извор]

Следећи резултат, који дугујемо Донскеру и Варадану,[29] познат је као Донскерова и Вараданова варијациона формула.

Теорема [Формула дуалности за варијационо закључивање]

Нека је скуп опремљен одговарајућим -пољем , и две мере вероватноће P и Q, које формулишу два простора вероватноће и , са . ( означава да је Q апсолутно непрекидна у односу на P.) Нека је h реално-вредносна интеграбилна случајна променљива на . Тада важи следећа једнакост

Даље, супремум на десној страни се постиже ако и само ако важи

скоро сигурно у односу на меру вероватноће P, где означава Радон-Никодимов извод од Q у односу на P.

За кратак доказ под претпоставком интеграбилности у односу на P, нека има P-густину , тј. . Тада

Стога,

где последња неједнакост следи из , за коју једнакост важи ако и само ако . Закључак следи.

Мултиваријантне нормалне расподеле

[уреди | уреди извор]

Претпоставимо да имамо две мултиваријантне нормалне расподеле, са средњим вредностима и са (не-сингуларним) коваријанционим матрицама Ако две расподеле имају исту димензију, k, онда је релативна ентропија између расподела следећа:[30]

Логаритам у последњем члану мора бити са основом e пошто су сви чланови осим последњег логаритми са основом e израза који су или фактори функције густине или се на други начин природно појављују. Једначина стога даје резултат мерен у натима. Дељењем целог израза изнад са добија се дивергенција у битовима.

У нумеричкој имплементацији, корисно је изразити резултат у терминима Чолескијеве декомпозиције тако да је и . Тада са M и y као решењима троугаоних линеарних система и ,

Посебан случај, и честа количина у варијационом закључивању, јесте релативна ентропија између дијагоналне мултиваријантне нормалне и стандардне нормалне расподеле (са нултом средњом вредношћу и јединичном варијансом):

За две униваријантне нормалне расподеле p и q горње се поједностављује на[31]

У случају коцентрираних нормалних расподела са , ово се поједностављује[32] на:

Униформне расподеле

[уреди | уреди извор]

Размотримо две униформне расподеле, са подршком унутар (). Тада је добитак информација:

Интуитивно,[32] добитак информација за k пута ужу униформну расподелу садржи битова. Ово се повезује са употребом битова у рачунарству, где би битова било потребно да се идентификује један елемент из тока дужине k.

Експоненцијална фамилија

[уреди | уреди извор]

Експоненцијална фамилија расподела је дата са

где је референтна мера, је довољна статистика, су канонски природни параметри, а је логаритамска партициона функција.

КЛ дивергенција између две расподеле и је дата са[33]

где је средњи параметар од .

На пример, за Поасонову расподелу са средњом вредношћу , довољна статистика је , природни параметар , а логаритамска партициона функција . Као таква, дивергенција између две Поасонове расподеле са средњим вредностима и је

Као други пример, за нормалну расподелу са јединичном варијансом , довољна статистика је , природни параметар , а логаритамска партициона функција . Тако, дивергенција између две нормалне расподеле и је

Као последњи пример, дивергенција између нормалне расподеле са јединичном варијансом и Поасонове расподеле са средњом вредношћу је

Однос са метрикама

[уреди | уреди извор]

Иако је релативна ентропија статистичка раздаљина, она није метрика на простору расподела вероватноће, већ је то дивергенција.[4] Док су метрике симетричне и генерализују линеарну раздаљину, задовољавајући неједнакост троугла, дивергенције су уопштено асиметричне и генерализују квадратну раздаљину, у неким случајевима задовољавајући генерализовану Питагорину теорему. Уопштено није једнако , и док се ово може симетризовати (видети § Симетризована дивергенција), асиметрија је важан део геометрије.[4]

Она генерише топологију на простору расподела вероватноће. Конкретније, ако је низ расподела такав да

онда се каже да

Пинскерова неједнакост повлачи да

где последње означава уобичајену конвергенцију у тоталној варијацији.

Фишерова информациона метрика

[уреди | уреди извор]

Релативна ентропија је директно повезана са Фишеровом информационом метриком. Ово се може експлицитно приказати на следећи начин. Претпоставимо да су расподеле вероватноће P и Q обе параметризоване неким (могуће вишедимензионалним) параметром . Размотримо тада две блиске вредности и тако да се параметар разликује само за малу вредност од вредности параметра . Конкретно, до првог реда имамо (користећи Ајнштајнову конвенцију о сумирању)

са малом променом у j смеру, и одговарајућом стопом промене у расподели вероватноће. Пошто релативна ентропија има апсолутни минимум 0 за , тј. , она се мења само до другог реда у малим параметрима . Формалније, као за сваки минимум, први изводи дивергенције нестају

и по Тејлоровом развоју имамо до другог реда

где Хесијанова матрица дивергенције

мора бити позитивно семидефинитна. Допуштајући да варира (и испуштајући субиндекс 0) Хесијан дефинише (могуће дегенерисану) Риманову метрику на θ параметарском простору, названу Фишерова информациона метрика.

Теорема о Фишеровој информационој метрици

[уреди | уреди извор]

Када задовољава следеће услове регуларности:

постоје,

где је ξ независно од ρ

онда:

Варијација информације

[уреди | уреди извор]

Друга информационо-теоријска метрика је варијација информације, која је грубо симетризација условне ентропије. То је метрика на скупу партиција дискретног простора вероватноће.

MAUVE метрика

[уреди | уреди извор]

MAUVE је мера статистичког јаза између две дистрибуције текста, као што је разлика између текста генерисаног моделом и текста написаног од стране човека. Ова мера се израчунава коришћењем Кулбак—Лајблерових дивергенција између две дистрибуције у квантизованом простору уграђивања основног модела.

Однос са другим величинама теорије информација

[уреди | уреди извор]

Многе друге величине теорије информација могу се тумачити као примене релативне ентропије на специфичне случајеве.

Сопствена информација

[уреди | уреди извор]

Сопствена информација, такође позната као информациони садржај сигнала, случајне променљиве или догађаја, дефинише се као негативни логаритам вероватноће датог исхода.

Када се примени на дискретну случајну променљиву, сопствена информација се може представити као

је релативна ентропија расподеле вероватноће од Кронекерове делте која представља сигурност да је — тј. број додатних битова који се морају пренети да би се идентификовало i ако је пријемнику доступна само расподела вероватноће , а не чињеница да је .

Међусобна информација

[уреди | уреди извор]

Међусобна информација,

је релативна ентропија заједничке расподеле вероватноће од производа две маргиналне расподеле вероватноће — тј. очекивани број додатних битова који се морају пренети да би се идентификовали X и Y ако се кодирају користећи само њихове маргиналне расподеле уместо заједничке расподеле.

Шенонова ентропија

[уреди | уреди извор]

Шенонова ентропија,

је број битова који би требало пренети да би се идентификовао X из N једнако вероватних могућности, мање релативна ентропија униформне расподеле на случајним променљивим од X, , од праве расподеле — тј. мање очекивани број сачуваних битова, који би морали бити послати да је вредност X кодирана према униформној расподели уместо праве расподеле . Ова дефиниција Шенонове ентропије чини основу алтернативне генерализације Е. Т. Џејнса на непрекидне расподеле, гранична густина дискретних тачака (за разлику од уобичајене диференцијалне ентропије), која дефинише континуалну ентропију као што је еквивалентно са:

Условна ентропија

[уреди | уреди извор]

Условна ентропија[34],

је број битова који би требало пренети да би се идентификовао X из N једнако вероватних могућности, мање релативна ентропија праве заједничке расподеле од производне расподеле — тј. мање очекивани број сачуваних битова који би морали бити послати да је вредност X кодирана према униформној расподели уместо условне расподеле од X датог Y.

Унакрсна ентропија

[уреди | уреди извор]

Када имамо скуп могућих догађаја, који долазе из расподеле p, можемо их кодирати (са компресијом података без губитака) користећи ентропијско кодирање. Ово компримује податке заменом сваког улазног симбола фиксне дужине одговарајућим јединственим, променљиве дужине, префикс-слободним кодом (нпр.: догађаји (A, B, C) са вероватноћама p = (1/2, 1/4, 1/4) могу се кодирати као битови (0, 10, 11)). Ако унапред познајемо расподелу p, можемо осмислити кодирање које би било оптимално (нпр.: коришћењем Хафмановог кодирања). То значи да ће поруке које кодирамо имати најкраћу дужину у просеку (под претпоставком да су кодирани догађаји узорковани из p), што ће бити једнако Шеноновој ентропији од p (означено као ). Међутим, ако користимо другачију расподелу вероватноће (q) приликом креирања шеме ентропијског кодирања, онда ће се користити већи број битова (у просеку) за идентификацију догађаја из скупа могућности. Овај нови (већи) број се мери унакрсном ентропијом између p и q.

Унакрсна ентропија између две расподеле вероватноће (p и q) мери просечан број битова потребних за идентификацију догађаја из скупа могућности, ако се користи шема кодирања заснована на датој расподели вероватноће q, уместо „праве” расподеле p. Унакрсна ентропија за две расподеле p и q над истим простором вероватноће се стога дефинише на следећи начин.

За експлицитно извођење овога, погледајте одељак Мотивација изнад.

У овом сценарију, релативне ентропије (кл-дивергенција) се могу тумачити као додатни број битова, у просеку, који су потребни (преко ) за кодирање догађаја због коришћења q за конструкцију шеме кодирања уместо p.

Бајесово ажурирање

[уреди | уреди извор]

У Бајесовој статистици, релативна ентропија се може користити као мера добитка информација при преласку са априорне расподеле на апостериорну расподелу: . Ако се открије нека нова чињеница , она се може користити за ажурирање апостериорне расподеле за X од до нове апостериорне расподеле коришћењем Бајесове теореме:

Ова расподела има нову ентропију:

која може бити мања или већа од оригиналне ентропије . Међутим, са становишта нове расподеле вероватноће може се проценити да би коришћење оригиналног кода заснованог на уместо новог кода заснованог на додало очекивани број битова:

на дужину поруке. Ово стога представља количину корисних информација, или добитка информација, о X, која је научена откривањем .

Ако накнадно стигне још један податак, , расподела вероватноће за x се може даље ажурирати, дајући нову најбољу претпоставку . Ако се поново истражи добитак информација за коришћење уместо , испоставља се да он може бити или већи или мањи од претходно процењеног:

може бити ≤ или > од

и тако комбиновани добитак информација не поштује неједнакост троугла:

може бити <, = или > од

Све што се може рећи је да ће се у просеку, узимајући просек коришћењем , две стране изједначити.

Бајесов експериментални дизајн

[уреди | уреди извор]

Уобичајени циљ у Бајесовом експерименталном дизајну је максимизација очекиване релативне ентропије између априорне и апостериорне расподеле.[35] Када се апостериорне расподеле апроксимирају као Гаусове расподеле, дизајн који максимизује очекивану релативну ентропију назива се Бајесов д-оптималан.

Дискриминациона информација

[уреди | уреди извор]

Релативна ентропија се такође може тумачити као очекивана дискриминациона информација за у односу на : средња информација по узорку за дискриминацију у корист хипотезе против хипотезе , када је хипотеза тачна.[36] Други назив за ову количину, који јој је дао И. Џ. Гуд, је очекивана тежина доказа за у односу на која се очекује од сваког узорка.

Очекивана тежина доказа за у односу на није исто што и добитак информација који се очекује по узорку о расподели вероватноће хипотеза,

Било која од ове две величине може се користити као функција корисности у Бајесовом експерименталном дизајну, за избор оптималног следећег питања за истраживање: али ће оне уопштено довести до прилично различитих експерименталних стратегија.

На скали ентропије добитka информација постоји врло мала разлика између скоро сигурности и апсолутне сигурности — кодирање према скоро сигурности захтева једва нешто више битова од кодирања према апсолутној сигурности. С друге стране, на логит скали коју имплицира тежина доказа, разлика између ове две је огромна – можда бесконачна; ово би могло одражавати разлику између тога да сте скоро сигурни (на вероватносном нивоу) да је, рецимо, Риманова хипотеза тачна, у поређењу са тим да сте сигурни да је тачна јер имате математички доказ. Ове две различите скале функција губитка за несигурност су обе корисне, у зависности од тога колико добро свака одражава специфичне околности проблема у питању.

Принцип минималне дискриминационе информације

[уреди | уреди извор]

Идеја релативне ентропије као дискриминационе информације навела је Кулбака да предложи Принцип Минималне дискриминационе информације (MDI): с обзиром на нове чињенице, треба изабрати нову расподелу f коју је што теже разликовати од оригиналне расподеле ; тако да нови подаци производе што мањи добитак информација .

На пример, ако бисмо имали априорну расподелу над x и a, а накнадно сазнали да је права расподела a била , онда би релативна ентропија између нове заједничке расподеле за x и a, , и раније априорне расподеле била:

тј. збир релативне ентропије , априорне расподеле за a, од ажуриране расподеле , плус очекивана вредност (користећи расподелу вероватноће ) релативне ентропије априорне условне расподеле од нове условне расподеле . (Приметите да се често каснија очекивана вредност назива условном релативном ентропијом (или условном Кулбак—Лајблеровом дивергенцијом) и означава са [3][34]) Ово се минимизује ако је над целом подршком ; и примећујемо да овај резултат укључује Бајесову теорему, ако је нова расподела заправо δ функција која представља сигурност да a има једну одређену вредност.

MDI се може посматрати као проширење Лапласовог Принципа недовољног разлога и Принципа максималне ентропије Е. Т. Џејнса. Посебно, то је природно проширење принципа максималне ентропије са дискретних на континуалне расподеле, за које Шенонова ентропија престаје да буде толико корисна (видети диференцијална ентропија), али релативна ентропија наставља да буде једнако релевантна.

У инжењерској литератури, MDI се понекад назива Принцип минималне унакрсне ентропије (MCE) или скраћено Minxent. Минимизовање релативне ентропије од m до p у односу на m је еквивалентно минимизовању унакрсне ентропије p и m, пошто је

што је прикладно ако се покушава изабрати адекватна апроксимација за p. Међутим, ово често није задатак који се покушава постићи. Уместо тога, једнако често је m нека фиксна априорна референтна мера, а p је оно што се покушава оптимизовати минимизовањем под неким ограничењем. Ово је довело до одређене двосмислености у литератури, при чему неки аутори покушавају да реше недоследност редефинисањем унакрсне ентропије као , уместо .

Однос са расположивим радом

[уреди | уреди извор]
График притиска у односу на запремину расположивог рада из мола гаса аргона у односу на околину, израчунат као пута Кулбак—Лајблерова дивергенција

Изненађења[37] се сабирају тамо где се вероватноће множе. Изненађење за догађај вероватноће p дефинише се као . Ако је k , онда је изненађење у натима, битовима, или тако да, на пример, има N битова изненађења за добијање свих „глава” при бацању N новчића. Најбоља претпостављена стања (нпр. за атоме у гасу) се закључују максимизирањем просечног изненађења S (ентропија) за дати скуп контролних параметара (као што су притисак P или запремина V). Ова ограничена максимизација ентропије, како класично[38] тако и квантно механички,[39] минимизује Гибсову доступност у јединицама ентропије[40] где је Z ограничена мултиплицитност или партициона функција.

Када је температура T фиксна, слободна енергија () се такође минимизује. Тако, ако су и број молекула N константни, Хелмхолцова слободна енергија (где је U енергија, а S ентропија) се минимизује док се систем „уравнотежује”. Ако се T и P држе константним (рецимо током процеса у вашем телу), Гибсова слободна енергија се уместо тога минимизује. Промена слободне енергије под овим условима је мера расположивог рада који би се могао извршити у процесу. Тако је расположиви рад за идеални гас на константној температури и притиску где је и (видети такође Гибсова неједнакост).

Уопштеније[41] рад доступан у односу на неку околину добија се множењем температуре околине са релативном ентропијом или нето изненађењем дефинисаним као просечна вредност где је вероватноћа датог стања под условима околине. На пример, рад доступан при уравнотежењу моноатомског идеалног гаса на вредности околине и је стога , где је релативна ентропија

Резултујуће контуре константне релативне ентропије, приказане десно за мол Аргона на стандардној температури и притиску, на пример, постављају границе на претварање топлог у хладно као у климатизацији на пламен или у неуправљаном уређају за претварање кључале воде у ледену воду овде разматраном.[42] Тако релативна ентропија мери термодинамичку доступност у битовима.

Квантна теорија информација

[уреди | уреди извор]

За матрице густине P и Q на Хилбертовом простору, квантна релативна ентропија од Q до P се дефинише као

У квантној информационој науци минимум над свим сепарабилним стањима Q се такође може користити као мера уплетености у стању P.

Однос између модела и стварности

[уреди | уреди извор]

Као што релативна ентропија „стварног од амбијенталног” мери термодинамичку доступност, релативна ентропија „стварности од модела” је такође корисна чак и ако су једини трагови које имамо о стварности неки експериментални подаци. У првом случају, релативна ентропија описује удаљеност до равнотеже или (када се помножи са температуром околине) количину расположивог рада, док у другом случају говори о изненађењима која стварност има у рукаву, или другим речима, колико модел још мора да научи.

Иако се овај алат за процену модела у односу на системе који су експериментално доступни може применити у било којој области, његова примена на избор статистичког модела путем Акаикеовог информационог критеријума је посебно добро описана у радовима[43] и књизи[44] Бернама и Андерсона. Укратко, релативна ентропија стварности од модела може се проценити, до на константни адитивни члан, функцијом одступања уочених између података и предвиђања модела (као што је средње квадратно одступање). Процене такве дивергенције за моделе који деле исти адитивни члан могу се заузврат користити за избор између модела.

При покушају уклапања параметризованих модела у податке постоје различити проценитељи који покушавају да минимизују релативну ентропију, као што су проценитељи максималне веродостојности и максималног размака.

Симетризована дивергенција

[уреди | уреди извор]

Kullback & Leibler (1951) су такође разматрали симетризовану функцију:[6]

коју су називали „дивергенцијом”, иако се данас „КЛ дивергенција” односи на асиметричну функцију (видети § Етимологија за еволуцију термина). Ова функција је симетрична и ненегативна, а већ ју је дефинисао и користио Харолд Џефриз 1948. године;[7] сходно томе, назива се Џефризова дивергенција.

Ова величина се понекад користила за избор обележја у проблемима класификације, где су P и Q условне функције густине вероватноће обележја под две различите класе. У банкарској и финансијској индустрији, ова величина се назива Индекс стабилности популације (PSI), и користи се за процену дистрибуционих померања у обележјима модела током времена.

Алтернатива је дата преко -дивергенције,

што се може тумачити као очекивани добитак информација о X из откривања из које расподеле вероватноће је X извучен, P или Q, ако тренутно имају вероватноће и респективно.

Вредност даје Јенсен—Шенонову дивергенцију, дефинисану са

где је M просек две дистрибуције,

Такође можемо тумачити као капацитет бучног информационог канала са два улаза који дају излазне расподеле P и Q. Јенсен—Шенонова дивергенција, као и све f-дивергенције, је локално пропорционална Фишеровој информационој метрици. Слична је Хелингеровој метрици (у смислу да индукује исту афину везу на статистичкој многострукости).

Штавише, Јенсен—Шенонова дивергенција се може генерализовати коришћењем апстрактних статистичких М-мешавина ослањајући се на апстрактну средину М.[45][46]

Однос са другим мерама вероватносне раздаљине

[уреди | уреди извор]

Постоје многе друге важне мере вероватносне раздаљине. Неке од њих су посебно повезане са релативном ентропијом. На пример:

  • Раздаљина тоталне варијације, . Ово је повезано са дивергенцијом путем Пинскерове неједнакости: Пинскерова неједнакост је празна за било које расподеле где је , пошто је раздаљина тоталне варијације највише 1. За такве расподеле, може се користити алтернативна граница, захваљујући Бретањолу и Хуберу[47] (видети, такође, Цибаков[48]):
  • Породица Рењијевих дивергенција генерализује релативну ентропију. У зависности од вредности одређеног параметра, , могу се извести различите неједнакости.

Друге значајне мере раздаљине укључују Хелингерову раздаљину, пресек хистограма, хи-квадрат статистику, раздаљину квадратне форме, раздаљину поклапања, Колмогоров—Смирнов раздаљину, и раздаљину земљопомерача.[49]

Разликовање података

[уреди | уреди извор]

Као што апсолутна ентропија служи као теоријска основа за компресију података, релативна ентропија служи као теоријска основа за разликовање података – апсолутна ентропија скупа података у овом смислу је податак потребан за његову реконструкцију (минимална компримована величина), док је релативна ентропија циљног скупа података, с обзиром на изворни скуп података, податак потребан за реконструкцију циља с обзиром на извор (минимална величина печа).

Референце

[уреди | уреди извор]
  1. ^ а б Csiszar, I (фебруар 1975). „I-Divergence Geometry of Probability Distributions and Minimization Problems”. Ann. Probab. 3 (1): 146—158. doi:10.1214/aop/1176996454Слободан приступ. 
  2. ^ Kullback, S.; Leibler, R.A. (1951). „On information and sufficiency”. Annals of Mathematical Statistics. 22 (1): 79—86. JSTOR 2236703. MR 39968. doi:10.1214/aoms/1177729694Слободан приступ. 
  3. ^ а б в Kullback 1959.
  4. ^ а б в г д Amari 2016, стр. 11.
  5. ^ а б Amari 2016, стр. 28.
  6. ^ а б Kullback & Leibler 1951, стр. 80.
  7. ^ а б Jeffreys 1948, стр. 158.
  8. ^ Kullback 1959, стр. 7.
  9. ^ Kullback, S. (1987). „Letter to the Editor: The Kullback–Leibler distance”. The American Statistician. 41 (4): 340—341. JSTOR 2684769. doi:10.1080/00031305.1987.10475510. 
  10. ^ Kullback 1959, стр. 6.
  11. ^ MacKay, David J.C. (2003). Information Theory, Inference, and Learning Algorithms (1st изд.). Cambridge University Press. ISBN 9780521642989 — преко Google Books. 
  12. ^ „What's the maximum value of Kullback-Leibler (KL) divergence?”. Machine learning. Statistics Stack Exchange (stats.stackexchange.com). Cross validated. 
  13. ^ „In what situations is the integral equal to infinity?”. Integration. Mathematics Stack Exchange (math.stackexchange.com). 
  14. ^ Bishop, Christopher M. Pattern recognition and machine learning. стр. 55. OCLC 1334664824. 
  15. ^ Kullback 1959, стр. 5.
  16. ^ Burnham, K. P.; Anderson, D. R. (2002). Model Selection and Multi-Model InferenceНеопходна слободна регистрација (2nd изд.). Springer. стр. 51. ISBN 9780387953649. 
  17. ^ Abdulkadirov, Ruslan; Lyakhov, Pavel; Nagornov, Nikolay (јануар 2023). „Survey of Optimization Algorithms in Modern Neural Networks”. Mathematics (на језику: енглески). 11 (11): 2466. ISSN 2227-7390. doi:10.3390/math11112466Слободан приступ. 
  18. ^ Matassa, Marco (децембар 2021). „Fubini-Study metrics and Levi-Civita connections on quantum projective spaces”. Advances in Mathematics. 393: 108101. ISSN 0001-8708. arXiv:2010.03291Слободан приступ. doi:10.1016/j.aim.2021.108101. 
  19. ^ Lan, Guanghui (март 2023). „Policy mirror descent for reinforcement learning: linear convergence, new sampling complexity, and generalized problem classes”. Mathematical Programming (на језику: енглески). 198 (1): 1059—1106. ISSN 1436-4646. arXiv:2102.00135Слободан приступ. doi:10.1007/s10107-022-01816-5. 
  20. ^ Kelly, J. L. Jr. (1956). „A New Interpretation of Information Rate”. Bell Syst. Tech. J. 2 (4): 917—926. doi:10.1002/j.1538-7305.1956.tb03809.x. 
  21. ^ Soklakov, A. N. (2020). „Economics of Disagreement—Financial Intuition for the Rényi Divergence”. Entropy. 22 (8): 860. Bibcode:2020Entrp..22..860S. PMC 7517462Слободан приступ. PMID 33286632. arXiv:1811.08308Слободан приступ. doi:10.3390/e22080860Слободан приступ. 
  22. ^ Soklakov, A. N. (2023). „Information Geometry of Risks and Returns”. Risk. June. SSRN 4134885Слободан приступ. 
  23. ^ Henide, Karim (30. 9. 2024). „Flow Rider: Tradable Ecosystems' Relative Entropy of Flows As a Determinant of Relative Value”. The Journal of Investing. 33 (6): 34—58. doi:10.3905/joi.2024.1.321. 
  24. ^ Sanov, I.N. (1957). „On the probability of large deviations of random magnitudes”. Mat. Sbornik. 42 (84): 11—44. 
  25. ^ Novak S.Y. (2011), Extreme Value Methods with Applications to Finance ch. 14.5 (Chapman & Hall). ISBN 978-1-4398-3574-6.
  26. ^ Hobson, Arthur (1971). Concepts in statistical mechanics. New York: Gordon and Breach. ISBN 978-0677032405. 
  27. ^ Bonnici, V. (2020). „Kullback-Leibler divergence between quantum distributions, and its upper-bound”. arXiv:2008.05932Слободан приступ [cs.LG]. 
  28. ^ Погледајте одељак „диференцијална ентропија – 4” у видео предавању Relative Entropy Серхиа Вердуа на NIPS 2009.
  29. ^ Donsker, Monroe D.; Varadhan, SR Srinivasa (1983). „Asymptotic evaluation of certain Markov process expectations for large time. IV.”. Communications on Pure and Applied Mathematics. 36 (2): 183—212. doi:10.1002/cpa.3160360204. 
  30. ^ Duchi J. „Derivations for Linear Algebra and Optimization” (PDF). стр. 13. 
  31. ^ Belov, Dmitry I.; Armstrong, Ronald D. (2011-04-15). „Distributions of the Kullback-Leibler divergence with applications”Неопходна новчана претплата. British Journal of Mathematical and Statistical Psychology. 64 (2): 291—309. ISSN 0007-1102. PMID 21492134. doi:10.1348/000711010x522227. 
  32. ^ а б Buchner, Johannes (2022-04-29). An intuition for physicists: information gain from experiments. OCLC 1363563215. 
  33. ^ Nielsen, Frank; Garcia, Vincent (2011). „Statistical exponential families: A digest with flash cards”. arXiv:0911.4863Слободан приступ [cs.LG]. 
  34. ^ а б Cover, Thomas M.; Thomas, Joy A. (1991), Elements of Information Theory [Елементи теорије информација], John Wiley & Sons, стр. 22 
  35. ^ Chaloner, K.; Verdinelli, I. (1995). „Bayesian experimental design: a review”. Statistical Science. 10 (3): 273—304. doi:10.1214/ss/1177009939Слободан приступ. hdl:11299/199630Слободан приступ. 
  36. ^ Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P. (2007). „Section 14.7.2. Kullback–Leibler Distance”. Numerical Recipes: The Art of Scientific Computing [Нумерички рецепти: Уметност научног рачунања] (3rd изд.). Cambridge University Press. ISBN 978-0-521-88068-8. 
  37. ^ Tribus, Myron (1959). Thermostatics and Thermodynamics: An Introduction to Energy, Information and States of Matter, with Engineering Applications [Термостатика и термодинамика: Увод у енергију, информације и стања материје, са инжењерским применама] (на језику: енглески). Van Nostrand. 
  38. ^ Jaynes, E. T. (1957). „Information theory and statistical mechanics” (PDF). Physical Review. 106 (4): 620—630. Bibcode:1957PhRv..106..620J. S2CID 17870175. doi:10.1103/physrev.106.620. 
  39. ^ Jaynes, E. T. (1957). „Information theory and statistical mechanics II” (PDF). Physical Review. 108 (2): 171—190. Bibcode:1957PhRv..108..171J. doi:10.1103/physrev.108.171. 
  40. ^ Gibbs, Josiah Willard (1871). A Method of Geometrical Representation of the Thermodynamic Properties of Substances by Means of Surfaces [Метод геометријског представљања термодинамичких својстава супстанци помоћу површина] (на језику: енглески). The Academy.  фуснота страна 52.
  41. ^ Tribus, M.; McIrvine, E. C. (1971). „Energy and information”. Scientific American. 224 (3): 179—186. Bibcode:1971SciAm.225c.179T. doi:10.1038/scientificamerican0971-179. 
  42. ^ Fraundorf, P. (2007). „Thermal roots of correlation-based complexity”. Complexity. 13 (3): 18—26. Bibcode:2008Cmplx..13c..18F. S2CID 20794688. arXiv:1103.2481Слободан приступ. doi:10.1002/cplx.20195. Архивирано из оригинала 2011-08-13. г. 
  43. ^ Burnham, K.P.; Anderson, D.R. (2001). „Kullback–Leibler information as a basis for strong inference in ecological studies”. Wildlife Research. 28 (2): 111—119. doi:10.1071/WR99107Слободан приступ. 
  44. ^ Burnham, Kenneth P. (децембар 2010). Model selection and multimodel inference : a practical information-theoretic approach [Избор модела и закључивање на основу више модела: практичан информационо-теоријски приступ]. Springer. ISBN 978-1-4419-2973-0. OCLC 878132909. 
  45. ^ Nielsen, Frank (2019). „On the Jensen–Shannon Symmetrization of Distances Relying on Abstract Means”. Entropy. 21 (5): 485. Bibcode:2019Entrp..21..485N. PMC 7514974Слободан приступ. PMID 33267199. arXiv:1904.04017Слободан приступ. doi:10.3390/e21050485Слободан приступ. 
  46. ^ Nielsen, Frank (2020). „On a Generalization of the Jensen–Shannon Divergence and the Jensen–Shannon Centroid”. Entropy. 22 (2): 221. Bibcode:2020Entrp..22..221N. PMC 7516653Слободан приступ. PMID 33285995. arXiv:1912.00610Слободан приступ. doi:10.3390/e22020221Слободан приступ. 
  47. ^ Bretagnolle, J.; Huber, C. (1978), „Estimation des densités : Risque minimax”, Séminaire de Probabilités XIIНеопходна новчана претплата, Lecture Notes in Mathematics (на језику: француски), 649, Berlin, Heidelberg: Springer Berlin Heidelberg, стр. 342—363, ISBN 978-3-540-08761-8, S2CID 122597694, doi:10.1007/bfb0064610, Приступљено 14. 2. 2023  Lemma 2.1
  48. ^ B.), Tsybakov, A. B. (Alexandre (2010). Introduction to nonparametric estimation [Увод у непараметарску процену]. Springer. ISBN 978-1-4419-2709-5. OCLC 757859245.  Equation 2.25.
  49. ^ Rubner, Y.; Tomasi, C.; Guibas, L. J. (2000). „The earth mover's distance as a metric for image retrieval”. International Journal of Computer Vision. 40 (2): 99—121. S2CID 14106275. doi:10.1023/A:1026543900054. 

Литература

[уреди | уреди извор]
  • Amari, Shun-ichi (2016). Information Geometry and Its Applications [Информациона геометрија и њене примене]. Applied Mathematical Sciences. 194. Springer Japan. стр. XIII, 374. ISBN 978-4-431-55977-1. doi:10.1007/978-4-431-55978-8. 
  • Kullback, Solomon (1959), Information Theory and Statistics [Теорија информација и статистика], John Wiley & Sons . Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9.
  • Jeffreys, Harold (1948). Theory of Probability [Теорија вероватноће] (Second изд.). Oxford University Press. 

Спољашње везе

[уреди | уреди извор]