Фактор локалних необичних вредности

С Википедије, слободне енциклопедије

Фактор локалних необичних вредности (енгл. Local outlier factor, ЛОФ, фактор локалних аутлајера) је алгоритам детекција аномалија презентован у "ЛОФ: Идентифyинг Денситy-басед Лоцал Оутлиерс" бy Маркус M. Бреуниг, Ханс-Петер Криегел, Раyмонд Т. Нг анд Јöрг Сандер.[1] Идеја ЛОФ-а је поређење локалне густине тачке комшилука са локалном густином својих комшија. ЛОФ дели део концепта са ДБСЦАН и ОПТИЦС као сто је концепт „даљина језгра“ и „достижност дистанце“, који се користе за процену локалне густине.

Главна идеја[уреди | уреди извор]

Главна идеја ЛОФ: поређење локалне густине једне тачке са густинама својих комшија. А има доста мању густину него његове комшије.

Као што је наведено у наслову локални оутлиер фактор је базиран на концепту локалне густине, где је локалитет задан са најближих комшија чија је дистанца коришћена да се процени густина. Поређењем локалне густине објекта са локалним густинама својих комшија мозе идентификовати регију сличних густина и тачке које имају битно мању густину него комшије. Оне се сматрају оутлиер-има. Локална густина се процењује дистанцом са које једна тачка мозе бити „дохваћена“ од свог комшије.

Формално[уреди | уреди извор]

Ако је дистанца објекта од к најближег комшије. Запазите да комплет „К“ најближих комшија укључује све објекте на овој дистанци, који могу бити више од „К“ објеката. Означавамо овај комплет „К“ најближим комшијама као .

Илустрација достизања дистанце. Објекти „Б“ и „Ц“ имају исту достижну дистанцу (к=3), док „Д“ не постане „к“ најближи комсија

Ова дистанца је коришћена да се дефинише „достизност дистанце“: У речима, „достизност дистанце“ објекта ’’из’’ јесте права дистанца два објекта, али најмање из . Објекти који припадају к најближем комшији из (језгро , види ДБСЦАН цлустер анализа) су узете у разматрање да буду једнако удаљене. Разлог за ову дистанцу је да се добију стабилнији резултати. Запазите да ово није дистанца у математичкој дефиницији јер није симетрична.

Достизност локалне густине објекта је дефинисано са Који је количник просечне достизности дистанце објекта „од“ својих комшија. Запазите да то није просечна достизност комшија од (који по дефиницији су ), али дистанца на којој могу бити „достигнути“ „од“ својих комшија. Локалне достизне густине се онда упоређују са онима које комшије користе Који је „просек локалних густина својих комшија“ подељен са објектом локалне густине. Вредност приближно индицира да је објекат упоредив са својим комшијама. Вредност испод индицира гушћу регију а вредност знацајно веца од индицира аутлајер.

Предности[уреди | уреди извор]

Док је геометријска интуиција ЛОФ-а применљива само на векторске просторе малих димензија, алгоритам се може применити у било ком контексту различитости функције. Експериментално је показано да ради веома добро, често побеђујуци опоненте као нпр. нетwорк интрусион детецтион.[2]

Недостаци[уреди | уреди извор]

Резултујуће вредности су колицничке вредности и тешке за интерпретацију. Вредност од 1 или мање индицира чисти инлајер, али нема правила када је тачка аутлајер. У једном сету података, вредност 1.1 мозе вец бити аутлајер, у другом сету података и параметара вредност 2 мозе бити инлајер. Ове разлике се могу десити у сету података због локалне методе. Постоји продужење ЛОФ-а које може побољшати ЛОФ у овим аспектима:

  • Феатуре Баггинг фор Оутлиер Детецтион [3] пушта ЛОФ да ради висеструке пројекције и комбинује резултат за побољшану детекцију квалитета у великим димензијама.
  • Лоцал Оутлиер Пробабилитy (ЛоОП)[4] је метод изведен из ЛОФ-а али користи јефтине локалне статистике да би постао мање осетљив на избор параметра „К“.
  • Интерпретинг анд Унифyинг Оутлиер Сцорес [5] предлазе нормализацију ЛОФ аутлајер скора на интервалу користећи статистицко скалирање да би се повећала употребљивост и мозе се срести као побољшања верзија ЛоОП идеје.
  • Он Евалуатион оф Оутлиер Ранкингс анд Оутлиер Сцорес [6] предлаже методу за мерење сличности и разноврсности метода за грађење напредних аутлајер детекција користеци ЛОФ варијације и друге алгоритме.

Референце[уреди | уреди извор]

  1. ^ Бреуниг, M. M.; Криегел, Х. -П.; Нг, Р. Т.; Сандер, Ј. (2000). „ЛОФ: Идентифyинг Денситy-басед Лоцал Оутлиерс” (ПДФ). АЦМ СИГМОД Рецорд. 29: 93. дои:10.1145/335191.335388. 
  2. ^ Ар Лазаревиц, Аyсел Озгур, Левент Ертоз, Јаидееп Сривастава, Випин Кумар (2003). „А цомпаративе студy оф аномалy детецтион сцхемес ин нетwорк интрусион детецтион” (ПДФ). Проц. 3рд СИАМ Интернатионал Цонференце он Дата Мининг: 25—36. Архивирано из оригинала (ПДФ) 17. 07. 2013. г. Приступљено 27. 05. 2013. 
  3. ^ Лазаревиц, А.; Кумар, V. (2005). „Феатуре баггинг фор оутлиер детецтион”. Проц. 11тх АЦМ СИГКДД интернатионал цонференце он Кноwледге Дисцоверy ин Дата Мининг: 157—166. дои:10.1145/1081870.1081891. 
  4. ^ Криегел, Х. -П.; Крöгер, П.; Сцхуберт, Е.; Зимек, А. (2009). „ЛоОП: Лоцал Оутлиер Пробабилитиес” (ПДФ). Проц. 18тх АЦМ Цонференце он Информатион анд Кноwледге Манагемент (ЦИКМ): 1649. дои:10.1145/1645953.1646195. 
  5. ^ Ханс-Петер Криегел, Пеер Крöгер, Ерицх Сцхуберт, Артхур Зимек (2011). „Интерпретинг анд Унифyинг Оутлиер Сцорес” (ПДФ). Проц. 11тх СИАМ Интернатионал Цонференце он Дата Мининг. Архивирано из оригинала (ПДФ) 22. 01. 2015. г. Приступљено 27. 05. 2013. 
  6. ^ Ерицх Сцхуберт, Ремигиус Wојданоwски, Ханс-Петер Криегел, Артхур Зимек (2012). „Он Евалуатион оф Оутлиер Ранкингс анд Оутлиер Сцорес” (ПДФ). Проц. 12 СИАМ Интернатионал Цонференце он Дата Мининг. Архивирано из оригинала (ПДФ) 22. 01. 2015. г. Приступљено 27. 05. 2013.