Истраживање података

Из Википедије, слободне енциклопедије
Иди на навигацију Иди на претрагу

Истраживање података (енгл. Дата Мининг, користе се и термини тражење података, прекопавање података, рударење података, дејта мајнинг) је процес откривања шаблона у великим скуповима података, коришћењем метода машинског учења, статистике и система база података.[1] Истраживање података представља интердисциплинарну подобласт информатике и статистике, чији је општи циљ извлачење информација (коришћењем интелигентних метода) из скупова података и трансформација тих информација у разумљиву структуру ради даље употребе.[1][2][3][4] Представља корак анализе у процесу "откривања знања у базама података" (енгл. кноwледге дисцоверy ин датабасес, КДД).[5] Поред самог корака анализе, такође укључује и аспекте управљања подацима и базама података, претпроцесирања података, разматрања статистичких модела и закључака, метрика занимљивости, разматрања сложености, постпроцесирања откривених структура, визуелизације и онлајн ажурирања.[1] Разлика између анализе и истраживање података лежи у томе што се анализа података користи да би се статистички модели и хипотезе тестирали на скупу података, нпр. приликом анализе ефикасности маркетиншке кампање, невезано од количине података. За разлику од тога, истраживање података користи машинско учење и статистичке моделе да открије тајне или скривене шаблоне у великим количинама података.[6]

Термин "истраживање података" је заправо погрешан, јер је циљ истраживања извлачење шаблона и знања из великих количина података, а не извлачење (рударење) самих података.[7] Такође представља жаргонску фразу[8] која се често приписује било ком виду обимне обраде података или информација (прикупљању, извлачењу, складиштењу, анализи и статистици) као и било којој примени рачунарских система за подршку одлучивању, укључујући и вештачку интелигенцију (нпр. машинско учење) и пословну интелигенцију. Књига Дата мининг: Працтицал мацхине леарнинг тоолс анд тецхниqуес wитх Јава[9] (која већински покрива теме машинског учења) је првенствено требало да буде названа Працтицал мацхине леарнинг, док је термин истраживање података (енгл. дата мининг) додат искључиво из маркетиншких разлога.[10] Често су прикладнији општији термини (великих размера) као што су анализа података и аналитика или, уколико се прича о стварним методама, вештачка интелигенција и машинско учење.

Стваран задатак истраживања података јесте полуаутоматска или аутоматска анализа велике количине података како би се извукли претходно непознати, занимљиви шаблони као што су групе записа података (анализа кластера), необични записи (откривање неправилности) и зависности (истраживање правилом асоцијације, истраживање секвенцијалних шаблона). То обично укључује коришћење техника база података као што су просторни индекси. Ови шаблони се онда могу посматрати као врста кратког прегледа улазних података и могу се користити за даљу анализу или, на пример, за машинско учење и предиктивну аналитику. Корак истраживања података може, на пример, открити више група међу подацима, које се онда могу користити како би се добиле прецизније прогнозе резултата коришћењем система за подршку одлучивању. Прикупљање и припрема података, као и тумачење резултата и извештавање, нису део корака истраживања података, али као додатни кораци припадају КДД процесу.

Повезани појмови копање података, пецање за подацима и њушкање за подацима односе се на примену метода истраживања података да би се узорковали делови веће популације скупова података који су (или би могли бити) премали да се на основу њих дође до поузданих статистичких закључака о оправданости откривених шаблона. Ове методе се, ипак, могу користити приликом стварања нових хипотеза које би се користиле за тестирање на већим популацијама података.

Етимологија[уреди]

Током 1960-их, статистичари и економисти су користили изразе попут пецање података или копање података који су се односили на оно што су они сматрали лошом праксом анализирања података без априори хипотезе. Економиста Мајкл Ловл (енгл. Мицхаел Ловелл) израз "истраживање података" користи на слично кључан начин у чланку објављеном у Прегледу економских наука (енгл. Ревиеw оф Ецономиц Студиес) 1983. Ловл указује да се истраживање података "скрива под више различитих алијаса од "експериментисање" (позитивно) до "пецање" или пак "њушкање"(негативно)."[11]

Израз истраживање података се појавио око 1990. у заједници која се бавила базама података које раде са базама података, углавном са позитивном конотацијом. Краткорочно током 1980-их се користио израз "истраживање база података"™, али након што га је ХНЦ, компанија из Сан Дијега, заштитила како би представила Датабасе Мининг Wоркстатион;[12] истраживачи су се стога окренули изразу истраживање података. Други коришћени изрази укључују археологија података, скупљање информација, откривање информација, извлачење знања, итд. Грегори Пјатецки Шапиро (енгл. Грегорy Пиатетскy-Схапиро) је осмислио израз "откривање знања у базама података" за прву радионицу (КДД-1989) на исту тему и овај израз је постао популарнији у заједници вештачке интелигенције и машинског учења. Међутим, израз истраживање података је постао популарнији у новинарским и пословним заједницама.[13] Тренутно, изрази истраживање података и откривање знања могу да се користе разменљиво.

У академској заједници, главни форуми за истраживање су започети 1995. када је Прва интернационална конференција о истраживању података и откривању знања (КДД-95) основана у Монтреалу под покрићем АААИ. Коорганизатори су били Усама Фајад и Рамсами Утурусами. Годину дана касније, 1996. Усама Фајад је основао Клуверов часопис који се звао Истраживање Података и Откривање Знања (енгл. Дата Мининг анд Кноwледге Дисцоверy) као главни уредник. Касније је покренуо СИГКДД претплату на часопис СИГКДД истраживања (енгл. СИГКДД Еxплоратионс) .[14] КДД Интернационална конференција је постала примарно најквалитетнија конференција у области истраживања података са стопом прихватања предлога научних радова испод 18%. Часопис Истраживање података и откривање знања (енгл. Дата Мининг анд Кноwледге Дисцоверy) је примарни истраживачки часопис у овој области.

Историја[уреди]

Вековима су се шаблони ручно извлачили из података. Ране методе препознавања шаблона у подацима укључују Бајесову теорему (1700-те год.) и регресиону анализу (1800-те год.). Ширење, свеприсутност и растућа моћ компјутерске технологије је драматично повећала прикупљање података, складиштни простор и могућност манипулације њима. Пошто су скупови података постали већи и комплекснији, директни анализа података је побољшавана индиректном, аутоматском обрадом података, уз помоћ других открића у информатици попут неуронске мреже, анализе кластера, генетских алгоритама, (1950-те год.) стабла одлучивања и правила одлучивања (1960.) и методе потпорних вектора (1990-те год.). Истраживање података је процес примењивања ових метода са намером откривања скривених шаблона[15] у веилким скуповима података. Превазилази јаз између примењене статистике и вештачке интелигенције (која углавном пружа математичку потпору) у управљању базама података коришћењем начина на који се подаци складиште и индексирају у базама података како би се алгоритми за учење и откривање извели ефикасније, омогућавајући таквим методама да буду примењене на све већим скуповима података.

Процес[уреди]

Процес откривања знања у базама података је обично дефинисан следећим корацима:

  1. Селекција
  2. Претпроцесирање
  3. Трансформација
  4. Истраживање података
  5. Интерпретација/процена[5]

Међутим, постоји много варијација овог модела, као што је Међу-индустријски стандардни процес за истраживање података (енгл. ЦРИСП ДМ - Цросс-индустрy стандард процесс фор дата мининг), који дефинише шест фаза:

  1. Разумевање пословања
  2. Разумевање података
  3. Припрема података
  4. Моделовање
  5. Процена
  6. Развој

или поједностављен процес као што је (1) претпроцесирање, (2) истраживање података и (3) потврђивање резултата.

Анкете спроведене у 2002, 2004, 2007. I 2014. години, показују да је ЦРИСП-ДМ методологија најкоришћенија међу рударима података.[16] СЕММА је био једини други стандард истраживања података у овим анкетама. Међутим, 3 до 4 пута више људи је рекло да користи ЦРИСП-ДМ методологију. Неколико тимова истраживача је објавило прегледе модела процеса истраживање података,[17][18] а Азведо и Сантос су спровели поређење ЦРИСП-ДМ и СЕММА модела 2008. године.[19]

Претпроцесирање[уреди]

Пре коришћења алгоритама за истраживање података, мора се саставити циљани скуп података. Како истраживање података може да открије једино шаблоне који заправо постоје у подацима, циљани скуп података мора да буде довољно велики да садржи те шаблоне, али и да буде довољно мали да би могао да се истражује у прихватљивим временским границама. Чест извор података јесу тржиште података и складиште података. Претпроцесирање је неопходно за анализу мултиваријабилних скупова података пре истраживања података. Циљани скуп података се затим сређује. Сређивање података уклања сва посматрања која садрже шум или којима недостају вредности.

Истраживање података[уреди]

Истраживање података се састоји из шест честих типова задатака:[5]

  • Откривање неправилности(атипичних података/промена/одступања) - откривање необичних записа података који могу бити занимљиви или грешака у подацима које захтевају даље истраживање.
  • Учење правилом асоцијације(моделовање зависности) - трагање за везама између променљивих. На пример, супермаркет може да скупља податке о куповним навикама купаца. Коришћењем учења правилом асоцијације, супермаркет може да одреди који производи се често купују заједно, а затим да искористи ту информацију за потребе маркетинга. Ово се понекад назива анализа потрошачке корпе.
  • Кластеровање - задатак откривања група и структура у подацима који су на неки начин слични, без коришћења већ познатих структура у подацима.
  • Класификација - задатак генерализације познатих структура које је потребно применити над новим подацима. На пример, имејл програм може да класификује имејлове као „легитимни” или као „спем”.
  • Регресија - покушава да пронађе функцију која обликује податке са најмањом грешком, тј. За процену веза између података или скупова података.
  • Сажимање - пружа компактнији увид у скуп података, укључујући визуализације и генерисање извештаја.

Потврђивање резултата[уреди]

Пример података произведених копањем података преко бота којим је управљао статистичар Тајлер Виген, који показују уску везу између речи које су донеле победу на „спелинг” (енг. спеллинг бее) такмичењу и броја људи који су умрли од уједа отровних паука у Сједињеним Америчким Државама. Сличност у трендовима је очигледно случајност.

Истраживање података се може несвесно лоше искористити, што затим доводи до резултата који на први поглед делују битно; али заправо не предвиђају будуће понашање нити могу бити репродуковани на новим узорцима података, те немају никакве користи. Овакви резултати су чести након истраживања превише хипотеза и након лошег статистичког тестирања хипотеза. Једноставан облик овог проблема у машинском учењу се зове преприлагођавање модела. Како се тај проблем може појавити у различитим фазама процеса, то доводи до тога да раздвајање на тренинг и тест скупове - када је то уопште могуће - није довољно да спречи појаву овог проблема.[20]


Последњи корак у откривању знања из података је потврђивање да шаблони које су произвели алгоритми истраживања података, постоје у целом скупу података. Нису сви шаблони које су ти алгоритми пронашли нужно тачни. Често се дешава да алгоритми истраживања података пронађу шаблоне у тренинг скупу који не постоје у целокупном скупу података. Ово се зове претренирање модела. Како би се овај проблем превазишао, у процени се користи тест скуп података на којима алгоритми истраживања нису тренирани. Научени шаблони се примењују на том тест скупу, а крајњи резултат се пореди са траженим резултатом.

На пример, алгоритам истраживања података који покушава да раздвоји „спем” и „легитимне” имејлове, био би трениран на тренинг скупу имејл узорака. По завршетку тренирања, научени шаблони се примењују на тест скупу имејлова на ком алгоритам није био трениран. Прецизност шаблона се затим мери по томе колико имејлова је тачно класификовано. Постоји велики број статистичких метода за процену алгоритма, као што су на пример РОЦ криве(енгл. Рецеивер оператинг цхарацтеристиц) .

Или на примеру регресије, алгоритам истраживања би био такође трениран на тренинг скупу, али би предвиђао на пример температуру следећег дана. Затим би се тај научени шаблон применио на тест скупу. Пример статистичке методе за процену регресионих модела је корен средње квадратне грешке (енг. Роот Меан Сqуаред Еррор, РМСЕ).

Ако научени шаблони не достижу жељене стандарде, неопходно је да накнадно преиспитамо и изменимо кораке претпроцесирања и истраживања података. Ако научени шаблони достижу жељене стандарде, онда је последњи корак да се протумаче ти шаблони, а затим и претворе у знање.

Истраживање[уреди]

Главно тело у струци је Специјална Инетересна група (СИГ) Удружења за рачунарске машине (енгл. Ассоциатион фор Цомпутинг Мацхинерy, АЦМ) за откривање знања и рударење података (СИГКДД)”. .[21] [22]Од 1989. године, АЦМ СИГ домаћин је годишње интернационалне конференције и објављује свој записник[23], а од 1999. године објављује свој двогодишњи академски журнал чије је име СИГКДД Еxплоратионс.[24]

Конференције за рударење података у информатици садрже:

Теме о истраживању података су такође присутне на многим конференцијама о управљању података/базама података као што су ИЦДЕ конференција, СИГМОД конференција и Интернационална конференција о веома великим базама података.

Стандарди[уреди]

Постојали су напори да се дефинишу стандарди за процес истраживања података, на пример европски међуиндустријски стандардни процес за истраживање података (ЦРИСП-ДМ 1.0) из 1999. године и стандард за истраживање података у Јави (ЈДМ 1.0) из 2004. године. Развој наследника овим процесима (ЦРИСП-ДМ 2.0 и ЈДМ 2.0) био је активан у 2006. али је од тада заустављен. ЈДМ 2.0 је повучен пре достизања крајње верзије.

За размену извучених модела - посебно за коришћење у предиктивној аналитици - кључни стандард је ПММЛ (енг. Предицтиве Модел Маркуп Лангуаге), који је језик базиран на XМЛ-у, развијан од стране Групе за истраживање података (енг. Дата Мининг Гроуп, ДМГ) и подржан као формат размене од многих апликација за истраживање података. Као што име каже, покрива само предиктивне моделе, посебан задатак велике важности за пословне апликације. Међутим, наставци за подржавање(на пример) кластеровања потпростора били су предложени независно од ДМГ.[25]

Значајне намене[уреди]

Истраживање података се користи кад год има доступних дигиталних података. Значајни примери истраживања података могу се наћи у пословању, медицини, науци и надзору.

Питање приватности и етике[уреди]

Док термин "истраживање података" нема етичких импликација, често се повезује са истраживањем информација повезаних са људским понашањем (етичким или не).[26]

Начин на који се истраживање података користи може у одређном контексту или случајевима довести у питање приватност, законитост и етику.[27] Нарочито, влада за истраживање података или комерцијални скупови података за потребе националне безбедности или спровођења закона, као што је у Програму свесне информисаности (енгл. Тотал Информатион Аwаренесс Програм) или у АДВИСЕ-у, покренули су питање о приватности.[28][29]

Истраживање података захтева њихово припремање које може открити информације или шаблоне који могу угрозити обавезе поверљивости и приватности. Уобичајен начин да се то догоди је агрегација података. Она обухвата комбиновање података (евентуално са различитих извора) на начин који олакшава анализу (али то такође може учинити идентификацију приватних или података на индивидуалном нивоу дедуктивним или на други начин видљивим).[30]Ово није истраживање података пер се, већ резултат претхогног припремања података - за потребе - анализе. Претња приватности појединца ступа на снагу када подаци, када се једном компајлирају, узрокују да рудар података, или било ко ко има приступ новосастављеном скупу података, буде у могућности да идентификује одређене појединце, посебно када су подаци били изворно анонимни.[31][32][33]

Препоручује се да се појединац упозна са следећим пре прикупљања података:[30]

  •  сврха прикупљања података и свих (познатих) пројеката истраживања података;
  • како ће подаци бити искоришћени;
  •  ко ће моћи да рудари податке и користи њих и њихове деривате;
  •  стање безбедности које обухвата приступ подацима;
  •  како се прикупљени подаци могу ажурирати.

Подаци се такође могу модификовати тако да постану анонимни, тако да се појединци не могу лако идентификовати.[30] Међутим, чак и "деидентификовани"/"анонимизовани" скупови података могу потенцијално да садрже довољно информација које омогућују идентификацију појединаца, као што се догодило када су новинари успели да пронађу неколико особа на основу скупа историје претраживања које је нехотице објавио АОЛ.[34]

Нехотично откривање личних информација, које воде до провајдера, крши Праксу поштене информације. Ова несмотреност може проузроковати финансијске, емоционалне или телесне повреде појединцима. У једном случају кршења приватности, покровитељи Валгринса поднели су тужбу против компаније 2011. године због продаје информација о рецепту компанијама за истраживање података, које су затим достављале те податке фармацеутским компанијама.[35]

Ситуација у Европи[уреди]

Европа има прилично јаке законе о приватности и у току су напори за даље јачање права потрошача. Међутим, Америчко-Европски "Принципи сигурне луке" (енгл. У.С.-Е.У. Сафе Харбор Принциплес) тренутно ефективно дозвољавају америчким компанијама искоришћавање приватности европских корисника. Као последица Разоткривања глобалног надзора (енгл. глобал сурвеилланце дисцлосурес) Едварда Снуодена, дошло је до појачане расправе о опозиву овог споразума, нарочито због потпуне изложености података Националној сигурносној агенцији, а покушаји да се постигне споразум су пропали.[тражи се извор]

Ситуација у Сједињеним Државама[уреди]

У Сједињеним Америчким Државама, Конгрес САД се бавио питањима приватности усвајањем регулаторних контрола као што је Закон о преносивости и одговорности за здравствено осигурање (енгл. Хеалтх Инсуранце Портабилитy анд Аццоунтабилитy Ацт, ХИПАА). ХИПАА захтева од појединаца да дају свој "информисани пристанак" у вези информација које пружају и намераваним садашњим и будућим употребама. Према чланку објављеном у Биотецх Бусинесс Wеек-у, " У пракси, ХИПАА можда неће понудити већу заштиту од дугогодишњих прописа у области истраживања, " каже ААХЦ. "Важније, циљ правила заштите путем информисаног пристанка приближава се нивоу неразумљивости за просечне појединце.” [36] Ово наглашава потребу за анонимношћу података у агрегацији података и рударским праксама.

Законодавство САД-а о приватности информација као што је ХИПАА и Закон о породичним образовним правима и приватности (енгл. Фамилy Едуцатионал Ригхтс анд Привацy Ацт, ФЕРПА), односи се само на специфичне области на које се односи сваки такав закон. Коришћење истраживања података од стране већине предузећа у САД не контролише ниједно законодавство.

Закон о ауторским правима[уреди]

Ситуација у Европи[уреди]

Због недостатка флексибилности у европском закону о ауторским правима и базама података, истраживање радова са ауторским правима као што је истраживање интернет садржаја без дозволе власника ауторских права није легално. Док је у Европи база података која је скуп чистих података вероватно без ауторских права, али права базе податка можда постоје, што значи да истраживање податка постаје предмет прописа Директиве база података. На предлог Харгривсовог прегледа (енгл. енг. Харгреавес ревиеw), ово је узроковало да влада Уједињеног краљевства измени свој закон о ауторским правима 2014. године[37] да би дозволила истраживање садржаја као ограничење и изузетак. Тек следећа земља на свету после Јапана, која је увела изузетак 2009. године за истраживање података. Међутим, због рестрикција Директиве ауторских права, изузетак Уједињеног краљевства дозвољава само истраживање за некомерцијалне сврхе. Закон ауторских права Уједињеног краљевства такође не дозвољава промену ове мере уговорним условима. Европска комисија олакшала је дискусију заинтересованим странама о истраживању текста и података 2013. године под називом “Лиценце за Европу” (енг. Лиценцес фор Еуропе).[38] Фокус на решење овог правног питања које су лиценце, а не ограничења и изузеци довело је представнике универзитета, истраживача, библиотека, група цивилног друштва и издаваче отвореног приступа да напусте дијалог заинтересованих страна у мају 2013. године.[39]

Ситуација у Сједињеним државама[уреди]

У контраст Европи, флексибилна природа америчког закона о ауторским правима, а посебно поштене употребе значи да истраживање садржаја у Америци, као и осталим државама са сличним законом као што су Израел, Тајван, Јужна Кореја сматра се легалним. Пошто је истраживање садржаја трансформативно, што значи да не замењује оригинално дело, сматра се да је законито под поштеном употребом. На пример, као део у нагодби Гугл књига, преседавајући судија на случају пресудио је да је Гуглов пројекат дигитализације књига са ауторским правима законит, делом због трансформативног коришћења који је пројекат приказивао - један од којих је истраживање текста и податка.[40]

Софтвер[уреди]

Бесплатни софтвер отвореног кода и апликације за истраживање података[уреди]

Следеће апликације су доступне уз бесплатне или лиценце отвореног кода. Такође је дозвољен јавни приступ извршном коду апликација.

  • Царрот2 : оквир за кластеровање текста и резултата претраге.
  • Цхемицализе.орг: "рудар" хемијских структура и веб претраживач
  • ЕЛКИ: Универзитетски истраживачки пројекат за напредну анализу кластера и са методама откривања аутлајера, написан у Јава програмском језику.
  • ГАТЕ: алат за обраду природних језика (енгл. Натурал лангуаге процессинг, НЛП) и инжењеринг језика.
  • КНИМЕ: рудар Констанц информација (енгл. “Тхе Констанз Информатион Минер”), лак за коришћење и разумљив оквир за детаљну анализу података.
  • Масивна онлајн анализа (енгл. Массиве Онлине Аналyсис, МОА): Процес истраживања великог скупа података у реалном времену са алатима за неочекиване промене, написан у Јава програмском језику.
  • МЕПX: вишеплатформни алат за проблеме регресије и класификације заснован на варијанти генетског програмирања.
  • ML-Флеx: софтверски пакет који омогућава корисницима да интегришу пакете машинског учења других корисника написаних у било ком језику, да изврше анализе класификације паралелно преко више чворова, и да направе ХТМЛ извештаје резултата класификације.
  • млпацк: колекција спремних алгоритама машинског учења, написана у C++ програмском језику.
  • НЛТК (енг. Натурал Лангуаге Тоолкит): пакет библиотека и програма за симболичну и статистичку обраду природних језика за Пyтхон програмски језик.
  • ОпенНН: отворена библиотека за неуронске мреже.
  • Оранге: софтверски пакет за истраживање података и машинско учење на основу компоненти, написан у Пyтхон програмском језику.
  • Р: програмски језик и софтверско окружење за статистичко рачунарство, истраживање података и графику. Он је део ГНУ пројекта.
  • сцикит-леарн: библиотека за машинско учење отвореног кода за Пyтхон програмски језик.
  • Торцх: библиотека за дубоко учење отвореног кода за Луа програмски језик и оквир за научно рачунарство са широким распоном подршке алгоритама машинског учења.
  • УИМА (енг. Унструцтуред Информатион Манагемент Арцхитецтуре): компонентни оквир за анализу неструктурираног садржаја као што су текст, аудио и видео садржај - развијен од стране ИБМ-а.
  • Века (енг. Wека): пакет софтверских апликација за машинско учење написан у Јава програмском језику.

Власнички софтвери и апликације за истраживање података[уреди]

Следеће апликације су доступне уз власничке лиценце:

Анкете тржишта[уреди]

Неколико истраживача и организација је спровело преглед алата за истраживање података и анкетирање рудара података. Они откривају неке предности и мане софтверских пакета. Такође обезбеђују преглед понашања, преференција и ставова рудара података. Неки од тих извештаја садрже:

  • Хурвицов индекс победе (енгл. Хурwитз Вицторy Индеx): Извештај за напредну аналитику као алат за процену истраживања тржишта, истиче и разнолику употребу технологије за напредну аналитику и продаваце који производе те апликације. Скорашње истраживање.
  • Рексерова аналитика анкета рудара података (2007—2015)[41]
  • 2011. Вајлијеви интердисциплинарни прегледи (енгл. Wилеy Интердисциплинарy Ревиеwс): истраживање података и откривање знања.[42]
  • Форестеров извештај (енгл. Форрестер Ресеарцх) истраживања решења предиктивне аналитике и истраживање података 2010. године.[43]
  • Гартнеров извештај ,,Магичног квадранта" 2008. године.[44]
  • Роберт А. Низбетова серија од три чланка ,,Алат за истраживање података: Који је најбољи за маркетинг оријентисан купцима?" 2006. године.[45]
  • Хогтон ет алов (енгл. Хаугхтон ет ал), преглед софтверских пакета за истраживање података у научном часопису „Тхе Америцан Статистициан” 2003. године.[46]
  • Гебелова и Груенвалдова ,,Анкета о софтверским алатима за истраживање података и откривање знања" у СИГКДД истраживањима 1999. године.[47]

Референце[уреди]

  1. 1,0 1,1 1,2 „Дата Мининг Цуррицулум”. АЦМ СИГКДД. 30. 4. 2006. Приступљено 27. 1. 2014. 
  2. ^ Цлифтон, Цхристопхер (2010). „Енцyцлопæдиа Британница: Дефинитион оф Дата Мининг”. Приступљено 9. 12. 2010. 
  3. ^ Хастие, Тревор; Тибсхирани, Роберт; Фриедман, Јероме (2009). „Тхе Елементс оф Статистицал Леарнинг: Дата Мининг, Инференце, анд Предицтион”. Архивирано из оригинала на датум 10. 11. 2009. Приступљено 7. 8. 2012. 
  4. ^ Хан, Камбер, Пеи, Јаиwеи, Мицхелине, Јиан (9. 6. 2011). Дата Мининг: Цонцептс анд Тецхниqуес (3рд изд.). Морган Кауфманн. ИСБН 978-0-12-381479-1. 
  5. 5,0 5,1 5,2 Фаyyад, Усама; Пиатетскy-Схапиро, Грегорy; Смyтх, Падхраиц (1996). „Фром Дата Мининг то Кноwледге Дисцоверy ин Датабасес” (ПДФ). Приступљено 17. 12. 2008. 
  6. ^ Олсон, D. L. (2007). Дата мининг ин бусинесс сервицес. Сервице Бусинесс, 1(3), 181-193. дои:10.1007/с11628-006-0014-7
  7. ^ Хан, Јиаwеи; Камбер, Мицхелине (2001). Дата мининг: цонцептс анд тецхниqуес. Морган Кауфманн. стр. 5. ИСБН 978-1-55860-489-6. »Тхус, дата мининг схоулд хаве беен море аппроприателy намед "кноwледге мининг фром дата," wхицх ис унфортунателy сомеwхат лонг« 
  8. ^ ОКАИРП 2005 Фалл Цонференце, Аризона Стате Университy Арцхивед 2014-02-01 ат тхе Wаyбацк Мацхине
  9. ^ Wиттен, Иан Х.; Франк, Еибе; Халл, Марк А. (30. 1. 2011). Дата Мининг: Працтицал Мацхине Леарнинг Тоолс анд Тецхниqуес (3 изд.). Елсевиер. ИСБН 978-0-12-374856-0. 
  10. ^ Боуцкаерт, Ремцо Р.; Франк, Еибе; Халл, Марк А.; Холмес, Геоффреy; Пфахрингер, Бернхард; Реутеманн, Петер; Wиттен, Иан Х. (2010). „WЕКА Еxпериенцес wитх а Јава опен-соурце пројецт”. Јоурнал оф Мацхине Леарнинг Ресеарцх. 11. »тхе оригинал титле, "Працтицал мацхине леарнинг", wас цхангед ... Тхе терм "дата мининг" wас [аддед] примарилy фор маркетинг реасонс.« 
  11. ^ Ловелл, Мицхаел C. (1983). „Дата Мининг”. Тхе Ревиеw оф Ецономицс анд Статистицс. 65 (1): 1. дои:10.2307/1924403. 
  12. ^ Мена, Јесус. (2011). Мацхине леарнинг форенсицс фор лаw енфорцемент, сецуритy, анд интеллигенце. Боца Ратон, ФЛ: ЦРЦ Пресс. ИСБН 9781439860700. ОЦЛЦ 753970361. 
  13. ^ Пиатетскy-Схапиро, Грегорy; Паркер, Гарy (2011). "Лессон: Дата Мининг, анд Кноwледге Дисцоверy: Ан Интродуцтион". Интродуцтион то Дата Мининг. КД Нуггетс. Приступљено 30 Аугуст 2012.
  14. ^ Фаyyад, Усама (15 Јуне 1999). "Фирст Едиториал бy Едитор-ин-Цхиеф". СИГКДД Еxплоратионс. 13 (1): 102. дои:10.1145/2207243.2207269. Приступљено 27 Децембер2010.
  15. ^ Кантардзиц, Мехмед. (2003). Дата мининг : цонцептс, моделс, метходс, анд алгоритхмс. Хобокен, Њ: Wилеy-Интерсциенце. ИСБН 978-0-471-22852-3. ОЦЛЦ 51437378. 
  16. ^ Грегорy Пиатетскy-Схапиро (2002) КДнуггетс Метходологy Полл, Грегорy Пиатетскy-Схапиро (2004) КДнуггетс Метходологy Полл, Грегорy Пиатетскy-Схапиро (2007) КДнуггетс Метходологy Полл, Грегорy Пиатетскy-Схапиро (2014) КДнуггетс Метходологy Полл
  17. ^ Óсцар Марбáн, Гонзало Марисцал анд Јавиер Сеговиа (2009); А Дата Мининг & Кноwледге Дисцоверy Процесс Модел. Ин Дата Мининг анд Кноwледге Дисцоверy ин Реал Лифе Апплицатионс, Боок едитед бy: Јулио Понце анд Адем Карахоца. ISBN 978-3-902613-53-0., пп. 438–453, Фебруарy 2009, I-Тецх, Виенна, Аустриа.
  18. ^ Лукасз Курган анд Петр Мусилек (2006); А сурвеy оф Кноwледге Дисцоверy анд Дата Мининг процесс моделс. Тхе Кноwледге Енгинееринг Ревиеw. Волуме 21 Иссуе 1, Марцх 2006, пп 1–24, Цамбридге Университy Пресс, Неw Yорк, НY, УСА doi:10.1017/S0269888906000737
  19. ^ Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview Archived 2013-01-09 at the Wayback Machine. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.
  20. ^ Hawkins, Douglas M (2004). „The problem of overfitting”. Journal of Chemical Information and Computer Sciences. 44 (1): 1—12. PMID 14741005. doi:10.1021/ci0342472. 
  21. ^ „Microsoft Academic Search: Top conferences in data mining”. Microsoft Academic Search. 
  22. ^ „Google Scholar: Top publications - Data Mining & Analysis”. 
  23. ^ „International Conferences on Knowledge Discovery and Data Mining, ACM, New York.”. Архивирано из оригинала на датум 30. 4. 2010. Приступљено 2. 5. 2019. 
  24. ^ SIGKDD Explorations, ACM, Njujork
  25. ^ Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). „An extension of the PMML standard to subspace clustering models”. Proceedings of the 2011 workshop on Predictive markup language modeling - PMML '11. стр. 48. ISBN 978-1-4503-0837-3. doi:10.1145/2023598.2023605. 
  26. ^ Seltzer, William (2005). „The Promise and Pitfalls of Data Mining: Ethical Issues” (PDF). ASA Section on Government Statistics. American Statistical Association. 
  27. ^ Pitts, Chip (15. 3. 2007). „The End of Illegal Domestic Spying? Don't Count on It”. Washington Spectator. Архивирано из оригинала на датум 29. 10. 2007. 
  28. ^ Taipale, Kim A. (15. 12. 2003). „Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data”. Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782Слободан приступ. 
  29. ^ Resig, John. „A Framework for Mining Instant Messaging Services” (PDF). Приступљено 16. 3. 2018. 
  30. 30,0 30,1 30,2 Think Before You Dig: Privacy Implications of Data Mining & Aggregation Archived 2008-12-17 at the Wayback Machine, NASCIO Research Brief, September 2004
  31. ^ Ohm, Paul. „Don't Build a Database of Ruin”. Harvard Business Review. 
  32. ^ Darwin Bond-Graham, Iron Cagebook - The Logical End of Facebook's Patents, Counterpunch.org, 2013.12.03
  33. ^ Darwin Bond-Graham, Inside the Tech industry's Startup Conference, Counterpunch.org, 2013.09.11
  34. ^ AOL search data identified individuals, SecurityFocus, August 2006
  35. ^ Kshetri, Nir (2014). „Big data׳s impact on privacy, security and consumer welfare” (PDF). Telecommunications Policy. 38 (11): 1134—1145. doi:10.1016/j.telpol.2014.10.002. 
  36. ^ Biotech Business Week Editors (June 30, 2008); BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research, Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic
  37. ^ UK Researchers Given Data Mining Right Under New UK Copyright Laws. Archived 2014-06-09 at the Wayback Machine Out-Law.com. Preuzeto 14. Novembar 2014.
  38. ^ „Licences for Europe - Structured Stakeholder Dialogue 2013”. Evropska komisija. Приступљено 14. 11. 2014. 
  39. ^ „Text and Data Mining:Its importance and the need for change in Europe”. Association of European Research Libraries. Приступљено 14. 11. 2014. 
  40. ^ „Judge grants summary judgment in favor of Google Books — a fair use victory”. Lexology. Приступљено 14. 11. 2014. 
  41. ^ Karl Rexer, Heather Allen, & Paul Gearan (2011); Understanding Data Miners, Analytics Magazine, May/June 2011 (INFORMS: Institute for Operations Research and the Management Sciences).
  42. ^ Mikut, Ralf; Reischl, Markus (September—October 2011). „Data Mining Tools”. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 1 (5): 431—445. doi:10.1002/widm.24.  Проверите вредност парамет(а)ра за датум: |date= (помоћ)
  43. ^ Kobielus, James; The Forrester Wave: Predictive Analytics and Data Mining Solutions 2010, Forrester Research, 1 July 2008
  44. ^ Herschel, Gareth; Magic Quadrant for Customer Data-Mining Applications Архивирано на сајту Wayback Machine (октобар 20, 2009) (на језику: енглески), Гартнер Инц., 1 Јулy 2008
  45. ^ Нисбет, Роберт А. (2006); Дата Мининг Тоолс: Wхицх Оне ис Бест фор ЦРМ? Парт 1, Информатион Манагемент Специал Репортс, Јануарy 2006
  46. ^ Хаугхтон, Доминиqуе; Деицхманн, Јоел; Есхгхи, Абдолреза; Саyек, Селин; Теебагy, Ницхолас; анд Топи, Хеикки (2003); А Ревиеw оф Софтwаре Пацкагес фор Дата Мининг, Тхе Америцан Статистициан, Вол. 57, Но. 4, пп. 290–309
  47. ^ Гоебел, Мицхаел; Груенwалд, Ле (јун 1999). „А Сурвеy оф Дата Мининг анд Кноwледге Дисцоверy Софтwаре Тоолс” (ПДФ). СИГКДД Еxплоратионс. 1 (1): 20—33. 

Додатни материјали[уреди]

Такође погледајте[уреди]

Методе
Области примене
Примери примена
Повезане теме

Истраживање података се бави анализом података; за информације о извлачењу информација из података, погледајте:

Остали извори


Спољашње везе[уреди]