Нацрт:Вађење података

Вађење података спада у једно од поља које изучава информатика^[1]^[2]^[3] То је рачунарски процес откривања образаца у великим скуповима података помоћу метода које спадају у области вештачке интелигенције, машинског учења, и база података.^[1] Општи циљ процеса извлачења података је да извуче информације из скупа података и трансформише их у разумљиву структуру за даљу употребу.^[1] Поред корака који обухватају сирову анализу, оно укључује и рад са базама података, управљање подацима, претпроцесирање података, сложеност алгоритама, , обраду пронађених структура података, приказивање података и интернет алгоритме.^[1] Откривање података је корак у анализи података који припада "knowledge discovery in databases" процесу, односно KDD.^[4]

Назив је погрешан јер је циљ извлачење образаца и знања из великог скупа података, не извлачење података^[5] као таквих. Ово је поштапалица и често се примењује за било који облик података велике размере или обраде информација (сакупљање података, извлачење података, чување података, анализа података, и статистика) као и за вештачку интелигенцију и машинско учење. Књига ''Data mining: Practical machine learning tools and techniques with Java''^[6] (која највише покрива област машинског учења) се оригинално називала ''Practical machine learning'', а појам ''data mining'' је само додат ради маркетига.^[7] Често су општији називи (великих размера) анализа података и аналитика – или прецизније, вештачка интелигенција и машинско учење – који су прикладнији називи.

Стваран посао извлачења података је аутоматска или полу-аутоматска анализа велике количине података како би добили претходно непознате, интересантне обрасце као што су групе података, необични подаци и независни подаци. Ово обично подразумева коришћење техника над базама података као што је просторно индексирање. Ови обрасци се затим могу посматрати као нека врста прегледа улазних података, а могу се користити и у даљој анализи, на пример, код машинског учења и предиктивне анализе. На пример, корак вађења података може идентификовати групе података које се касније могу користити како би обезбедили прецизније резултате предвиђања од стране система за одлуку. Ни прикупљање података, припрема података, нити резултат тумачења не припадају кораку извлачења података, али припадају KDD кораку као додатни процеси.

Сродни термини су копање података и пецање података, они указују на коришћење метода за извлачење података како би се велики скупови података поделили на мање из статистичких разлога, тиме се утврђује исправност извученог обрасца.

Етимологија[уреди | уреди извор]

1960-тих, статистичари су користили термине као што су "пецање података" или "копање података" да би указали на то шта сматрају за лошу праксу у анализирању података без хипотезе највишег приоритета. Термин "копање података" се појављује 1990-тих у заједници база података. За кратко време, 1980-тих, фраза "database mining"™, је коришћена, али је фирма са базом у Сан Дијегу по имену HNC заштитила, да би представили своју станицу за прављење база података;^[8] истраживачи су прешли на термин "вађење података". Остали термини који се користе укључују Археологију Података, Сакупљање информација, Откривање информација, учење итд. Gregory Piatetsky-Shapiro је усвојио термин "Откривање знања у базама података" за прву радионицу на ту тему (KDD-1989), а овај термин је постао популарнији у заједницама ВИ и Машинског Учења. Штавише, термин вађење података је постао популарнији у пословној и новинарској заједници.^[9] Тренутно, Вађење података и Откривање знања се користе подједнако. Од 2007, "Предиктивна Аналитика", а од 2011, "Nauka o podacima" су такође термини којима се може описати ово поље изучавања.

Позадина[уреди | уреди извор]

Ручно вађење образаца из података се радило вековима. Ране методе идентификације узорака у подацима укључују Бајесову теорему (1700-тих) и регресиону анализу (1800-тих). Свеприсутност и раст снаге компјутерске технологије је драматично повећала колекцију података, складиштење и манипулациону способност. Како је скуп података постајао све већи и комплекснији директна анализа је постепено унапређивана индиректно, аутоматском обрадом података, уз помоћ других открића у информатици, као што су неуронске мреже, кластер анализа, генетски алгоритми (1950-тих), стабло одлучивања и правила одлучивања (1960-тих) и подршка векторским машинама (1990-тих). Вађење података је процес примене ових метода са намером откривања скривених образца у великим скуповима података, то премошћује јаз са примењене статичке и вештачке интелигенције (која обично обезбеди математичку позадину) на управљање базама података испоручујући начин на који су подаци сачувани у бази да би се извршило стварно учење и покренули алгоритми откривања ефикасније, допуштајући да се овакви методи примене на веће скупове података.

Процес[уреди | уреди извор]

Knowledge Discovery in Databases (KDD) process је често дефинисан помоћу следећих фаза:

(1) Селекција

(2) Претпроцесирање

(3) Трансформација

(4) Вађење података

(5) Извршавање/Процена.^[4]

Процес постоји, али, у многим варијацијама ове теме као што је Cross Industry Standard Process for Data Mining (CRISP-DM), дефинише се помоћу шест фаза:

(1) Разумевање посла

(2) Разумевање података

(3) Припрема података

(4) Моделовање

(5) Процена

(6) Развој

или поједноставњени процеси као што су (1) претпроцесирање, (2) вађење података, и (3) потврда резултата.

Анкете спроведене 2002, 2004, 2007 и 2014 показују да је CRISP-DM водећа методологија коришћена од стране "копача података".^[10] Једини преостали стандард за вађење података који се нашао на поменутим анкетама је SEMMA. Неколико истраживачких тимова је објавило критике модела који се користе у вађењу података,^[11]^[12] Azevedo и Santos су упоредили CRISP-DM и SEMMA у 2008.^[13]

Претпроцесирање[уреди | уреди извор]

Пре него што се могу користити алгоритми за вађење података, мора се оформити циљани скуп података. Пошто вађење података покрива само обрасце присутне у подацима, циљани скуп података треба бити довоњно велики да би садржао ове обрасце, док остатак мора бити довољно концизан да се може извршити у прихватљивом временском року. Заједнички извор података је Складиште података. Претпроцесирање је од есенцијалног значаја у анализирању скупа података пре процеса вађења података. Тада се чисти циљани скуп. Чишћење података уклања податке који нису у складу са статистиком и податке који нису потпуни.

Вађење података[уреди | уреди извор]

Вађење података укључује шест заједничких фаза:^[4]

Проналажење аномалија (Детекција девијантности) – Идентификација необичних података који могу бити интересантни или грешака у подацима који захтевају даљу истрагу.
Асоцијативно правило учења (Зависно моделовање) – Траши везу међу променљивима. На пример, супермаркет може да сакупи податке о потрошачким навикама купаца. Користећи асоцијативно правило учења, супермаркет може одредити који се производ најчешће купује и касније се та информација коже користити у маткетиншке сврхе. Ово се често назива "анализа корпе".
Кластер анализа – открива групе и структуре података које су на неки начин сличне без коришћења већ постојећих структура.
Класификација – је фаза генерализације познатих структура које се примењују на нове податке. На пример, е-маил програм може класификовати поруку као "легитимну" или као "спам".
Регресиона анализа – покушава да пронађе функцију која моделује податке уз минималну грешку.
Завршница – обежбеђује компактнији приказ скупа података, укључујући и визуелизацију.

Валидација резултата[уреди | уреди извор]

Вађење података се ненамерно може погрешно искористити, а касније може дати значајне резултате; али не предвиђа даље понашање и не може се поново искористити на новом узорку података. Често је то резултат превеликог истраживања хипотеза и неправилне примене статистичког тестирања хипотеза. Једноставна верзија овог проблема у машинском учењу је позната као презасићеност, али се исти проблем може јавити у различитим фазама процеса.

Финални корак у Откриванју Знања из података је потврда да се обрасци произведени од стране алгоритама Вађења Података налазе у ширем скупу података. Не морају сви узорци пронађени вађењем података бити валидни. Често се дешава да алгоритми за вађење података нађу обрасце у делу за обуку а да се ти обрасци не користе у општем скупу података. Ово се назива пресасићеност. Да би превазишли ово, процена користи тест над подацима које алгоритам није обрадио. Научени обрасци се тестирају и резлутујући излаз се пореди са жељеним. На пример, алгоритам за вађење података који покушава да раздвоји спам од легитимних е-маилова се учи да то чини помоћу узорака маил-ова. Једном научени, обрасци се тестирају над скупом е маил-ова које не познају. Прецизност обрасца се мери по броју добро класификованих маил-ова. Многе статистичке методе се користе за процену алгоритма, као што су ROC curves.

Ако научени обрасци не испуњавају жењене стандарде, потребно је поново извршити процену и изменити кораке претпроцесирања и вађења података. Уколико научени алгоритми испуњавају жељене стандарде, последњи корак је интерпретација образаца и претварње таквих образаца у знање.

Истраживање[уреди | уреди извор]

Најзначајније тело на овом пољу је Association for Computing Machinery's (ACM) Special Interest Group (SIG) које се баве откривањем сазања и копањем података (SIGKDD).^[14]^[15] Од 1989. ACM SIG је угостио годишњу међународниу конференцију,^[16] а од 1999 је објавио академске новине под називом "SIGKDD Explorations".^[17]

Информатичке конференције из области вађења података:

CIKM Conference – ACM Conference on Information and Knowledge Management
DMIN Conference – International Conference on Data Mining
DMKD Conference – Research Issues on Data Mining and Knowledge Discovery
DSAA Conference – IEEE International Conference on Data Science and Advanced Analytics
ECDM Conference – European Conference on Data Mining
ECML-PKDD Conference – European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases
EDM Conference – International Conference on Educational Data Mining
INFOCOM Conference – IEEE INFOCOM
ICDM Conference – IEEE International Conference on Data Mining
KDD Conference – ACM SIGKDD Conference on Knowledge Discovery and Data Mining
MLDM Conference – Machine Learning and Data Mining in Pattern Recognition
PAKDD Conference – The annual Pacific-Asia Conference on Knowledge Discovery and Data Mining
PAW Conference – Predictive Analytics World
SDM Conference – SIAM International Conference on Data Mining (SIAM)
SSTD Symposium – Symposium on Spatial and Temporal Databases
WSDM Conference – ACM Conference on Web Search and Data Mining

Теме везане за вађење података ус презентоване на многим менаџмент/база података конференцијама као што су ICDE Conference, SIGMOD Conference i International Conference on Very Large Data Bases

Стандарди[уреди | уреди извор]

При дефинисању стандарта за процесе у вађењу података било је потребно доста труда, на пример 1999 Европски Cross Industry Standard Process for Data Mining (CRISP-DM 1.0) и 2004 Java Data Mining стандарт (JDM 1.0). Развој наследника ових процеса (CRISP-DM 2.0 and JDM 2.0) је био активан 2006, али је од тада развој у застоју. JDM 2.0 је повучен без коначних резултата.

За размену извучених модела - посебно се користи у предиктивној аналитици - кључни стандард је Predictive Model Markup Language (PMML). То је XML-базиран језик развојен од стране Data Mining Group (DMG) и подршан је као формат за размену код многих апликација за вађење података.Као што и само име каже, покрива само предикционе моделе, који је од великог значаја у пословним апликацијама. Међутим, екстензије за покривање (на пример) подсвемирског груписања су предложене независно од ДМГ.^[18]

Значајна употреба[уреди | уреди извор]

Вађење података се користи свуда где су подаци записани у дигиталном облику. Значајни примери вађења података се могу пронаћи у пословању, медицини, науци и надзору.

Питања приватности и етике[уреди | уреди извор]

Док термин "интелектуална анализа података" сама по себи нема етичке последице, често je повезана са производњом информација у погледу понашања људи (етичке и друго).^[19]

Због начина на које интелигентна анализа података може да се користи у неким случајевима и контекстима, јављају се питања у вези приватности, законитости и етике.^[20] посебно, дата мининг владе или комерцијални скупови података за потребе националне безбедности или у сврху закона, на пример, у програму Тоталне Информационе Свести или ADVICE, подижу бригу о безбедности.^[21]^[22]

Вађење података захтева припрему података која може открити информације или обрасце који могу угрозити приватност. Најчешћи начин за то је путем агрегирања података. Агрегација података односи се на обједињавање података (могуће из различитих извора) на неки начин то олакшава анализу (али она такође може идентификовати личне податаке).^[23] Претња приватности појединаца долази у игру када се подаци, након компајлирања, њега врши аналитишар или нека особа задужена за тај посао, он је у могућности да идентификује појединце иако су подаци првобитно били анонимни.^[24]^[25]^[26]

Препоручује се да се појединци упозоре на следеће ствари пре него што се подаци прикупе:^[23]

на циљ прикупљања података
како ће се ови подаци користити;
ко ће да ископа податке и користи их;
стање безбедности у вези са приступом подацима;
како се прикупљени подаци могу ажурирати.

Подаци се такође могу мењати тако да буду анонимни, тако да појединци не могу бити идентификовани.^[23] Међутим, "подаци који не могу да се идентификују"/"анонимни подаци" могу садржати довољно информација да идентификују појединаца, као што се и десило када је новинарима успео да пронађу неколико лица на основу претраге података које је избацила компанија АОЛ.^[27]

Ненамерним обелодањивањем личних информација, провајдер крши начела поштеног коришћења података. Ова индискреција може довести до финансијских, емоционалниих или телесних последица. Пример кршења приватности: апотека је поднела тужбу против компаније у 2011. години за продају информација о рецептима фирмама за вађење података, који, заузврат, шаљу податке фармацеутским фирмама.^[28]

Ситуација у Европи[уреди | уреди извор]

Европа има строге законе о приватности, улажу се напори у циљу даљег јачања права потрошача. Међутим, у U.S.-E.U. Safe Harbor Principles тренутно ефикасно откривају европске кориснике који продају поверљиве информације рада америчких компанија. Након Едвард Сноуденовог глобалног обелодањивања, била је велика дискусија, да се откаже овај споразум, подаци би били потпуно доступни агенцијама за националну безбедност.^[уреди]

Ситуација у САД[уреди | уреди извор]

У Сједињеним Америчким Државама, приватност се разматра у Конгресу САД кроз доношење регулаторних контрола, као што су Health Insurance Portability and Accountability Act (HIPAA). HIPAA захтева од појединца да да свој "информисани пристанак" у вези информација које они дају тренутно и убудуће. Према чланку објављеном у iotech Business Week', "' HIPAA не може понудити било какву већу заштиту него што дугогодишњи правила већ пружају - каже AAHC. Што је још важније, правила заштите кроз информисан додатно компликују ствари и захтевају стрпљење што често може довести до збуњивања просечног корисника".^[29] То наглашава потребу анонимности података при агрегацији и пракси интелектуалное анализе података.

Софтвер[уреди | уреди извор]

Бесплатан софтвер за интелигентно вађење потака и апликације[уреди | уреди извор]

Следеће апликације су доступне под оупен-сорс лиценцом. Допуштен је приступ изворном коду.

Carrot2: Фрејмворк за резултате претраге и кластер анализу.
Chemicalize.org: хемијска структура и претраживачка машина.
ELKI: универзитетски истраживачки пројекат са напредном кластер анализом и методама за откривање грешака писан у Јава програмском језику .
Капија: обрада природног језика и алат за језички инжењеринг.
KNIME: The Konstanz Information Miner, фрејмворк за корисничку анализу података.
Масовна онлајн анализа (МОА): ради у реалном времену и може обрадити велике количине података, писан је у Јава програмском језику.
MLPACK библиотека: збирка готових за алгоритама машинског учења написаних у Ц++у .
АПЈ (Алат за Природни Језик): скуп библиотека и програма за симболичко и статистичко процесирање природних језика (ППЈ), писан је у језику Пајтон.
OpenNN: Слободна библиотека неуронских мрежа.
Orange: компонента базирана на интелектуалној анализи података и машинском учењу писана у језику Пајтон.
R (програмски језик): и коружење за статистику, интелигентно вађење података и графику. Део је пројекта ГНУ.
SCaViS: Јава крос-платформа за анализу података развијена од стране Argonne National Laboratory.
scikit-learn је опен соурце библиотека машинског учења за Пајтон програмски језик.
SenticNet по API: семантички извор који се користи у семантичкој анализи.
Torch: је опен соурце библиотека за дубоко проучавање за ЛУА програмски језик и има широку подршку за алгоритме који се односе на машинско учење.
UIMA: у UIMA (Unstructured Information Management Architecture) је фрејмворк за анализу неструктуираних података, као што су текст, звук и видео, који је првобитно био развијен од стране компаније ИБМ.
Weka: скуп софтвера за машинско учење написаних у Јава програмском језику.

Власнички софтвер за вађење података и апликације[уреди | уреди извор]

Следеће апликације су доступне под власнићким лиценцама.

Angoss KnowledgeSTUDIO: алати за интелигентну анализу података које обезбеђује Angoss.
Clarabridge: анализа текста.
HP Vertica Analytics Platform: софтвер за интелигентну анализу података који производи HP.
IBM SPSS Modeler софтвер за интелигентну анализу података који производи ИБМ.
KXEN Modeler: алати за интелигентну анализу података које обезбеђује KXEN.
LIONsolver: интегрисани софтвер за интелигентно вађење података, пословну интелигенцију и моделовање који спроводи обуку и интелектуалну оптимизацију.
Megaputer интелигенција: софтвер за интелигентно вађење података и текста звани PolyAnalyst.
Мајкросотфове услуге анализе: софтвер за интелигентну анализу података који производи Мајкрософт.
NetOwl: скуп текст на више језика и суштине аналитичких производа који омогућавају да се дата мининг.
Компанија opentext™ за анализу великих података: визуелна и предиктивна анализа података путем отвореног текста Корпорација
Оракл интелигентна анализа података: софтвер за интелигентно вађење података и текста направљен од стране компаније Оракл.
П-седам: платформа за аутоматизацију анализе података, мултидисциплиновану оптимизацију и интелигентно сакупљање података направљена од стране DATADVANCE.
Qlucore истраживач: софтвер за интелигентну анализу података који производи Qlucore.
RapidMiner: окружење за машинско учење и дата мининг експеримената.
САС анализа података: софтвер за интелигентну анализу података који производи САС Институт.
СТАТИСТИЦА интелигентно вађење података: софтвер за интелигентну анализу података који производи фирма "statsoft".
Танагра: софтвер за визуелизацију-оријентисане анализе података, као и за учење.

Истраживања на тржишту[уреди | уреди извор]

Велики број истраживача и организација сачињава критике алата за анализу података . Ово одређује неке предности и мане софтверских пакета. Они такође омогућују преглед модела понашања, склоности и погледе људи из струке. Неки од ових извештаја укључује:

Hurwitz Victory Index: извештаји за напредну аналитику као средство за процену тржишних истраживања, он издваја, како и различито коришћење аналитичких технологија тако и добављаче, који чине ове апликације могућим.Недавне студије
2011 Wiley интердисциплинарне критике: Data Mining and Knowledge Discovery^[30]
Rexer Analytics Data Miner Surveys(2007-2013)^[31]
Истраживање Форрестер 2010 Предиктивна аналитика^[32]
Компанија Гартнер 2008 "Магични Квадрант" извештај^[33]
Robert A. Nisbet's 2006 три серије чланака "алата и области интелигентна анализа података: који од њих бољи за CRM?"^[34]
Haughton et al.'s 2003 преглед софтверских пакета за област паметног вађења података од стране The American Statistican^[35]
Goebel & Gruenwald 1999 "Преглед Data Mining и Knowledge Discovery Software алата" код SIGKDD истраживања^[36]

Види још[уреди | уреди извор]

Методе

Апликативни домени

Примери апликација

Сродне теме

Вађење података се односи на анализирање података; О вађењу информација из података погледати:

References[уреди | уреди извор]

^ ^а ^б ^в ^г „Data Mining Curriculum”. ACM SIGKDD. 2006-04-30. Приступљено 2014-01-27.
^ Clifton, Christopher (2010). „Encyclopædia Britannica: Definition of Data Mining”. Приступљено 2010-12-09.
^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). „The Elements of Statistical Learning: Data Mining, Inference, and Prediction”. Приступљено 2012-08-07.
^ ^а ^б ^в Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). „From Data Mining to Knowledge Discovery in Databases” (PDF). Приступљено 17. 12. 2008.
^ Han, Jiawei; Kamber, Micheline (2001). Data mining: concepts and techniques. Morgan Kaufmann. стр. 5. ISBN 978-1-55860-489-6. „Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long”
^ Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30. 1. 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 изд.). Elsevier. ISBN 978-0-12-374856-0.
^ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). „WEKA Experiences with a Java open-source project”. Journal of Machine Learning Research. 11: 2533—2541. „the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.”
^ Mena, Jesús (2011). Machine Learning Forensics for Law Enforcement, Security, and Intelligence. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.
^ Piatetsky-Shapiro, Gregory; Parker, Gary (2011). „Lesson: Data Mining, and Knowledge Discovery: An Introduction”. Introduction to Data Mining. KD Nuggets. Приступљено 30. 8. 2012.
^ Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll
^ Óscar Marbán, Gonzalo Mariscal and Javier Segovia (2009); A Data Mining & Knowledge Discovery Process Model.
^ Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models.
^ Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview.
^ „Microsoft Academic Search: Top conferences in data mining”. Microsoft Academic Search.
^ „Google Scholar: Top publications - Data Mining & Analysis”. Google Scholar.
^ Proceedings, International Conferences on Knowledge Discovery and Data Mining, ACM, New York.
^ SIGKDD Explorations, ACM, New York.
^ Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). „An extension of the PMML standard to subspace clustering models”. Proceedings of the 2011 workshop on Predictive markup language modeling - PMML '11. стр. 48. ISBN 978-1-4503-0837-3. doi:10.1145/2023598.2023605.
^ Seltzer, William. „The Promise and Pitfalls of Data Mining: Ethical Issues” (PDF).
^ Pitts, Chip (15. 3. 2007). „The End of Illegal Domestic Spying? Don't Count on It”. Washington Spectator.
^ Taipale, Kim A. (15. 12. 2003). „Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data”. Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782 .
^ Resig, John; and Teredesai, Ankur (2004). „A Framework for Mining Instant Messaging Services”. Proceedings of the 2004 SIAM DM Conference.
^ ^а ^б ^в Think Before You Dig: Privacy Implications of Data Mining & Aggregation, NASCIO Research Brief, September 2004
^ Ohm, Paul. „Don't Build a Database of Ruin”. Harvard Business Review.
^ Darwin Bond-Graham, Iron Cagebook - The Logical End of Facebook's Patents, Counterpunch.org, 2013.12.03
^ Darwin Bond-Graham, Inside the Tech industry's Startup Conference, Counterpunch.org, 2013.09.11
^ AOL search data identified individuals, SecurityFocus, August 2006
^ Kshetri, Nir (2014). „Big data׳s impact on privacy, security and consumer welfare”. Telecommunications Policy. 38 (11): 1134—1145. doi:10.1016/j.telpol.2014.10.002.
^ Biotech Business Week Editors (June 30, 2008); BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research, Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic
^ Mikut, Ralf; Reischl, Markus (September—October 2011). „Data Mining Tools”. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 1 (5): 431—445. doi:10.1002/widm.24. Приступљено October 21, 2011. Проверите вредност парамет(а)ра за датум: |date= (помоћ)
^ Karl Rexer, Heather Allen, & Paul Gearan (2011); Understanding Data Miners, Analytics Magazine, May/June 2011 (INFORMS: Institute for Operations Research and the Management Sciences).
^ Kobielus, James; The Forrester Wave: Predictive Analytics and Data Mining Solutions, Q1 2010, Forrester Research, 1 July 2008
^ Herschel, Gareth; Magic Quadrant for Customer Data-Mining Applications, Gartner Inc., 1 July 2008
^ Nisbet, Robert A. (2006); Data Mining Tools: Which One is Best for CRM?
^ Haughton, Dominique; Deichmann, Joel; Eshghi, Abdolreza; Sayek, Selin; Teebagy, Nicholas; and Topi, Heikki (2003); A Review of Software Packages for Data Mining, The American Statistician, Vol. 57, No. 4, pp. 290–309
^ Goebel, Michael; Gruenwald, Le (1999); A Survey of Data Mining and Knowledge Discovery Software Tools, SIGKDD Explorations, Vol. 1, Issue 1, pp. 20–33

Споменице и захвалнице[уреди | уреди извор]

**100 измена**
43%

[acm-1] а ^б ^в ^г „Data Mining Curriculum”. ACM SIGKDD. 2006-04-30. Приступљено 2014-01-27.

[brittanica-2] Clifton, Christopher (2010). „Encyclopædia Britannica: Definition of Data Mining”. Приступљено 2010-12-09.

[elements-3] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). „The Elements of Statistical Learning: Data Mining, Inference, and Prediction”. Приступљено 2012-08-07.

[Fayyad-4] а ^б ^в Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). „From Data Mining to Knowledge Discovery in Databases” (PDF). Приступљено 17. 12. 2008.

[han-kamber-5] Han, Jiawei; Kamber, Micheline (2001). Data mining: concepts and techniques. Morgan Kaufmann. стр. 5. ISBN 978-1-55860-489-6. „Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long”

[witten-6] Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30. 1. 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 изд.). Elsevier. ISBN 978-0-12-374856-0.

[7] Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). „WEKA Experiences with a Java open-source project”. Journal of Machine Learning Research. 11: 2533—2541. „the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.”

[Mena-8] Mena, Jesús (2011). Machine Learning Forensics for Law Enforcement, Security, and Intelligence. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.

[9] Piatetsky-Shapiro, Gregory; Parker, Gary (2011). „Lesson: Data Mining, and Knowledge Discovery: An Introduction”. Introduction to Data Mining. KD Nuggets. Приступљено 30. 8. 2012.

[10] Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll

[Marban-11] Óscar Marbán, Gonzalo Mariscal and Javier Segovia (2009); A Data Mining & Knowledge Discovery Process Model.

[kurgan-12] Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models.

[AzevedoSantos-13] Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview.

[14] „Microsoft Academic Search: Top conferences in data mining”. Microsoft Academic Search.

[15] „Google Scholar: Top publications - Data Mining & Analysis”. Google Scholar.

[16] Proceedings, International Conferences on Knowledge Discovery and Data Mining, ACM, New York.

[17] SIGKDD Explorations, ACM, New York.

[18] Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). „An extension of the PMML standard to subspace clustering models”. Proceedings of the 2011 workshop on Predictive markup language modeling - PMML '11. стр. 48. ISBN 978-1-4503-0837-3. doi:10.1145/2023598.2023605.

[19] Seltzer, William. „The Promise and Pitfalls of Data Mining: Ethical Issues” (PDF).

[20] Pitts, Chip (15. 3. 2007). „The End of Illegal Domestic Spying? Don't Count on It”. Washington Spectator.

[21] Taipale, Kim A. (15. 12. 2003). „Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data”. Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782 .

[22] Resig, John; and Teredesai, Ankur (2004). „A Framework for Mining Instant Messaging Services”. Proceedings of the 2004 SIAM DM Conference.

[NASCIO-23] а ^б ^в Think Before You Dig: Privacy Implications of Data Mining & Aggregation, NASCIO Research Brief, September 2004

[24] Ohm, Paul. „Don't Build a Database of Ruin”. Harvard Business Review.

[25] Darwin Bond-Graham, Iron Cagebook - The Logical End of Facebook's Patents, Counterpunch.org, 2013.12.03

[26] Darwin Bond-Graham, Inside the Tech industry's Startup Conference, Counterpunch.org, 2013.09.11

[27] AOL search data identified individuals, SecurityFocus, August 2006

[28] Kshetri, Nir (2014). „Big data׳s impact on privacy, security and consumer welfare”. Telecommunications Policy. 38 (11): 1134—1145. doi:10.1016/j.telpol.2014.10.002.

[29] Biotech Business Week Editors (June 30, 2008); BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research, Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic

[30] Mikut, Ralf; Reischl, Markus (September—October 2011). „Data Mining Tools”. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 1 (5): 431—445. doi:10.1002/widm.24. Приступљено October 21, 2011. Проверите вредност парамет(а)ра за датум: |date= (помоћ)

[rexer_informs-31] Karl Rexer, Heather Allen, & Paul Gearan (2011); Understanding Data Miners, Analytics Magazine, May/June 2011 (INFORMS: Institute for Operations Research and the Management Sciences).

[32] Kobielus, James; The Forrester Wave: Predictive Analytics and Data Mining Solutions, Q1 2010, Forrester Research, 1 July 2008

[33] Herschel, Gareth; Magic Quadrant for Customer Data-Mining Applications, Gartner Inc., 1 July 2008

[34] Nisbet, Robert A. (2006); Data Mining Tools: Which One is Best for CRM?

[35] Haughton, Dominique; Deichmann, Joel; Eshghi, Abdolreza; Sayek, Selin; Teebagy, Nicholas; and Topi, Heikki (2003); A Review of Software Packages for Data Mining, The American Statistician, Vol. 57, No. 4, pp. 290–309

[36] Goebel, Michael; Gruenwald, Le (1999); A Survey of Data Mining and Knowledge Discovery Software Tools, SIGKDD Explorations, Vol. 1, Issue 1, pp. 20–33

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]