Ushbu usullarning ma'lumotlar konlarini tahlil qilish. Danih Vidoboot Loginom Wiki. Matn ma'lumotlarini tahlil qilish - Text Mining

Golovna / 2 Ajoyib o'quvchilar

Zasobi Data Mining

Hozirgi vaqtda Data Mining texnologiyasi keng tarqalgan bir qator tijorat dasturiy mahsulotlar bilan ifodalanadi. Ushbu mahsulotlarning eng so'nggi va muntazam yangilanadigan ro'yxatini olish uchun veb-saytda topishingiz mumkin www. kdnuggets. com, Data Mining kompaniyasiga tayinlangan. Texnologiyaning o'zini tasniflash uchun asos bo'lgan aynan shu tamoyillarga ko'ra Data Mining dasturiy mahsulotlarini tasniflash mumkin. Biroq, shunga o'xshash tasniflash amaliy ahamiyatga ega emas. Bozordagi raqobatning yuqori darajasi tufayli, Data Mining-ning boy mahsulotlarining to'liq texnik echimlariga amaliyot analitik texnologiyalarning turg'unligining barcha jihatlarini tom ma'noda hayratda qoldiradi. Buning uchun Data Mining mahsulotlarini tasniflash muhimroqdir, chunki hid paydo bo'lganda, hidning integratsiyalashuvi uchun qanday potentsial beriladi. Shubhasiz, aql-idrok tufayli bunday mezon mahsulotlar orasidagi aniqlikni cho'mdirishga imkon bermaydi. Biroq, bu tasnifning bir misli ko'rilmagan afzalligi bor. Von galereyada loyihalarni ishga tushirish, ma'lumotlarni tahlil qilish, qarorni qabul qilishni qo'llab-quvvatlash tizimlarini ishlab chiqish, ma'lumotlar to'plamini yaratish jarayonida keyingi tayyor echimni tanlash to'g'risidagi qarorni maqtashga imkon beradi.

Shunga qaramay, Data Mining mahsulotlarini aqliy jihatdan uchta katta toifaga bo'lish mumkin:

    noma'lum qism kabi ma'lumotlar bazasini boshqarish tizimlarini kiritish;

    sun'iy yo'ldosh infratuzilmasidan Data Mining algoritmlari kutubxonalari;

    korobkoví chi taxta yechimlari ("qora qutilar").

Birinchi ikkita toifadagi mahsulotlar integratsiya uchun eng katta imkoniyatlarni taqdim etadi va har qanday boshqa joyda har qanday qo'shimchada analitik salohiyatni amalga oshirishga imkon beradi. Qutidagi dasturlar, o'z-o'zidan, Data Mining sohasida ba'zi noyob yutuqlarni berishi yoki tog'-kon sanoatining har qanday sohasiga ixtisoslashgan bo'lishi mumkin. Biroq, ko'p sonli o'zgarishlar uchun kengroq echimlar uchun ularni birlashtirish muammoli.

Tijoriy ma'lumotlar bazasini boshqarish tizimlari omboriga tahlillarni kiritish tabiiy va ehtimol katta potentsial tendentsiyadir. Haqiqatan ham, agar ma'lumotlar kontsentratsiyasi joylarida bo'lmasa, ularning ishlarining narxini taqsimlash juda muhimdir. Ushbu tamoyilga asoslanib, Data Mining-ning funksionalligi hozirgi moment kelgusi tijorat ma'lumotlar bazalarida amalga oshiriladi:

    Microsoft SQL Server

Asosiy tezislar

  • Ma'lumotlarning intellektual tahlili ko'p miqdordagi to'plangan ma'lumotlarga asoslanib, boshqa tahlil usullari (masalan, OLAP) bilan qayta ko'rib chiqilishi mumkin bo'lgan gipotezalarni yaratishga imkon beradi.

    Ma'lumotni qazib olish - bu mashinaning merosi (algoritmlar, zamonaviy razvedka) ushbu ma'lumotlardan olingan bilimlar, ilgari ma'lum bo'lmagan, ahamiyatsiz, amaliy jihatdan to'g'ri va odamlar tomonidan talqin qilinishi mumkin.

    Data Mining usullari tomonidan buzilgan uchta asosiy vazifa mavjud: tasniflash va regressiya vazifasi, assotsiativ qoidalarni izlash vazifasi va klasterlash vazifasi. Tan olish uchun tavsif va tarjimalarga badbo'y hid qo'shiladi. Amalga oshirish yo'llari bo'yicha vazifa nazorat ostida o'qitish (o'qituvchi bilan mashg'ulot) va nazoratsiz ta'lim (o'qituvchisiz o'qitish) ga bo'linadi.

    Tasniflash va regresslash vazifasi mustaqil mulkdan keyin eskirgan mulkning ahamiyatiga bog'liq. Agar o'zgaruvchan raqamli qiymatlar bo'lsa, biz regressiya vazifasi haqida, aks holda tasniflash vazifasi haqida gapirishimiz mumkin.

    p align="justify"> Assotsiativ qoidalarni qidirayotganda, men ob'ektlar yoki podiaslar orasidagi qisman konlarni (yoki assotsiatsiyalarni) aniqlash uchun usuldan foydalanaman. Bog'langanlarning topilmalari qoidalar sifatida ko'riladi va ma'lumotlarni tahlil qilish tabiatini eng yaxshi tushunish sifatida g'alaba qozonish mumkin, shuning uchun ularni uzatish.

    Klasterlash vazifasi mustaqil guruhlar (klasterlar) va ularning tahlil qilinadigan barcha ma'lumotlar sonidagi xususiyatlariga asoslanadi. Ushbu vazifani hal qilish ma'lumotlarni yaxshiroq tushunishga yordam beradi. Bundan tashqari, bir hil ob'ektlarni guruhlash ularning sonini tezlashtirishga imkon beradi, shuningdek, tahlilni osonlashtiradi.

    Ma'lumotlarni qidirish usullari turli xil to'g'ridan-to'g'ri axborot texnologiyalari yordamida qo'llaniladi: statistika, neyron tarmoqlar, loyqa ko'paytmalar, genetik algoritmlar va boshqalar.

    Intellektual tahlil quyidagi bosqichlarni o'z ichiga oladi: tahlil vazifasini tahlil qilish va shakllantirish, avtomatlashtirilgan tahlil uchun ma'lumotlarni tayyorlash, Data Mining usullari va tezkor modellarni kompilyatsiya qilish, tezkor modellarni qayta tekshirish, inson modellarini talqin qilish.

    Data Mining usullarini yopishdan oldin ma'lumotlar qayta ishlanishi mumkin. Zastosovuetsya usullari shaklida yotish uchun transformatsiya turi.

    Ma'lumotni qazib olish usullari inson faoliyatining turli sohalarida samarali g'alaba qozonishi mumkin: biznes, tibbiyot, fan, telekommunikatsiya va boshqalar.

3. Matnli axborotni tahlil qilish - Text Mining

Ma'lumotlar bazalarida saqlanadigan tuzilgan ma'lumotlarni tahlil qilish, shu jumladan oldinga ishlov berish: ma'lumotlar bazasini loyihalash, ma'lumotlarni qoidalarga muvofiq kiritish, ma'lumotlarni maxsus tuzilmalarda (masalan, aloqador jadvallar) joylashtirish. Ushbu darajada vositachisiz, ushbu ma'lumotni tahlil qilish va undan yangi bilimlarni olish uchun qo'shimcha bilimlardan foydalanish kerak. Kim uchun badbo'y hid yomon natija ishlab chiqarish uchun tahlil va obov'yazkovo bog'langan. CCD kursi orqali tuzilgan ma'lumotlarni tahlil qilish kamayadi. Bundan tashqari, barcha ma'lumotlarni asosiy ma'lumotlarni isrof qilmasdan tuzib bo'lmaydi. Masalan, matnning semantikasini yo'qotmasdan va ob'ektlarni farqlamasdan matnli hujjatlarni jadval ko'rinishiga o'zgartirish amalda mumkin emas. Shuning uchun hujjatlar ma'lumotlar bazasida matn maydonlari (BLOB-maydonlari) kabi o'zgartirilmasdan saqlanadi. Shu bilan birga, matnga katta hajmdagi ma'lumotlar ilova qilinadi, ammo tuzilmaning etishmasligi Data Mining algoritmlarini buzishga imkon bermaydi. Ushbu muammolarni hal qilish uchun tuzilmagan matnni tahlil qilish usullari va usullari o'rganilmoqda. G'arb adabiyoti bunday tahlilni Text Mining deb ataydi.

Tarkibi tuzilmagan matnlarni tahlil qilish usullari bir qator sohalarda yotadi: ma'lumotlarni qidirish, tabiiy tillarni qayta ishlash, ma'lumot qidirish, ma'lumotni tadqiq qilish va bilimlarni boshqarish.

Destination Text Mining: Matndagi bilimlarni ochish - bu strukturaviy bo'lmagan matn ma'lumotlaridagi haqiqiy yangi, potentsial jigarrang va oqilona naqshlarni ochishning ahamiyatsiz jarayoni.

Bachimo singari, Data Mining nomini hisobga olgan holda, u "tuzilishsiz matnli ma'lumotlar" tushunchasi uchun yangi bo'lib tuyuladi. Bunday bilimlar ostida matnni hech qanday chegara tuzilmasisiz mantiqiy birlashtirgan hujjatlar to'plamini tushunish mumkin. Bunday hujjatlarning ilovalari quyidagilar: elektron pochta, me'yoriy hujjatlar va boshqalar. n. Yirtqich tur uchun bunday hujjatlar yig'ma va katta bo'lishi mumkin va ular nafaqat matn, balki grafik ma'lumotlarni ham o'z ichiga oladi. XML tilini (kengaytirilgan belgilash tili), standart SGML tilini (Standard Generalized Markup Language) va matn tuzilishiga mos keladigan boshqa shunga o'xshash hujjatlarni qo'llab-quvvatlaydigan hujjatlar odatda nap_structured hujjatlar deb ataladi. Xushbo'y hidni Text Mining usullari yordamida qayta ishlash mumkin.

Matnli hujjatlarni tahlil qilish jarayoni bir necha parchalar ketma-ketligi sifatida topshirilishi mumkin

    Ma'lumot qidirish. Avvalo, hujjatlarni qanday tahlil qilish mumkinligini aniqlash va ularning mavjudligini ta'minlash kerak. Qoida tariqasida, mualliflar tahlil qilinadigan hujjatlar to'plamini mustaqil ravishda - qo'lda tanlashlari mumkin, ammo hujjatlarning ko'pligi uchun berilgan mezonlarga muvofiq avtomatlashtirilgan tanlash variantlarini tanlash kerak.

    Hujjatlarni oldindan qayta ishlash. Buning asosida hujjatlarni topshirish uchun eng oddiy, ammo ayni paytda eng zarur qayta ishlash qo'llaniladi, ular yordamida Matn qazib olish usullari qo'llaniladi. Bunday transformatsiyalar usuli zayvih slyv va suvorisho shakli matnini olib tashlashdir. Oldinga ishlov berish usuli haqidagi hisobot bo'limda tavsiflanadi.

    Axborotni bashorat qilish. Turli hujjatlardagi ma'lumotlarni o'rganish ba'zi asosiy odamlarning qarashlarini tushunishga o'tkazadi, undan keyingi tahlillarni amalga oshirish mumkin.

Matn qazib olishda usullar tanlovi. Matnlardagi shablonlar va stosunki, yaki ê, bu timsohga osilgan. Bu krok matnlarni tahlil qilish jarayonida asosiy hisoblanadi va amaliy vazifalar, go'yo ular bu krotsni buzadi.

Natijalarni talqin qilish. Qolgan guruch bilimlarni namoyon qilish jarayoni olingan natijalarning talqinini o'tkazadi. Qoidaga ko'ra, talqin berilgan natijalarda tabiiy yoki grafik usulda bo'ladi.

Vizualizatsiya matnni tahlil qilish usuli sifatida vikoristana bo'lishi mumkin. Kim uchun kalitlar tushuniladi va ular grafik ko'zga beriladi. Bunday pídhíd koristuvacheví shvidko índentifíkívatí brvíga o'sha ít íntellektiga yordam beradi, shuningdek, ularning ahamiyatini bildiradi.

Oldinga oʻralgan matn

Matnlarni tahlil qilishda asosiy muammolardan biri hujjatlardagi so‘zlarning ko‘pligidir. Tahlil qilish uchun bu so'zlarning terisi sifatida, yangi bilimlarni izlash uchun bir soat keskin o'sadi va koristuvachilarning yordamchilari bilan qoniqish ehtimoli yo'q. Shu bilan birga, matndagi barcha so'zlar ham to'g'ri ma'lumot bera olmasligi aniq. Qolaversa, tabiiy tilning egilishi orqali formal jihatdan har xil so`zlar (toshcho sinonimlari) haqiqatda bir xil tushunchani bildiradi. Shu tariqa, maʼlumotga ega boʻlmagan misralarni olib tashlash, shuningdek, belgiga yaqin boʻlgan misralarni yagona shaklga keltirish matnlar tahlilini sezilarli darajada tezlashtiradi. Usunennya tsikh muammolari matnni oldinga qayta ishlash bosqichida vykonuêtsya.

Ovoz vikoristovuyut shuning uchun turli xil ma'lumotga ega bo'lmagan so'zlarni qabul qiling va matnlarning jasurligini oshiring:

    Ko'rinadigan svetofor. To'xtash so'zlari - qo'shimcha bo'lgan va hujjat haqida kam ma'lumotga ega bo'lgan so'zlar.

    Stemming-morfologik o'rganish. Vín polagaê y teri so'zini normal shaklga o'zgartirdi.

    L-grammasi morfologik tahlil qilish va to'xtatuvchi qismni olib tashlash uchun muqobildir. Biz ma'lumotga ega bo'lmagan so'zlar sonini o'zgartirish muammosini buzmasdan matnni umumlashtirishga ruxsat beramiz;

    Berilgan registr. Ushbu usul bilan barcha belgilarning katta yoki kichik harflarga tarjimasi.

Stosuvannya sirtini tiklash usullarining eng samarali usuli.

Matn qazib olish bo'limi boshlig'i

Adabiyotlarda matnli hujjatlarni qo'shimcha tahlil qilish bilan bog'liq bo'lgan ko'plab amaliy vazifalar tasvirlangan. Bular Data Miningning klassik vazifalari: tasniflash, klasterlash va topshiriqlardagi matnli hujjatlar uchun koʻproq xosdir: avtomatik izohlash, buni tushunish uchun asosiylarini tushunish.

Tasniflash ma'lumotlarni konchilik sohasidagi standart vazifadir. Їїí usuli ê teri hujjatining belgilanishi bir êíí chi kílkoh zadalegíd zadalegíd categoríy, yakíh tsey hujjat yolgʻon. Tasniflagichning o'ziga xos xususiyati shundaki, shaxssiz tasniflovchi hujjatlar "zarba" uchun qasos olmaydi, shuning uchun hujjatlardagi teri toifaning tayinlanganligini tasdiqlaydi.

Biz tasniflash boshlig'ini va hujjat mavzusini belgilash boshlig'ini hal qilamiz.

Hujjatlarni klasterlash usuli - ma'lum bir qat'iy multiplikator muhitida semantik jihatdan o'xshash hujjatlar guruhlarini avtomatik ravishda aniqlash. Guruhlar faqat hujjatlar tavsiflarining juftlik o'xshashligi asosida tuzilganligi va bu guruhlarning bir xil xususiyatlari oldindan belgilab qo'yilganligi muhimdir.

Avtomatik xulosa (xulosa) biroz bo'sh joyni tejagan holda matnni qisqartirish imkonini beradi. Vazifaning maqsadi tanlangan takliflar soni yoki butun matnga havola bo'yicha ko'rish mumkin bo'lgan matn yordamida tartibga solinishdir. Natija matndagi eng muhim takliflarni o'z ichiga oladi.

Kalit so'zlarni tushunishning asosiy usuli (xususiyatlarni ajratib olish) matndagi faktlarni aniqlashdir. Vipadkivlarning ko'pchiligi ismlar va nomlar kabi tushunchalarga ega: odamlarning ismlari va ismlari, tashkilotlarning nomlari va boshqalar. O'rganish algoritmlarini lug'atlardan foydalanib, boshqalarni belgilash uchun maxsus atamalar va lingvistik naqshlarni aniqlash orqali tushunish mumkin.

Matn orqasidagi navigatsiya (matn asosidagi navigatsiya) stenyorlarga hujjatlarni istalgan mazmunli so'zlarda harakat qilish imkonini beradi. rahunok uchun Tse vikonuêtsya ular orasida deyaky vídnosin tushunish uchun ídentifíkatsíí kalit.

Trend tahlili butun davr uchun hujjatlar to'plamidagi tendentsiyalarni aniqlash imkonini beradi. Bu tendentsiyani qaytarish mumkin, masalan, kompaniya manfaatlarining bozor segmentidan ikkinchisiga o'zgarishi.

Qidiruv assotsiatsiyasi ham Data Miningning asosiy vazifalaridan biridir. Berilgan hujjatlar to'plamining maqsadi uchun asosiy tushunchalar orasidagi assotsiativ g'oyalar aniqlanadi.

Ísnuê turli xil vazifalarni bajarish va ularni bajarish usullarini o'rganish. Bu matn tahlilining muhimligini isbotlaydi. Masofada, kimga farq qiladi, kelgusi vazifalarning qarorlari ko'rib chiqiladi: asosiylarini tushunish, tasniflash, klasterlash va ularni avtomatik ravishda hal qilish uchun o'rganish.

Matnli hujjatlarning tasnifi

Matnli hujjatlarning tasnifi, taqdim etilgan hujjatdagi ob'ektlarning turli tasniflaridagi kabi, quyidagi sinflardan biriga qadar. Ko'pincha yuzlab matnli hujjatlarning tasnifi turkumlash yoki rubrikatsiya deb ataladi. Ko'rinib turibdiki, bu nomlar kataloglar, toifalar va sarlavhalar bo'yicha hujjatlarni tizimlashtirish vazifasiga o'xshaydi. Bunda kataloglarning tuzilishi ham bir darajali, ham bir qatorli (arxik) bo'lishi mumkin.

Rasmiy ravishda, matnli hujjatlarni tasniflash vazifasi ko'paytmalar to'plami bilan tavsiflanadi.

Ushbu ma'lumotlar asosida tasniflash vazifasi uchun, xuddi yakuniy hujjat uchun multiplikatorning eng muhim toifasida bo'lgani kabi, protsedurani keltirib chiqarish kerak.

Klassifikasiyaning Belshiya usuli Matn jarayoni shunday chorunted, chashkalar, cos bir xil toifalarga, Mistyati, bir -tocks (Chi so'zlari iboralar), iegos fantastika yaqinligi uchun bunday maqsadli diability.

Bunday shaxssiz belgi ko‘pincha lug‘at deyiladi, chunki u leksemalar orqali yasaladi, chunki u turkumni tavsiflovchi so‘z va/yoki iboralarni o‘z ichiga oladi.

Shuni ta'kidlash kerakki, ushbu belgilar to'plami matnli hujjatlarni Data Mining-da ob'ekt tasnifi ko'rinishida tasniflash uchun ishlatiladi, chunki ular atributlar to'plami bilan tavsiflanadi.

Hujjatni berish to'g'risidagi qaror "c" toifasiga qadar bayroqlar asosida qabul qilinadi

Tasniflash usullarining boshlig'i bunday belgilarni tanlash va qoidalarni shakllantirish eng yaxshisi ekanligiga asoslanadi, buning asosida hujjatni sarlavhaga kiritish to'g'risida qaror qabul qilinadi.

Tahlil qiling matnli ma'lumotlar

    Maxsus Oracle - Oracle Text2

Oracle 7.3.3 versiyasidan boshlab, Oracle mahsulotlarining ajratib bo'lmaydigan qismining matn tahlilini oling. Oracle-da qi koshti yangi nomni ishlab chiqdi va olib tashladi - DBMSga integratsiyalashgan Oracle Text-dasturiy ta'minot kompleksi, bu tuzilmagan matnlar uchun qo'llaniladigan so'rovlar bilan samarali ishlash imkonini beradi. Matnni qayta ishlashda relyatsion ma'lumotlar bazalari bilan ishlash uchun koristuvachev tomonidan berilgan imkoniyatlardan foydalanish kerak bo'ladi. Zocrema, matnni qayta ishlash uchun dasturlarni yozishda SQL-dan foydalanish mumkin bo'ldi.

Asosiy vazifalar, Oracle Text nimaga qaratilganligi asosida, ularni o'zgartirish uchun hujjatlarni qidirish vazifasi - so'zlar va iboralar uchun, agar kerak bo'lsa, bir nechta mantiqiy operatsiyalar bilan birlashtirilishi mumkin. Qidiruv natijalari ma'lum hujjatlardagi so'zlarning chastotasini yaxshilash bo'yicha ahamiyati bo'yicha tartiblangan.

    IBM Tools - Text1 uchun Intelligent Miner

Kompaniyaning mahsuloti IBM Intelligent Miner for Text - bu buyruq satridan yoki skriptlardan biri yoki boshqasidan ishga tushirilishi mumkin bo'lgan o'nta yordam dasturlari to'plami. Tizim matnli ma'lumotlarni tahlil qilish vazifasini bajarish uchun turli xil yordamchi dasturlarni birlashtirishi kerak.

IBM Intelligent Miner for Text o'zining asosan butun mahsulotga xos bo'lgan axborotni qidirish mexanizmlariga asoslangan asboblar to'plamini doimiy ravishda kengaytirmoqda. Tizim bir qator asosiy komponentlardan iborat bo'lib, ular matnni qazib olish texnologiyasi o'rtasida mustaqil ahamiyatga ega bo'lishi mumkin:

    Zasobi SAS instituti - matn konchisi

Amerikaning SAS Institute kompaniyasi yozma tilda grammatik va og'zaki chiziqlarni moslashtirish uchun SAS Text Miner tizimini chiqardi. Text Miner ham universaldir, parchalar turli formatdagi matnli hujjatlar bilan - ma'lumotlar bazalarida, fayl tizimlarida va Internetdan uzoqda ishlashi mumkin.

Text Miner SAS Enterprise Miner paketining o'rtasida matnni mantiqiy qayta ishlashni ta'minlaydi. Tse koristuvachlarga ma'lumotlarni tahlil qilish jarayonini takomillashtirishga imkon beradi, tuzilmagan matnli ma'lumotlarni ma'lumotlarning aniq tuzilishi bilan birlashtiradi, masalan, asr, daromad va vaucher ichimlikning tabiati.

Asosiy tezislar

    Matnlarda bilimlarni oshkor qilish - tuzilmagan matn ma'lumotlaridagi haqiqiy yangi, potentsial jigarrang va oqilona naqshlarni ochishning ahamiyatsiz jarayoni.

    Matnli hujjatlarni tahlil qilish jarayoni bir necha kichik bosqichlar ketma-ketligi sifatida mumkin: ma'lumot qidirish, hujjatlarni oldinga qayta ishlash, axborotni tahlil qilish, Matnni qazib olish usullarini tahlil qilish, natijalarni sharhlash.

    Vikorist ovozi bo'lsin, shuning uchun ma'lumotga ega bo'lmagan so'zlarni qo'llashni va matnlarni rivojlantirishni qabul qiling: to'xtash so'zlari, stemming, L-grammalar va holatlar registrlari.

    Matn ma'lumotlarini tahlil qilish uchun vazifalar: tasniflash, klasterlash, avtomatik izohlash, kalit so'zlarni olib tashlash, matn bo'ylab harakatlanish, trend tahlili, assotsiatsiyalarni qidirish va boshqalar.

    Asosiylarini tushunish matnlardan amaliy vazifa sifatida ham, matnlarni tahlil qilishning asosiy bosqichi sifatida ham tushunilishi mumkin. Matnni tahlil qilish vaqtida tahlilning turli vazifalari bo'yicha xulosalarga faktlar keltiriladi.

    Qo'shimcha shablonlarni tushunish uchun kalit so'zlarni o'rganish jarayoni ikki bosqichda amalga oshiriladi: birinchi bosqichda matnli hujjatlardan qo'shimcha leksik tahlil qilish uchun ko'proq faktlar o'ynaladi, ikkinchi bosqichda o'rganilgan faktlarni birlashtirish va/yoki yangi so'zlarni kiritish. faktlar.

    Klassifikasiyaning Belshiya usuli Matn jarayoni shunday chorunted, chashkalar, cos bir xil toifalarga, Mistyati, bir -tocks (Chi so'zlari iboralar), iegos fantastika yaqinligi uchun bunday maqsadli diability.

    Klasterlashda kattaroq algoritmlar ma'lumotlar vektor makonining vizual modeliga taqdim etilganligini anglatadi, chunki u ma'lumotli hazil va fazoviy yaqinlik sifatida semantik o'xshashlikni vizualizatsiya qilish uchun g'olib metafora uchun keng qo'llaniladi.

    Matnli hujjatlarni avtomatik izohlashning ikkita asosiy yondashuvi mavjud: oldingi (eng muhim bo'laklarni ko'rish) va oldingi (bilimni oldindan ajratib ko'rsatish).

Visnovok

Ma'lumotlarning intellektual tahlili bevosita amaliy matematikada eng dolzarb va talabchan hisoblanadi. Mavjud biznes jarayonlari va o'zgaruvchanlik katta hajmdagi ma'lumotlarning paydo bo'lishiga olib keladi va odamlar uchun juda ko'p ma'lumotlarni sharhlash va ularga javob berish tobora muhimroq bo'lib bormoqda, chunki ular urush paytida dinamik ravishda o'zgarib turadi, ammo taraqqiyot haqida hali ko'rinmaydi. tanqidiy vaziyatlardan. "Ma'lumotlarning intellektual tahlili" boy, xilma-xil, noto'g'ri, noto'g'ri, o'ta aniq, bilvosita ma'lumotlardan maksimal ma'lumotni olib tashlaydi. Ma'lumotlar gigabayt yoki terabaytlarda ishlatilgandek, samarali o'sishga yordam beradi. Algoritmlarni ishlab chiqishni qo'llab-quvvatlash, turli xil professional galleylardan echimlarni qabul qilishni o'rganish.

Koshti "Intellektual ma'lumotlar tahlili" odamlarni axborot bosimidan himoya qiladi, tezkor ma'lumotlarni o'z vaqtida qabul qilinishi kerak bo'lgan asosiy ma'lumotlarga aylantiradi.

Amaliy tadqiqotlar quyidagi yo'nalishlar bo'yicha olib boriladi: - iqtisodiy tizimlarda prognozlash; marketing natijalarini avtomatlashtirish va tijorat, savdo, telekommunikatsiya va internet kompaniyalari uchun mijozlar ommaviy axborot vositalarini tahlil qilish; kredit qarorlarini qabul qilish va kredit risklarini baholashni avtomatlashtirish; moliyaviy bozorlar monitoringi; avtomatik savdo tizimlari.

Adabiyotlar ro'yxati

    «Ma'lumotlarni tahlil qilish texnologiyasi: ma'lumotlarni qazib olish. vizual qazib olish. Matn qazib olish, OLAP” A. A. Barseghyan. M. S. Kupriyanov, V. V. Stenanenko, I. I. Sovuq. - 2-ko'rinish., qayta ko'rib chiqilgan. bu dod.

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - Internet maqolalari

    http://www.piter.com/contents/978549807257/978549807257_p.pdf - Ma'lumotlarni tahlil qilish texnologiyalari

    Diplom ishi >> Bankivska o'ngda

    Vikoristannyam klasterining rahbari, og'zaki tahlil, tuzatish koeffitsientlari va boshqalar, shuningdek ... intellektual tahlil Ma'lumotlar Tog'-kon (c... Kob bosqichida tahlil amalga oshirilsin tahlil yaxshi mushuklar ...

  1. Tahlil ixtiyoriylikni amalga oshiradigan joriy axborot tizimlari bozorining tasnifi,

    Annotatsiya >> Informatika

    1.3 Rol chegarasi 6 2. Teng tahlil har xil turdagi tizimlar 7 Operatsion tizimlar... quyidagilarni o'z ichiga olgan tizimlar: tahlil ushbu xususiyatlarning xavfsizlik siyosati, ... qo'shimchalar yoki boshqalarni amalga oshirish intellektual tahlil danich. Ungacha...

  2. Intellektual zdybností iqtidorli bolalar maktab muvaffaqiyati bilan bog'liq

    Diplom ishi >> Psixologiya

    Muvaffaqiyat va o'ziga xosliklarning o'zaro ta'siri intellektual rivojlanish. Nazariy asosda tahlil bula ...siz aqlga yetib borish muammolari tahlil yoga psixologik tuzilishi. Baholash uchun Virishal intellektual tasalli beradi...

Data Mining nima

Data Mining vazifalarini tasniflash

Assotsiativ qoidalarni so'rash

Klaster bo'limi boshlig'i

Statistica 8-da ma'lumotlar ishlab chiqaruvchisi imkoniyati

Maxsus tahlil STATISTICA Data Miner

Data Minin-da robotlar

Tovushlar va pidbaglarni yaratish

Ma'lumotlarni saralash

Turar-joy binolari narxini tahlil qilish

Hayotni bashorat qiluvchi tahlil

Visnovok


Data Mining nima

Hozirgi kompyuter atamasi Data Mining "vityag ínformatsií" yoki "ma'lumotlar kabinasi" deb tarjima qilingan. Ko'pincha Data Mining tartibida Knowledge Discovery ("oshkor qilingan bilim") va Data Warehouse ("ma'lumotlar to'plami") atamalari qo'llaniladi. Ma'lumotlar konchiligining ko'rinmas qismi sifatida atamalarni belgilashning oqlanishi foyda va ma'lumotlarni qayta ishlash va yig'ish usullarini rivojlantirishning yangi bosqichi bilan bog'liq. Bundan buyon meta Data Mining katta (hatto katta) majburiyatlarning aniqlangan qoidalari va naqshlariga asoslanadi.

To'g'ri, inson ongi o'z-o'zidan turli xil ma'lumotlarning katta massivlarini qabul qilish uchun mos emas. O'rtacha odamda, krim deyakyh índivíduumív, kichik tebranishlarda ikki yoki uch vza'emozv'yazkív ko'proq qo'lga olish uchun nezdatno. Ammo uzoq vaqt davomida ma'lumotlarni tahlil qilish uchun asosiy vosita rolini o'z zimmasiga olgan an'anaviy statistika, shuning uchun vazifa real hayotdan olinganida ko'pincha muvaffaqiyatsizlikka uchraydi. Вона оперує усередненими характеристиками вибірки, які часто є фіктивними величинами (середньою платоспроможністю клієнта, коли в залежності від функції ризику або функції втрат вам необхідно вміти прогнозувати спроможність та наміри клієнта; середньою інтенсивністю сигналу, тоді як вам цікаві характерні особливості та передумови піків сигналу тощо) d.).

Shuning uchun, matematik statistika usullari, parda ortidagi gipotezalarni qayta ko'rib chiqishning eng muhim sababidir, hatto gipotezalarni belgilash katlama va mashaqqatli vazifalar bilan amalga oshirilishi mumkin. Zamonaviy Data Mining texnologiyalari shablonlarni (naqshlarni) avtomatik qidirish usulidan foydalangan holda ma'lumotlarni qayta ishlaydi, heterojen boy ma'lumotlarda ba'zi qismlar mavjud. Data Mining-da ma'lumotlarni operativ analitik qayta ishlash (OLAP) maqsadida gipotezani shakllantirish va kutilmagan naqshlarning namoyon bo'lishi odamlardan kompyuterga o'tkazildi. Ma'lumotni qazib olish - bu bitta emas, balki bilimlarni rivojlantirishning juda ko'p turli xil usullari to'plamidir. Tanlash usuli ko'pincha mavjud ma'lumotlar turiga va siz qo'lga kiritmoqchi bo'lgan ma'lumotlar turiga qarab qo'llaniladi. Eksa, masalan, ikkilanish usullari: assotsiatsiya (kombinatsiya), tasniflash, klasterlash, vaqt seriyalarini tahlil qilish va prognozlash, neyron tarmoqlar.

Keling, oshkor bo'lgan bilimlarning kuchini, rasmiylarning ma'lumotlarini ko'rib chiqaylik.

Bilim yangi, ilgari noma'lum bo'lishi mumkin. Vitracheni zusillya vydkrittya bilim, yaky vzhe vídomí koristuvacheví, to'lamang. Shuning uchun, yangi, ilgari noma'lum bilimga aylanishning qiymati.

Bilim ahamiyatsiz bo'lishi mumkin. Aybdorlikni tahlil qilish natijalari noaniq, ma'lumotlarning qonuniyatlariga mos kelmaydigan ko'rinadi, bu esa uni bilimga ega bo'lish deb ataydi. Ko'proq olib tashlanishi mumkin bo'lgan natijalar oddiy usullar(masalan, vizual ko'rib chiqish bilan) haqiqatan ham Data Mining-ning qiyin usullaridan o'rganmang.

Bilim mayut buti amalda jigarrang. Ishonchliligi yuqori bo'lgan yangi ma'lumotlar bo'yicha, shu jumladan zastosovny xatolar haqida bilim topildi. Maydonning egriligi shundaki, bu bilim ular to'xtab qolganda qo'shiq kuylashi mumkin.

Aqlli odam bilishi mumkin. Ma'lum bo'lgan qonuniyatlarni mantiqan tushunish mumkin, aks holda imovirnist tuyg'usi bor, hid vipadkovymi. Bundan tashqari, aybdorlik bilimi oshkor bo'ldi, lekin u qaraydigan odam uchun oqilona odamga taqdim etildi.

Data Mining-da bilimlarning namoyishi namuna sifatida xizmat qiladi. Yotish uchun modellarni ularni yaratish usullarida ko'rishingiz mumkin. Eng kengaytirilganlari: qoidalar, qarorlar daraxtlari, klasterlar va matematik funktsiyalar.

Data Mining turg'unlik sohasi hech narsa bilan cheklanmaydi - Data Mining tuz donasi bilan iste'mol qilinadi, masalan, ma'lumotlar. Dosvyd boylik podpriyomstv pokao, scho víddacha víd víd vikoristannya Data Mining 1000% ga yetishi mumkin. Misol uchun, 350 dan 750 minggacha bug'doy boshoqlari bilan 10-70 marta to'lib ketgan iqtisodiy samara haqida gapiraylik. USD 20 million dollarlik loyiha haqida ma'lumot taqdim etildi, bu 4 oydan kamroq vaqt ichida o'zini oqladi. Ikkinchi ko't - 700 ming tejamkorlik. USD Buyuk Britaniyadagi Merezhi supermarketlarida Data Mining kompaniyasini ilgari surish uchun. Data Mining olimlar va tahlilchilar uchun kundalik ishlarida katta ahamiyatga ega. Diloviylar Data Mining usullari yordamida raqobatbardosh kurashda muhim ustunliklarni qo'lga kiritishlari mumkinligini ko'rdilar.

DataMining vazifalarini tasniflash

DataMining usullari sizga tahlilchi tiqilib qolgan ko'plab muammolarni ko'rish imkonini beradi. Ularning asosiylari: tasniflash, regressiya, assotsiativ qoidalarni izlash va klasterlash. Pastga surildi qisqa Tasvir Ma'lumotlarni tahlil qilishning asosiy vazifasi.

1) Tasniflash vazifasi ob'ektning xususiyatlariga ko'ra sinfiga berilishi kerak. Quyidagilarni belgilang, qaysi vazifalarda shaxssiz sinflar mavjud, ularda ob'ekt ta'riflari bo'lishi mumkin, ro'yxat orqasida.

2) Regressiya vazifasi, xuddi tasniflash vazifasiga o'xshab, berilgan parametrning qiymatini ob'ektning berilgan xususiyatlariga berish imkonini beradi. Tasniflash vazifasiga ko'ra, parametr qiymatlari anonim sinflarning oxiri emas, balki haqiqiy raqamlarning yo'qligi.

3) uyushma rahbari. p align="justify"> Assotsiativ qoidalarni qidirayotganda, men ob'ektlar yoki podiaslar orasidagi qisman konlarni (yoki assotsiatsiyalarni) aniqlash uchun usuldan foydalanaman. Bog'langanlarning topilmalari qoidalar sifatida ko'riladi va ma'lumotlarni tahlil qilish tabiatini eng yaxshi tushunish sifatida g'alaba qozonish mumkin, shuning uchun ko'rinishlarni uzatish mumkin.

4) Klasterlash vazifasi tahlil qilinadigan barcha ma'lumotlar sonida ushbu xususiyatlarning mustaqil guruhlarini (klasterlarini) izlashga asoslangan. Ushbu vazifani hal qilish ma'lumotlarni yaxshiroq tushunishga yordam beradi. Bundan tashqari, bir hil ob'ektlarni guruhlash ularning sonini tezlashtirishga imkon beradi, shuningdek, tahlilni osonlashtiradi.

5) Oxirgi naqshlar - ular o'rtasida soat bilan bog'liq bo'lgan qonuniyatlarni o'rnatish, keyin. X ning podasi bo'lgan kuzgi ochiladi, keyin soat vazifalaridan so'ng Y ning podasi paydo bo'ladi.

6) Topilmalarni tahlil qilish - eng xarakterli bo'lmagan naqshlarni aniqlash.

Topshiriqlar ro'yxati tavsif va o'tkazmalarga bo'lingan deb e'tirof etiladi.

Administratorning tavsiflari (tavsiflovchi) tahlil qilinayotgan ma'lumotlar bilimiga hurmat qo'shadi. Bunday modellardagi asosiy nuqta - bu odamni qabul qilish uchun natijalarning engilligi va shaffofligi. Ehtimol, aniqlangan qonuniyatlar to'plangan aniq ma'lumotlarga xos bo'lib, keng tarqalgan bo'lmaydi, lekin barchasini bo'yash va ko'rish mumkin. Bunday vazifani bajarishdan oldin klasterlash va assotsiativ qoidalarni izlash qo'llanilishi kerak.

Vazifani o'tkazish to'g'risidagi qaror ikki bosqichga bo'linadi. Birinchi bosqichda ma'lumotlar to'planishiga qarab, model natijalarga asoslanadi. Boshqa bosqichda, yangi ma'lumotlar to'plamini taqdim etish natijalarini bashorat qilish g'alaba qozonadi. Bu tabiiy bo'lsa, modellar iloji boricha aniq yaratilgan bo'lishi kerak. Oldin berilgan turlar vazifalarga tasniflash va regressiya vazifalari kiradi. Bu erda siz assotsiativ qoidalarni qo'shishingiz va so'rashingiz mumkin, shunda bu virishennia natijalari ma'lum podiaslarning ko'rinishini o'tkazish uchun tanlanishi mumkin.

Amalga oshirish yo'llari bo'yicha vazifa nazorat ostida o'qitish (o'qituvchi bilan mashg'ulot) va nazoratsiz ta'lim (o'qituvchisiz o'qitish) ga bo'linadi. Bu nom ingliz adabiyotida tez-tez qo'llaniladigan va barcha Data Mining texnologiyalarini bildiruvchi Machine Learning (mashinalarni o'rganish) atamasiga o'xshaydi.

Nazorat ostidagi o'rganish davrida ma'lumotlarni tahlil qilish vazifasi bir necha bosqichda buziladi. Shu bilan birga, yordam uchun, Data Mining algoritmi qanday bo'lishidan qat'i nazar, ma'lumotlar modeli - klassifikator bo'ladi. Keling, o'rganish uchun klassifikatorni olaylik. Boshqacha qilib aytganda, yoga robotining sifati qoniqarsiz bo'lsa-da, qayta ko'rib chiqilmoqda; Shunday qilib, o'sha soatgacha, kerakli sifat darajasiga erishilgunga qadar harakat qiling yoki algoritm ma'lumotlar bilan to'g'ri ishlamayotgani yoki ma'lumotlarning o'zi ko'rinib turganidek tuzilmalarni yaratmasligi aniq bo'ladi. Tasniflash va regressiya vazifasi qaysi turdagi vazifadir.

Nazoratsiz o'rganish kundalik tartib bo'lib, tavsif modellarini ochib beradi, masalan, ajoyib do'kon mijozlari xarid qilishdagi qonuniyatlarni. Shubhasiz, qonuniyatlar mavjud bo'lsa-da, keyin maê í̈x soliq modeli va íí ta'lim haqida nomuvofiq gapirish. Zvidsi th nomi - nazoratsiz o'rganish. Bunday vazifalarning afzalligi ma'lumotlarni tahlil qilish bo'yicha oldingi bilimlarsiz ularni bajarish imkoniyatidir. Ulardan oldin klasterlashni ko'rish va assotsiativ qoidalarni qidirish mumkin.

Tasniflash va regressiya boshlig'i

Tahlil qilishda ko'pincha berilgan sinflardan qaysi birini ob'ektga qo'shish kerakligini ko'rsatish, ya'ni ularni tasniflash kerak. Misol uchun, agar biror kishi kredit olish uchun bankka borsa, bank xodimi qarorni maqtashi mumkin: kreditni rag'batlantiruvchi potentsial mijoz nima. Ko'rinib turibdiki, bunday yechim ob'ektni (bu holda - shaxs) tugatganligi to'g'risidagi ma'lumotlar asosida qabul qilinadi: xuddi shu ish joyi, ish haqining oshishi, ish haqi, xuddi shu narsaning ombori. Ushbu ma’lumotlarning tahlili natijasida bank xodimi shaxsni “kreditni rag‘batlantiruvchi” va “kreditni targ‘ib etmaydigan” ikki toifadan biriga qadar kiritishda aybdor hisoblanadi.

Tasniflash boshlig'ining ikkinchi ustuni - bu elektron pochtani filtrlash. Ba'zi sabablarga ko'ra, filtrlash dasturi ogohlantirishlarni spam (nebazhana e-mail) yoki ro'yxat sifatida tasniflashda aybdor. Ushbu yechim qo'shiq yozuvlarida paydo bo'lish chastotasi asosida qabul qilinadi (masalan, obsesif, maxsus hayvonning nomi, ibora o'sha ibora: kel, "pul top", " vizual taklif"va hokazo).

ma'lumotlarni tahlil qilish) va ma'lumotlarni operativ tahliliy qayta ishlash uchun asos bo'ladigan "qo'pol" tahlil (OnLine Analytical Processing, OLAP), shuningdek, Data Mining-ning asosiy qoidalaridan biri - aniq bo'lmagan narsalarni qidirish. naqshlar. Data Mining vositalari bunday qonuniyatlarni mustaqil ravishda bilishi va o'zaro bog'lanishlar haqidagi farazlarni mustaqil ravishda ishlab chiqishi mumkin. Depozitlar bo'yicha gipotezani shakllantirishning o'zi eng murakkab vazifalar bo'lsa-da, boshqa tahlil usullari bilan Data Miningning afzalligi aniq.

Ma'lumotlarni qazib olishda o'zaro bog'liqlikni aniqlashning statistik usullarining aksariyati ma'lumotlar konchiligi haqiqiy qiymatlarda ishlaganidek, noaniq qiymatlar bo'yicha operatsiyalarga olib keladigan tanlov bo'yicha o'rtachalashtirish kontseptsiyasiga asoslanadi.

OLAP retrospektiv ma'lumotlarni tahlil qilish uchun ko'proq mos keladi, Data Mining kelajakdagi ma'lumotlar uchun dalillarni olish uchun retrospektiv ma'lumotlarga tayanadi.

Ma'lumotlarni qazib olish texnologiyasi istiqbollari

Data Mining salohiyati stendlararo texnologiyani kengaytirish uchun "yashil chiroq" beradi. Data Mining uchun ba'zi istiqbollar bevosita ishlab chiqilishi mumkin:

  • eng dolzarb evristikadan mavzu sohalari turlarini ko'rish, ularning rasmiylashtirilishi ushbu sohalar oldida turgan Data Miningning eng muhim vazifalarini ishlab chiqishga yordam beradi;
  • rasmiy harakatlar va mantiqiy vositalarni yaratish, ularning yordami uchun aks ettirish va avtomatlashtirishni rasmiylashtirish amalga oshiriladi, ular ma'lum bir mavzu galleylarida Data Mining vazifasini bajarish uchun vositaga aylanadi;
  • ma'lumotlarni qidirish usullarini yaratish, ma'lumotlar qonuniyatlaridan qanday qilib olish va empirik ma'lumotlarga tayanadigan mavjud nazariyalarni shakllantirish;
  • podlannya suttêvogo vídstavannya imkoniyatlar ínstrumentalnyh zabív Data Mining víd teoreticheskie vyagnen í íy galuzí.

Data Mining kelajagiga qisqa muddatli nuqtai nazardan nazar tashlaydigan bo'lsak, ushbu texnologiyaning rivojlanishi biznes bilan bog'liq sohalarga eng to'g'ridan-to'g'ri ekanligi ayon bo'ladi.

Qisqa muddatli nuqtai nazardan, Data Mining mahsulotlari elektron pochta kabi muhim va zarur bo'lishi mumkin va, masalan, xuddi shu tovarlar yoki topilgan chiptalar uchun eng past narxlarni qidirish uchun ko'z yumadi.

Data Mining kelajagining uzoq muddatli istiqbollari haqiqatdan ham xira - siz aqlli agentlar tomonidan turli kasalliklarni ko'tarishning yangi turlarini, shuningdek, butun dunyo tabiatini yangi tushunish uchun qidirishingiz mumkin.

Biroq, Data Mining o'zining potentsial muammosiga ega - ko'proq va ko'proq ma'lumotlar orqali olish mumkin bo'ladi butun dunyo merezh, shaxsiy xususiyatga ega bo'lishdan tashqari va undan ko'proq bilim olish mumkin:

Yaqinda eng yirik onlayn-do'kon "Amazon" janjal markazida "Do'kondorlarga tovarlarni sotib olishda yordam berish usullari va tizimlari" patentini olishda ayblandi, bu Data Mining kompaniyasining do'zax mahsuloti bo'lgan va edi. do'kon haqidagi shaxsiy ma'lumotlarni to'plash uchun foydalaniladi. Yangi texnika kelajakdagi xaridlarni xaridlar faktlari asosida, shuningdek, vysnovki schodo í̈x tanib olish samaradorligini bashorat qilish imkonini beradi. Ushbu usullarning metama'lumotlari - keng tarqalgan bo'lganlar - otrimanna yakomog mijozlar haqida katta hajmdagi ma'lumotlar, shu jumladan xususiy tabiat (statya, vik, perevagi va boshqalar). Shu tarzda, xaridorlarning shaxsiy hayoti, shuningdek, ularning oila a'zolari, jumladan, bolalar haqida ma'lumotlar to'planadi. Qolganlari boy erlarning qonunchiligi bilan o'ralgan - u erda to'liq bo'lmagan imkoniyatlar haqida ma'lumotni tanlash faqat otalarning ruxsati bilan.

Bu Data Mining g'alaba qozongan muvaffaqiyatli yechim topish kerak, degan xulosaga keladi, shuning uchun texnologiya rivojlanishini ko'rish uzoq emas. Hamma narsa uchun eng yaxshisi bo'lgan Data Mining texnologiyasini ishlab chiqish muvaffaqiyatli bo'ladigan sohalar quyidagi xususiyatlarga ega bo'lishi mumkin:

  • bilimlar asosida qaror qabul qilish;
  • o'zgaruvchan o'rta haqida o'ylash;
  • mavjud, etarli va muhim ma'lumotlar bo'lishi mumkin;
  • to'g'ri qarorlar uchun yuqori dividendlarni ta'minlash.

Isnuyuchi tahlilga o'ting

Uzoq muddatli intizomni tugatish uchun Data Mining ma'lumotlarni tahlil qilishning mutlaqo mustaqil sohasi sifatida tan olinmagan, lekin ba'zida "statistikaning orqa hovlisi" deb ataladi (Pregibon, 1997).

Shu kuni Data Mining-da tongning kichik nuqtasi belgilandi. Ulardan birining tarafdorlari klassik tahlilni hurmat qiladigan sarob bilan yoga ilhomlantiradilar

Parcha neyron tarmoqlari, genetik algoritmlar, evolyutsion dasturlash, assotsiativ xotira, loyqa mantiq. Data Mining usullaridan oldin u tez-tez tilga olinadi statistik usullar(tavsifiy tahlil, korrelyatsiya va regressiya tahlili, faktoriy tahlil, dispersiya tahlili, komponentlar tahlili, diskriminant tahlili, soatlik seriyalar tahlili). Biroq, bunday usullar maqsadlardan osongina ajralib chiqishi mumkin bo'lgan ma'lumotlarni tahlil qilish bo'yicha apriori deklaratsiyalarga imkon beradi. ma'lumotlarni qazib olish(Avvalroq nevydomih noaniq va amaliy jigarrang bilim oshkor).

Data Mining usullarining eng muhim xususiyatlaridan biri ilmiy taqdim etish natijalarini hisoblashdir, bu odamlarga Data Mining vositalarini yutib olish imkonini beradi, chunki ular maxsus matematik tayyorgarlikka ega bo'lishi mumkin. Shu bilan birga, ma'lumotlarni tahlil qilishda statistik usullarning rivojlanishi ko'chmaslik va matematik statistikaning yaxshi volodinnya nazariyasiga olib keldi.

Kirish

Ma'lumotni qazib olish usullari (aka ma'lumotlarda ma'lumotni kashf qilish, stenogramma, KDD) ma'lumotlar bazalari, statistik ma'lumotlar va bo'lak razvedka tayoqchasida yotadi.

Tarixiy chekinish

Ma'lumotni qazib olish sohasi 1989 yilda Grigoriy P'yatetskiy-Shapiro tomonidan o'tkazilgan seminarda ishlab chiqilgan.

Avvalroq, GTE Labs kompaniyasida ishlayotgan Grigoriy P'yatetskiy-Shapiro savollar berdi: qanday qilib siz qoidalarni avtomatik ravishda bilishingiz mumkin, shunda siz ajoyib ma'lumotlar bazalariga qadamlarni tezlashtirasiz. Shu bilan birga, ikkita atama tarqaldi - Data Mining ("ma'lumotlar kabinasi") va Knowledge Discovery In Data (bu "ma'lumotlar bazasidan bilimlarni kashf qilish" deb tarjima qilinadi).

Muammo bayoni

Buyurtma quyidagi tartibda amalga oshiriladi:

  • ê katta ma'lumotlar bazasiga erishish;
  • Maʼlumotlar bazasida “bilim olish” dalolatnomalari borligi maʼlum qilingan.

Muqaddas "etim" sovg'alarining buyuk majburiyatlaridan payvandlangan bilimlarni ochish usullarini kengaytirish kerak.

"Olingan bilim" nimani anglatadi? Tse mayut buti obov'yazkovo bilim:

  • ilgari emas uyda - tobto shunday bilim, yaky yangi bo'lishi mumkin (va vydomosti olib tashlash oldin kabi tasdiqlash emas);
  • ahamiyatsiz bo'lmagan - shunday qilib, siz shunchaki gaplasha olmaysiz (ma'lumotlarni uzluksiz vizual tahlil qilish yoki oddiy statistik xususiyatlarni hisoblash bilan);
  • amaliy korisny - tobto takí znannya, yaki doslidnik chi spozhivach uchun tsíníst o'rnatish;
  • talqin qilish uchun qulay - shuning uchun bilim, chunki uni asl nusxada qisqa shaklda ko'rish oson va mavzu sohasi shartlarida tushuntirish oson.

Bundan tashqari, ma'lumotlarni qazib olish usullarining mohiyati nima uchun aniqlanganligi va ma'lumotlar bazasini boshqarish tizimlariga, statistik usullar va tahlillarga, shuningdek, ma'lumotlarni tahlil qilish usullariga tayanishi va ular qaysi ilg'or texnologiyalarda ko'rib chiqilishiga boy .

Ma'lumotlarni qazib olish va asosiy ma'lumotlar

Ma'lumotlarni qidirish usullari katta ma'lumotlar bazalarini qazib olish ehtimolini kamaytirishi mumkin. Terining o'ziga xos galusi ma'lumotlar bazasining o'ziga xos "buyukligi" mezoniga ega.

Texnologik ma'lumotlar bazalarining rivojlanishi ixtisoslashtirilgan kinofilmni yaratishga olib keldi - ma'lumotlar bazalariga kino so'rovlari. Relyatsion ma'lumotlar bazalari uchun - SQL cem, bu saqlangan ma'lumotlarni o'zgartirish, solishtirish uchun keng imkoniyatlar beradi. Keyin analitik ma'lumotlarni (masalan, biznes faoliyati to'g'risidagi ma'lumotlarni) olib tashlash zarurati paydo bo'ladi kuylash davri) va ma'lum bo'ldiki, ma'lumotlarning an'anaviy relyatsion ma'lumotlar bazalari, masalan, operatsion shaklni o'tkazish uchun (tadbirkorlik bo'yicha) yaxshi biriktirilgan, tahlilga yomon bog'langan. tse chaqirdi, uning qoraligi bilan, deb atalmish yaratish qadar. "danih xazinasi", yakihning o'zi eng yaxshi tarzda universal matematik tahlilni qo'llab-quvvatlash.

Ma'lumotlarni qazib olish va statistika

Ma'lumotlarni qazib olish usullari matematik usullarga va ma'lumotlarni qayta ishlashga, shu jumladan statistik usullarga asoslangan. Sanoat yechimlarida, ko'pincha, bunday usullar bevosita Data mining paketlariga kiritilgan. Ammo shuni ta'kidlash kerakki, ko'pincha tahlil natijalari parametrik bo'lmaganlar o'rniga parametrik testlar bilan to'ldirilmaydi va boshqa yo'l bilan tahlil natijalarini tahlil qilishning maqsad va vazifalaridan chetga chiqish uchun sharhlash muhimdir. Ma'lumotlarni qazib olish. Prote, statistik usullar g'alaba qozonadi, o'sha zastosuvannya kuzatish qo'shiq bosqichlari ko'proq bilan ajratilgan.

Ma'lumotlarni qazib olish va razvedka

Ma'lumotni qazib olish usullari bilan nima olinishini bilish odatda bir qarashda tushuniladi modellar. Modellar qanday ishlaydi:

  • assotsiativ qoidalar;
  • eritma daraxti;
  • klasterlar;
  • matematik funktsiyalar.

Bunday modellarni rag'batlantirish usullari deb ataladigan narsaning pastki qismiga ko'tarildi. "parcha razvedka".

menejer

Data Mining usullari bilan buzilgan vazifalar tavsiflarga bo'linish uchun qabul qilinadi (ing. tavsiflovchi) that peredbachuvalni (ing. bashorat qiluvchi).

Tasviriy topshiriqlar uchun aniq biriktirilgan qonuniyatlarning dastlabki tavsifini berish muhimroqdir, xuddi topshiriqlarni uzatishda bo'lgani kabi, birinchi navbatda, tinch vipadkív uchun o'tkazish uchun oziq-ovqat mavjud, ular uchun hech qanday yo'q.

Ta'riflashdan oldin vazifalar:

  • chi naqshlarining assotsiativ qoidalarini izlash (zrazkiv);
  • ob'ektlarni guruhlash, klaster tahlili;
  • pobudova regressiya modeli.

Yotish uchun vazifani topshirishdan oldin:

  • ob'ektlarni tasniflash (sinflarni ketma-ket belgilash uchun);
  • regressiya tahlili, xronometraj qatorlarini tahlil qilish.

Algoritmlarni o'rganish

Tasniflash vazifasi uchun kirish va chiqish vektorlaridan qasos olish uchun ovoz berishdan so'ng modelni o'qitish (o'qitish) amalga oshiriladigan "o'qituvchi bilan trening" ga xosdir.

Klaster va assotsiatsiya vazifasi uchun "o'qituvchisiz o'qitish" o'rnatiladi, tanlovdan so'ng qandaydir tomurcuklanma modeli amalga oshiriladi, unda chiqish parametri yo'q. Chiqish parametrining qiymati ("klasterga ko'rinadi ...", "vektorga o'xshash ...") ishga tushirish jarayonida avtomatik ravishda tanlanadi.

Qisqa vazifalar uchun tavsif odatiy hisoblanadi ish kuni podylu kirish va dam olish kunlari vektorlarda. K.Pirsonning bosh komponentlar usuli bo'yicha klassik ishidan boshlab, asosiy e'tibor ma'lumotlarni yaqinlashtirishga qaratilgan.

Ko'proq ma'lumot olish

Ma'lumotlarni yig'ish usullari bo'yicha vazifalarni ishlab chiqishda odatda bir qator bosqichlar mavjud:

  1. gipotezani shakllantirish;
  2. Ma'lumotlarni tanlash;
  3. Ma'lumotlarni tayyorlash (filtrlash);
  4. modelni tanlash;
  5. Modelning parametrlarini va o'qitish algoritmini tanlash;
  6. modelni o'rganish (modeldagi boshqa parametrlarni avtomatik qidirish);
  7. Boshlanish sifatini tahlil qilish, 5-bet yoki 4-betga qoniqarsiz o'tish sifatida;
  8. Aniqlangan qonuniyatlarni tahlil qilish, 1, 4 va 5-bandlarning qoniqarsiz o'tishi sifatida.

Ma'lumotlarni tayyorlash

Data Mining-da algoritmlarni sinab ko'rishdan oldin, ma'lumotlar to'plamini tayyorlash kerak. Shunday qilib, IAD faqat ushbu qonuniyatlarning mavjudligini ko'rsatishi mumkinligi sababli, aybdor onaning bir tomonidagi ma'lumotlar etarli, shuning uchun bu qonuniyatlar mavjud bo'lib, aks holda ular etarlicha ixchamdir, shuning uchun tahlil qilish yoqimli soatni oladi. Ko'pincha, ma'lumotlar namoyishi sifatida, ma'lumotlar to'plami yoki ko'rgazmalari mavjud. Intellektual ma'lumotlarni tahlil qilish uchun klasterlashdan oldin boy ma'lumotlarni tahlil qilish uchun tayyorgarlik zarur.

O'chirilgan ma'lumotlar bir qator belgilarga (yoki vektorlar, chunki algoritm faqat belgilangan o'lchamdagi vektorlar bilan ishlashi mumkin), ehtiyot belgilarining bir to'plamiga qisqartiriladi. Belgilar to'plami ular haqida faraz qilish uchun oqilona tarzda shakllantiriladi, chunki bu ma'lumotlarning belgilari zarur bo'lgan rozrahunkaning kuchini yuqori darajada bashorat qilishi mumkin. hisob o'rash uchun. Masalan, 10 yewni qoplash uchun 100x100 piksel o'lchamdagi yuzning oq-qora tasviri. sirih ma'lumotlarining bir qismi. Xushbo'y hid vektorga aylantirilishi mumkin, bu ko'zlar va og'izlar tasvirida ko'rsatilgan yo'lning belgisi. Natijada, 10 mingdan majburiy ma'lumotlarning o'zgarishi mavjud. lager kodlari ro'yxatiga bit, ma'lumotlarni tahlil qilish majburiyatlarini sezilarli darajada o'zgartirib, keyin va bir soatlik tahlil.

Bir qator algoritmlar etishmayotgan ma'lumotlarni qayta ishlashi mumkin, bashorat qilish kuchiga ega bo'lishi mumkin (masalan, mijozning kunduzgi xaridlari aniq). Aytaylik, assotsiativ qoidalar usuli yordamida (inglizcha) rus. vektorlar va belgilar emas, balki o'zgaruvchan o'lchamlar to'plami qayta ishlanadi.

Funktsiyani tanlash, tahlil qilish usuli bo'lganligi sababli eskirgan; "To'g'ri" funktsiyani tanlash ma'lumotlarni muvaffaqiyatli intellektual tahlil qilish uchun asosiy ahamiyatga ega bo'lishi mumkin.

Ogohlantirishlar ikki toifaga bo'linadi - dastlabki ishga qabul qilish va testli ishga olish. Dastlabki g'alabalar to'plami Data Mining algoritmini o'rganish uchun ishlatiladi va testlar to'plami ma'lum naqshlarni qayta tekshirishdan iborat.

Div. shuningdek

  • Imovirnisna neyron tarmog'i Reshetov

Eslatmalar

Adabiyot

  • Paklin N. B., Gorishkiv ko'chasi I. Biznes tahlili: ma'lumotlardan bilimgacha (CD). - Sankt-Peterburg. : Ko'rinish. Piter, 2009. - 624 p.
  • Dyuk V., Samoylenko O. Ma'lumotni qazib olish: boshlang'ich kursi (CD). - Sankt-Peterburg. : Ko'rinish. Piter, 2001. - 368 p.
  • Juravlov Yu.I. , Ryazanov V.V., Senko O.V. TANISH. Matematik usullar. dasturiy ta'minot tizimi. Amaliy zastosuvannya. - M .: Ko'rish. "Faza", 2006. - 176 b. - ISBN 5-7036-0108-8
  • Zinov'ev A. Yu. Boy ma'lumotlarning vizualizatsiyasi. - Krasnoyarsk: Ko'rinish. Krasnoyarsk davlat texnika universiteti, 2000. - 180 p.
  • Chubukova I. LEKIN. Ma'lumotni qazib olish: dastlabki yordam. - M.: Internet axborot texnologiyalari universiteti: BINOM: Bilimlar laboratoriyasi, 2006. - 382 b. - ISBN 5-9556-0064-7
  • Ian H. Witten, Eibe Frank va Mark A. Hall Ma'lumotlarni qazib olish: Amaliy o'qitish vositalari va usullari. - 3-nashr. – Morgan Kaufmann, 2011. – P. 664. – ISBN 9780123748560

Posilannya

  • Ma'lumotlarni qazib olish uchun dasturiy ta'minot Catalozi Posilan Open Directory loyihasida (dmoz).

Wikimedia fondi. 2010 yil.

OLAP-tizimlari ma'lumotlarni tahlil qilishda gipotezalarni qayta tekshirish uchun analitikani ta'minlaydi, shuning uchun analitikaning asosiy vazifasi sizning bilimlaringiz va dalillaringizga asoslangan gipotezalarni yaratishdir. . Bunday bilimlar ma'lumotga bo'lgan ulug'vor obsesyon tufayli yo'qoladi, chunki odam mustaqil ravishda erisha olmaydi. Cim bilan bog'liq gipotezalarni o'tkazib yuborish imkoniyati mavjud, chunki ular sezilarli foyda keltirishi mumkin.

"Biriktirilgan" bilimlarni ochish uchun avtomatik tahlilning maxsus usullari ishlab chiqiladi, ulardan amaliy jihatdan ma'lumotlarning "to'siqlari" dan bilim olish mumkin. "Ma'lumotlar qazib olish (Data Mining)" yoki "intellektual ma'lumotlarni tahlil qilish" atamasi bevosita uning orqasida edi.

U DataMining-ning shaxsiy maqsadiga asoslanadi, chunki u bir-birini to'ldiradi. Harakat o'qi ulardan.

DataMining - bu ma'lumotlar bazalarida ahamiyatsiz va amaliy naqshlarni aniqlash jarayoni. (asosiy guruh)

DataMining - bu biznes mukammalligiga erishish usuli bilan noma'lum tuzilmalarni (patterslarni) aniqlash uchun ajoyib ma'lumotlar ulanishlarini ko'rish, keyinchalik modellashtirish va modellashtirish jarayoni (SAS instituti)

DataMining - butun jarayon, bir xil meta - ma'lumotlarni tanib olishning turli usullaridan tanlangan ma'lumotlarga katta sodiqlikni rivojlantirish natijasida yangi muhim korrelyatsiyalarni, tendentsiya belgilarini aniqlash. statistik va matematik usullarni ishlab chiqish (GartnerGroup)

Ma'lumotlarni qazib olish - bu "mashina" (algoritmlar, bo'lak-bo'lak razvedka) tomonidan ushbu ma'lumotlardan olingan bilimlarning namoyon bo'lishining natijasidir.Raqamlar ilgari ma'lum bo'lmagan, ahamiyatsiz, amaliy, jo'shqin, talqin qilish mumkin ediodamlar. (A. Bargesyan "Ma'lumotlarni tahlil qilish texnologiyalari")

DataMining - bu biznes haqidagi asosiy bilimlarni ochib berish jarayoni. (N.M. Abdikeev "KBA")

Dominion ularning paydo bo'lishini biladi

Keling, rasmiylar nima ko'rsatayotganini bilib olaylik.

  • Bilim yangi, ilgari noma'lum bo'lishi mumkin. Vitracheni zusillya vydkrittya bilim, yaky vzhe vídomí koristuvacheví, to'lamang. Shuning uchun, yangi, ilgari noma'lum bilimga aylanishning qiymati.
  • Bilim ahamiyatsiz bo'lishi mumkin. Tahlil natijalari noaniq, nomuvofiq ko'rinishi mumkinma'lumotlarning muntazamligi, bilimni tan olish deb ataladigan narsaga aylanishi. Natijalar, garchi ularni oddiyroq usullarda (masalan, vizual ko'rib chiqish) ko'rish mumkin bo'lsa-da, DataMining-ning mashaqqatli usullari bilan haqiqatan ham qo'lga tushmaydi.
  • Bilim mayut buti amalda jigarrang. Ishonchliligi yuqori bo'lgan yangi ma'lumotlar bo'yicha, shu jumladan zastosovny xatolar haqida bilim topildi. Maydonning egriligi shundaki, bu bilim ular to'xtab qolganda qo'shiq kuylashi mumkin.
  • Aqlli odam bilishi mumkin. Ma'lum bo'lgan qonuniyatlarni mantiqan tushunish mumkin, aks holda imovirnist tuyg'usi bor, hid vipadkovymi. Bundan tashqari, aybdorlik bilimi oshkor bo'ldi, lekin u qaraydigan odam uchun oqilona odamga taqdim etildi.

DataMining-da bilimlarning namoyishi namuna sifatida xizmat qiladi. Yotish uchun modellarni ularni yaratish usullarida ko'rishingiz mumkin. Eng kengaytirilganlari: qoidalar, qarorlar daraxtlari, klasterlar va matematik funktsiyalar.

DataMining rahbari

Faraz qilaylik, qonun bo'lgan shablonlar tushunchasi DataMining texnologiyasining asosi hisoblanadi. Urush orqali, tsikhning paydo bo'lishi, prihovaniya víd uzluksiz ko'z qonuniyatlari, DataMining vazifalari buzilmoqda. Hayot turlari DataMining asosiy vazifalariga muvofiq, aqlli odamlar shaklida ifodalanishi mumkin bo'lgan qonuniyatlar.

DataMining-ni qanday kuzatish haqida yagona fikr yo'q. Ko'pgina nufuzli dzherellar quyidagicha ta'mirlanadi: tasnifi,

klasterlash, bashorat qilish, assotsiatsiya, vizualizatsiya, tahlil va namoyon bo'lish

ko'rib chiqish, baholash, qo'ng'iroqlarni tahlil qilish, xulosalarni qayta ishlash.

Quyida keltirilgan meta tavsifi DataMining vazifalari haqida ko'proq ma'lumot berish, ularni taqqoslash, shuningdek, ushbu vazifalar buzilgan usullarni taqdim etishdir. DataMining-ning eng keng ko'lamli vazifasi tasniflash, klasterlashtirish, assotsiatsiya, prognozlash va vizualizatsiyadir. Ushbu darajada vazifa vibratsiyalangan ma'lumotlar turlari, DataMining vazifalarining eng muhim tasnifi bilan belgilanadi.

Tasniflash

Shaxssiz narsalarni sindirish vazifasi guruhlarning, sinflarning darajalarining, terining o'rta qismining bunday badbo'y hiddan apriori topshiriqlari bilan qo'riqlanadi, ular birma-bir o'xshashdir, ular taxminan bir xil kuch va belgilar bo'lishi mumkin. Asosan tashqariga chiqishga qaror qilganingizda tahlil atribut qiymati (belgi).

Tasniflash eng muhim vazifalardan biri sifatida ma'lumotlar qazib olish . Von zastosovuetsya ichida marketing tayinlangan talabnoma beruvchilarning kreditga layoqatliligini baholashda mijozlarning sadoqati, tasvirlarni tan olish , tibbiy diagnostika va boshqa boy qo'shimchalar. Teri sinfi ob'ektlari kuchidagi tahlil kabi, agar yangi ehtiyotkorlik birinchi sinfga to'g'ri kelsa, kuch ma'lumotlari avtomatik ravishda kengayadi va yangi bo'ladi.

Sinflar soni ikkita bilan cheklanganligi sababli, bo'lishi mumkinikkilik tasnifi Ular boy katlanmış binolar bo'lishi mumkin darajada. Masalan, "Yuqori", "O'rta" yoki "Past" kabi kredit xavfining bunday bosqichlarini belgilash o'rniga, siz faqat ikkitasini yutib olishingiz mumkin - "Vidati" yoki "Vidmoviti".

DataMining-da tasniflash uchun anonim modellar tanlanadi: neyron tarmoqlari, yechim daraxtlari , qo'llab-quvvatlash vektor mashinalari, k-yaqin yig'indilar usuli, qoplash va in algoritmlari.o'zgarish(sinfni belgilang ) Terini parvarish qilish uchun tayinlangan. Rasmiy ravishda tasniflash bo'linish asosida amalga oshiriladiochiq joy belgisi sohada, terining oraliq joylaridaboy vektorlar ular bir xilga o'xshaydi. Boshqacha qilib aytadigan bo'lsak, viloyatda ko'p joy egallagan ob'ekt sifatida qo'shiqchilik sinfi bilan bog'liq bo'lgan vinolar yangisiga ko'tariladi.

Klasterlash

Qisqa Tasvir. G'oyalarni mantiqiy davom ettirish uchun klasterlash

tasnifi. Vazifa murakkabroq, klasterlashning o'ziga xos xususiyati shundaki, boshning orqa qismidagi narsalarni tasniflaydiganlar aqlli emaslar. Klasterlash natijasi ob'ektlarni guruhlarga bo'lishdir.

Klasterlash uchun topshiriqni ishlab chiqish usuliga misol: "o'qituvchisiz" o'rgatish maxsus turdagi neyron tarmoqlar - o'z-o'zini tashkil etuvchi Kohonen xaritalari.

Uyushmalar

Qisqa Tasvir. Assotsiativ qoidalarni izlash qarori natijasida ma'lumotlar to'plamidagi tegishli podiaslar o'rtasida qonuniyatlar mavjud.

Vídminníst sotsíatsíí víd dvh priedníh zavdan DataMining: qonuniyatlarni qidirish tahlil qilinadigan ob'ektning vakolatiga asoslanib emas, balki martalar soni o'rtasida, yaki vídbuvayutsya bir soat. Assotsiativ qoidalarga asoslangan masalalarni yechishning eng katta algoritmi Apriori algoritmidir.

Ketma-ket yoki ketma-ket assotsiatsiya

Qisqa Tasvir. Ketma-ketlik tranzaktsiyalar orasidagi muntazamlik vaqtini aniqlash imkonini beradi. Vorislik tartibi assotsiatsiyaga o'xshaydi, lekin men bir vaqtning o'zida sodir bo'ladigan qadamlar o'rtasida emas, balki soatda bog'langan qadamlar o'rtasida (soatda ma'lum bir qo'shiq oralig'ida sodir bo'ladigan) qonuniyatlarni o'rnatish usulidan foydalanaman. Boshqacha qilib aytganda, ketma-ketlik kunning soatiga bog'langan lansetning yuqori imovirnistyu bilan ifodalanadi. Aslida, assotsiatsiya nolga teng bo'lgan vaqt oralig'i bilan bosqichma-bosqich ketma-ketlik deb ataladi. DataMining vazifalari ketma-ket naqsh vazifalari deb ataladi.

Ketma-ketlik qoidasi: X oxirgi soatga tushganidan keyin Y paydo bo'ladi.

dumba. Kvartirani sumkaga sotib olib, er-xotinning 60 foizi ikki oyga muzlatgich, 50 foizi uchun televizor ikki oyga televizor sotib oladi. Vazifaning yakuniy maqsadi marketing va menejmentda, masalan, mijozlarga xizmat ko'rsatish siklini boshqarishda (CustomerLifecycleManagement) keng qo'llaniladi.

Regressiya, prognozlash (prognozlash)

Qisqa Tasvir. Natijada, tarixiy ma'lumotlarning o'ziga xos xususiyatlari asosida prognozlash vazifasining farqi asosiy raqamli ko'rsatkichlarning qoldirilishi yoki mumkin bo'lgan qiymatlari bilan baholanadi.

Bunday vazifalarni hal qilish uchun usullar va matematik statistika, nerv o'lchovlari va boshqa usullar keng qo'llaniladi.

Qo'shimcha vazifa

DeviationDetection (DeviationDetection), tahlil vidhilen chi wikidív

Qisqa Tasvir. Meta rozv'yazannya tsíêí zadachi - ko'pincha ma'lumotlarning katta ko'pligida ko'rib chiqiladigan ma'lumotlarning tahlili o'ziga xos bo'lmagan andozalar deb ataladigan narsalarni ochib berdi.

Baholash

Baholash vazifasi uzluksiz belgi qiymatlarini uzatishdan oldin amalga oshirilishi kerak.

Havola tahlili (LinkAnalysis)

Ma'lumotlarni yig'ishda o't o'chiruvchilar bilimi menejeri.

Vizualizatsiya (Vizualizatsiya, GraphMining)

Vizualizatsiya natijasida ma'lumotlarni tahlil qilishning grafik tasviri yaratiladi. Vizualizatsiya vazifasini bajarish uchun biz g'alaba qozonamiz grafik usullar, bu ma'lumotlarda naqshlar mavjudligini ko'rsatadi.

Vizualizatsiya usullariga misol sifatida ma'lumotlarni 2 o'lchamli va 3 o'lchovli tasvirlarda tasvirlash mumkin.

Xulosa

Zavdannya, buning metasi - tahlil qilingan ma'lumotlar to'plamidan ob'ektlarning o'ziga xos guruhlari tavsifi.

Mumkin bo'lgan eng yaxshi tasnifga yaqinroq bo'lish uchun DataMining topshirig'i quyidagilar bo'yicha yangilandi: bu xulosani kuzatish, ushbu tasnifni prognozlash, ushbu inventarni tushuntirish.

Ushbu xabarni avtomatik kuzatish (Vilniy Poshuk)

Vazifaning asosiy maqsadi: bozorda yangi segmentlarni aniqlash.

Ushbu sinfga erishish uchun vazifa klasterli tahlil usullarini yutib olishdir.

Prognozlash va tasniflash

Vazifaning asosiy maqsadi: joriy qiymatlarni sotishdagi o'sishni o'tkazish.

Usullari: regressiya, neyron tarmoqlar, genetik algoritmlar, atirgul daraxti.

Tasniflash va prognozlash vazifasi induktiv modellashtirish deb ataladigan guruhni shakllantirishdan iborat bo'lib, buning natijasida tahlil qilinadigan ob'ekt yoki tizimning rivojlanishi ta'minlanadi. Ma'lumotlar to'plamini yechish muammosini hal qilish jarayonida gipotezaning fundamental modeli ishlab chiqilmoqda.

Ta'rif va tushuntirish

Vazifaning asosiy qismi: demografik ma'lumotlar va xaridlar tarixi uchun mijozlarning xususiyatlari.

Usullar: qarorlar daraxti, qoidalar tizimi, assotsiatsiya qoidalari, havolalarni tahlil qilish.

Agar mijozning daromadi ko'proq bo'lsa, 50 aqllidan past bo'lsa, o'sha yili - 30 yildan ortiq bo'lsa, u holda mijozning sinfi birinchi bo'ladi.

Xuddi shunday klasterlash va tasniflash

Xarakterli

Tasniflash

klasterlash

Nazorat ostida o'rganish

Boshqariladigan

nazoratdan tashqarida

Strategiyalar

O'qituvchi bilan repetitorlik

Navchannya o'qituvchisiz

Sinfga tegning mavjudligi

Boshlang'ich multiplikator

belgisi bilan birga bo'lishi, nima deysiz

sinf

hushyorlik

Boshlang'ich sinf uchun teglar

yuzsiz noma'lum

Tasniflash uchun asos

Yangi ma'lumotlar dastlabki multiplikator asosida tasniflanadi

Usul bilan shaxsiy bo'lmagan ma'lumotlar berilgan

o'rnatilgan baza

sinf yoki klaster ma'lumotlari

DataMining saqlash sohalari

Shuni ta'kidlash kerakki, DataMining texnologiyasi eng kengaygan bugungi kunda u biznes tashabbusi yakunida ishga tushirildi. Buning sababi shundaki, juda to'g'ri yo'l bilan turli xil DataMining vositalaridan foydalanish ba'zi jaklardan 1000% gacha orqada qolishi va investitsiyalarga pul sarflash tezda o'zini oqlashi mumkin.

Biz hisobotda DataMining texnologiyasini rivojlantirishning ba'zi asosiy yo'nalishlarini ko'rib chiqamiz: fan, biznes, buyurtma uchun tadqiqot va Web-direkt.

biznes menejeri. Asosiy yo'nalishlari: bank huquqi, moliya, sug'urta, CRM, ishlab chiqarish, telekommunikatsiya, elektron tijorat, marketing, fond bozori va boshqalar.

    Chi mijozga kreditni ko'ring

    Bozor segmentatsiyasi

    Yangi mijozlarni jalb qilish

    Shahrai kredit kartalari bilan

Zastosuvannya DataMining uchun virishennya zavdan suveren teng. Asosiy ko'rsatmalar: osíb osíb, yaky uhilyayutsya vyd podtkív; terrorizmga qarshi kurashda yordam berish.

Zastosuvannya DataMining uchun ilmiy yutuqlar. Asosiy yo'nalishlari: tibbiyot, biologiya, molekulyar genetika va genetik injeneriya, bioinformatika, astronomiya, amaliy kimyo, giyohvandlikni tekshirish va boshqalar.

Excellence uchun DataMiningni to'xtatish Veb vazifa. Asosiy direktivalar: qidiruv tizimlari (qidiruv tizimlari), uchuvchilar va boshqalar.

Elektron tijorat

Elektron tijorat sohasida DataMining kalıplama uchun turg'un

Bunday tasnif kompaniyalarga mijozlarning turli guruhlarini aniqlash va mijozlarning qiziqishlari va ehtiyojlarini ochib berish uchun marketing siyosatini to'g'ri olib borish imkonini beradi. Elektron tijorat uchun DataMining texnologiyasi WebMining bilan chambarchas bog'liq.

Sanoatni qayta ishlashda DataMining ning asosiy vazifalari:

· tipik vaziyatlarni har tomonlama tizimli tahlil qilish;

· umumiy vaziyatlarning rivojlanishi uchun qisqa va uzoq muddatli prognoz;

· optimallashtirish yechimlari uchun Viroblennya imkoniyatlari;

berilgan ko'rsatkichlar bo'yicha kuzgi suv sifatini prognoz qilish

texnologik jarayon;

· Irsiy naqshlarning rivojlanishidagi biriktirilgan tendentsiyalar va qonuniyatlarni aniqlash

jarayonlar;

· ishlab chiqarish jarayonlarining rivojlanish qonuniyatlarini bashorat qilish;

· Ukolda biriktirilgan omillarni aniqlash;

· ídentifíkatsíya avvalroq neviydomih vzaêmozv'yazkív mízh ekanligini oshkor qildi.

in'ektsiyadagi virobnicheskim parametrlari va omillari;

Virobnicheskih jarayonlar va prognozlash o'rtasidagi o'zaro ta'sir muhitini tahlil qilish

її xususiyatlarini o'zgartirish;

jarayonlar;

· Tahlil natijalarini vizualizatsiya qilish, istiqbolli sharhlar va loyihalarni tayyorlash

mumkin bo'lgan amalga oshirishning ishonchliligi va samaradorligini baholash bilan ruxsat etilgan echimlar.

Marketing

DataMining marketing sohasi keng tarqalgan.

Marketing uchun asosiy ovqatlanish "Nima sotiladi?", "U qanday sotiladi?", "Kim

o'zingizni qanday his qilyapsiz?

Tasniflash va klasterlash vazifalariga bag'ishlangan ma'ruzada qog'oz marketing vazifalarini amalga oshirish uchun klaster tahlilining evolyutsiyasini tasvirlaydi, masalan, spozhivachiv segmentatsiyasi.

Marketing vazifalari uchun usullar to'plamining so'nggi kengaytmasi assotsiativ qoidalarni izlash usullari va algoritmlaridir.

Bu erda Timchas qonunlarini qidirishda g'alaba qozonish ham muvaffaqiyatli.

Chakana savdo

Chakana savdo sohasida, xuddi marketing kabi, quyidagilar mavjud:

Assotsiativ qoidalarni qidirish algoritmlari (eng keng to'plamlarni belgilash uchun).

tovarlar, masalan, xaridorlar bir vaqtning o'zida sotib oladilar). Bunday qoidalarning namoyon bo'lishi yordam beradi

savdo maydonchalari javonlarida tovarlarni tarqatish, tovarlarni sotib olish strategiyasini ishlab chiqish

omborlarda í̈x taqsimoti juda nozik.

Timcha ketma-ketliklarining g'alabasi, masalan, maqsad uchun

zaxiradagi tovarlarning zarur zaxiralari.

Muayyan guruhlar yoki mijozlar toifalari uchun tasniflash va klasterlash usullari;

tovarlarni muvaffaqiyatli ilgari surish uchun qanday yordam berishini bilish.

fond bozori

Ro'yxatning o'qi fond bozorining boshidir, shuning uchun siz qo'shimcha texnologiya Ma'lumotlarini tekshirishingiz mumkin

Konchilik: moliyaviy vositalar va ko'rsatkichlarning kelajakdagi qiymatini bashorat qilish

ma'nolardan o'tgan;

· Moliyaviy tendentsiyaning prognozi (ehtimol to'g'ridan-to'g'ri - o'sish, pasayish, tekis).

íinstrumentu ta yoga kuchi (kuchli, pomírno kuchli va boshqalar);

· Bozor, galereya, sektorning klaster tuzilmasini joriy to'plamga muvofiq ko'rish

xususiyatlari;

· portfelni dinamik boshqarish;

· O'zgaruvchanlik prognozi;

xavf-xatarni baholash;

· joriy inqiroz va prognozni rivojlanishga o'tkazish;

· Faollar va int.ni tanlang.

Ko'proq faoliyat sohalarini tavsiflashdan tashqari, DataMining texnologiyasini biznesning eng talabchan sohalarida topish mumkin, bu erda ma'lumotlarni tahlil qilish va retrospektiv ma'lumotlarni to'plash zarurati mavjud.

CRM-dan DataMining-ni to'xtatish

DataMining-ni rivojlantirishning eng istiqbolli yo'nalishlaridan biri analitik CRMda texnologiyalardan foydalanish hisoblanadi.

CRM (Customer Relationship Management) - mijozlar bilan munosabatlarni boshqarish.

Taniqli g'alabali texnologiya yordamida stend haqidagi bilimlar mijozlar haqidagi ma'lumotlardan "tinglar nutqi" dan yo'qoladi.

Marketing va sotish va saqlash sohasidagi ishning muhim jihatimijozlar haqida to'liq bayonot, ularning xususiyatlari, xususiyatlari, mijozlar ma'lumotlar bazasining tuzilishi haqida ma'lumot. CRM g'olib, shuning uchun profil nomimijozlar, bu mijozlar haqida barcha kerakli ma'lumotlarni beradi.

Mijoz profili quyidagi tarkibiy qismlarni o'z ichiga oladi: mijozlarni segmentatsiyalash, mijozlarni sotib olish, mijozlarni ushlab turish, mijozlarning javoblarini tahlil qilish. Ushbu komponentlarning terisini DataMining yordami uchun maslahat olish mumkin va ularni populyatsiyada tahlil qilish, profilning tarkibiy qismi sifatida sizga bilim berishi mumkin, garchi terining xususiyatlarini olib tashlash mumkin emas.

veb-mayning

WebMining "veb ma'lumotlar kabinasi" deb tarjima qilinishi mumkin. WebIntelligence yoki Web.

Intellect elektron biznesning jadal rivojlanishiga "yangi ishlanmalarni olib kirishga" tayyor. Zdatnyst terini parvarish qilishning ustuvorligi, yoga xatti-harakati uchun posterigayuchi, elektron tijorat bozoridagi raqobatbardosh kurashning jiddiy va tanqidiy ustunligini anglatadi.

WebMining tizimlari juda ko'p oziq-ovqat bilan ta'minlashi mumkin, masalan, veb-do'konning potentsial mijozi, eng ko'p daromad keltirish uchun veb-do'kondagi mijozlar guruhi kabi, qo'shiqchi va bir guruh tadbirkorlarning manfaatlari.

metodi

Usullarning tasnifi

Usullarning ikki guruhi mavjud:

  • retrospektiv ma'lumotlarda aks ettirilgan eng o'rtacha to'plangan dalillarga asoslangan statistik usullar;
  • shaxssiz turli matematik yondashuvlarni o'z ichiga olgan kibernetik usullar.

Bunday tasnif etarli emas: statistik va kibernetik algoritmlar, boshqa darajada, oqim holatini kuzatish natijalarining statistik isbotiga tayanadi.

ínpretatsííí uchun bunday tasnifning ê sruchníst afzalligi - vihídnih plakatlar (operativ va retrospektiv) massividan bilimlarni olib tashlashga kundalik yondashuvning matematik vositalarini tavsiflashda g'olib bo'lmaydi, tobto. Data Mining boshlarida.

Keling, guruh taqdimotining taqdimotini ko'rib chiqaylik.

Statistik usullar Ma'lumotlarni qazib olish

Qi ichida Usullar o'zaro bo'linadi:

  • statistik ma'lumotlarning tabiatini oldinga tahlil qilish (statsionarlik, normallik, mustaqillik, bir xillik gipotezalarini qayta baholash, funktsiya turini baholash rozpodílu, vv parametrív yupqa);
  • vyyavlennya zv'yazkiv deb naqshlar(chiziqli va chiziqli bo'lmagan regressiya tahlili, korrelyatsiya tahlili va boshqalar);
  • boy statistik tahlil (chiziqli va chiziqli bo'lmagan diskriminant tahlili, klaster tahlili, komponentlar tahlili, omil tahlili va boshqalar);
  • dinamik modellar va soatlik seriyalarga asoslangan prognoz.

Statistik usullar arsenali Ma'lumotlarni qazib olish bir necha usullar guruhlariga bo'linadi:

  1. O'tgan ma'lumotlarni tavsiflovchi tahlil qilish va tavsiflash.
  2. Bog'lanishlarni tahlil qilish (korrelyatsiya va regressiya tahlili, faktoriy tahlil, dispersiya tahlili).
  3. Boy statistik tahlil (komponent tahlili, diskriminant tahlili, boy regressiya tahlili, kanonik korrelyatsiya va boshqalar).
  4. Soatlik seriyalarni tahlil qilish (dinamik modellar va prognozlash).

Kibernetik usullar va ma'lumotlarni qazib olish

Ma'lumotni qazib olishning yana bir usuli - kompyuter matematikasi g'oyasini va aql-idrok nazariyasini birlashtirgan shaxssiz yondashuvlar.

Guruhdan oldin quyidagi usullar qo'llanilishi kerak:

  • parcha neyron massivlari (tanib olish, klasterlash, prognoz qilish);
  • evolyutsion dasturlash (jumladan, argumentlarning guruh shakli usuli uchun algoritmlar);
  • genetik algoritmlar (optimallashtirish);
  • assotsiativ xotira (analoglar, prototiplar taklifi);
  • loyqa mantiq;
  • eritma daraxti;
  • ekspert bilimlarini amalga oshirish tizimlari.

Klaster tahlili

Meta-klasterlash - asosiy tuzilmalarni qidirish.

Klasterlashtirish tavsiflovchi protsedura bo'lib, hech qanday statistik naqshlarni yaratishning imkoni yo'q, lekin u sizga rivojlanish tahlilini o'tkazish va "ma'lumotlar tuzilishi" ni o'rganish imkoniyatini beradi.

"Klaster" tushunchasining o'zi noaniq: terining o'ziga xos "klasterlari" bor. Klaster (klaster) tushunchasi "skupchennya", "grono" deb tarjima qilingan. Klasterni kuchlar kabi ob'ektlar guruhi sifatida tavsiflash mumkin.

Klasterning xususiyatlarini ikkita belgi deb atash mumkin:

  • ichki bir xillik;
  • ovoz yalıtımı.

Oziqlanish, tahlilchilar tomonidan boy vazifani qadrlash soatiga qo'ydi, ma'lumotlarni ilmiy tuzilishda tartibga solish uchun, tobto. taksonomiyalarni aniqlang.

Orqa miyaning eng stosuvannya klasteri biologiya, antropologiya, psixologiya kabi fanlardan uzoqlashdi. Iqtisodiy maqsadlarga erishish uchun uch marta klasterlash iqtisodiy ma'lumotlar va hodisalarning o'ziga xos xususiyatlari orqali g'alaba qozonish uchun etarli emas edi.

Klasterlar bir-birining ustiga chiqmaydigan yoki eksklyuziv (bir-birining ustiga tushmaydigan, eksklyuziv) va shunday bo'lishi mumkinki, ular bir-birining ustiga chiqadi.

Shuni ta'kidlash kerakki, klaster tahlilining turli usullarini sinab ko'rish natijasida turli shakldagi klasterlarni tanlash mumkin. Misol uchun, "lanset" tipidagi klasterlar mumkin, agar klasterlar eski "lansetlar" bilan ifodalangan bo'lsa, tushirilgan shakldagi klasterlar va boshqalar va ikkilanish usullari ancha uzun shakldagi klasterlarni yaratishi mumkin.

Turli usullar turli o'lchamdagi klasterlarni yaratishi mumkin (masalan, kichik yoki katta) yoki ma'lumotlar to'plamida turli o'lchamdagi klasterlarning mavjudligiga imkon beradi. Klasterni tahlil qilish usullari vikidivdagi shovqinga ayniqsa sezgir, aks holda - kamroq. Turli xil klasterlash usullarini sinab ko'rish natijasida turli natijalar bekor qilinishi mumkin, bu normal va ayniqsa, boshqa algoritmning ishi. Klasterlash usulini tanlash soati ostida quyidagi vrakhovuvaty o'ziga xosligini hisobga olgan holda.

Keling, klasterlashtirishga yondashuvlarning qisqacha tavsifini beraylik.

Ma'lumotlarni taqsimlashga asoslangan algoritmlar (Partitioningalgoritms), shu jumladan. iterativ:

  • ob'ektlarni k klasterga bo'lish;
  • Polipsiya klasterizatsiyasi ob'ektlarini takroriy qayta ishlab chiqish.
  • Ierarxialgoritmlar:
  • aglomeratsiya: orqa tarafdagi teri ob'ekti - to'da, to'da,
  • birma-bir kattaroq klaster hosil qiladi va hokazo.

Ob'ektlarning kontsentratsiyasiga asoslangan usullar (zichlikka asoslangan usullar):

  • ob'ektlarni qurish imkoniyatiga asoslangan;
  • Shovqinni e'tiborsiz qoldiring, klasterlarning ahamiyati etarli shaklda.

To‘r - usullar (gridga asoslangan usullar):

  • to'r strukturasidagi ob'ektlarni kvantlash.

Model usullari (modelga asoslangan):

  • danim uchun eng mos bo'lgan klasterlarni tanib olish uchun modellarni tanlash.

Klaster tahlil usullari. Iterativ usullar.

Ko'p sonli soqchilar bilan ierarxik usul va klaster tahlili yordamchi emas. Vikariylarning bunday turlarida bo'linmaga asoslangan me'moriy bo'lmagan usullar mavjud bo'lib, go'yo vikariy agregatni maydalashning iterativ usullari. Rozpodílu jarayonida docklar don qoidasiga amal qiladigan vaqtdan oldin yangi klasterlar hosil bo'ladi.

Bunday me'moriy bo'lmagan klasterlar klasterlar soniga o'xshaydi. Ikki yondashuvdan foydalaning. Dam olish kunlari ma'lumotlarining keng maydonida eng katta er uchastkalari sifatida belgilangan inter-klaster yaqinidagi birinchi er, tobto. klasterning maqsadi u erda, bu erda katta "kondensatsiyalangan nuqta" mavjud. Yana bir pídkhíd polagaê í mínímízatsííí mirí vídmínností ob'êkív

Algoritm k-means (k-means)

K-o'rtachalar algoritmidagi noararxiya usullarining o'rtasining eng katta kengaytmasi ham o'rinlar. shved klaster tahlili. Algoritmning batafsil tavsifini Xartigan va Vong (Hartigan va Vong, 1978) asarlarida topish mumkin. Vídmínu vyd oaarkhíchichnykh metodív kuni, yaki emas vmagayut prydnínyh ruxsat schodo kolikístí kolístív, fizibilite uchun vikoristannja tsgogo usuli nebhídno ona gipoteza haqida ybílsh ymovílkívíst.

Katta masofalarga tarqalishi mumkin bo'lgan k-o'rta kelajak klasterlari algoritmi. Muammoning asosiy turi, yakí virishuê k-algoritmni anglatadi, - nayavníst ruxsat (gipotezalar) shkodo soni klasterlar, bu bilan hidi mayut buti raznimi yulka, naskolki bu mumkin. K raqamini tanlash oldingi tadqiqotlar, nazariy tadqiqotlar va sezgi natijalariga asoslangan bo'lishi mumkin.

Algoritmning asosiy g'oyasi: klasterlarning qat'iy soni berilgan bo'lsa, klasterlarga imkon qadar bir-biriga nisbatan bir xil o'rtacha klasterlar (barcha o'zgarishlar uchun) berilishi kerak.

Algoritmning tavsifi

1. Klasterlar orqasidagi narsalar ostida ko'tarildi.

  • K raqami tanlanadi va birinchi bir necha nuqtalar klasterlarning "markazlari" hisoblanadi.
  • Teri klasteri bitta markazga ega.

Kob centroidlarini tanlash quyidagicha o'rnatilishi mumkin:

  • kob chiqishini maksimal darajada oshirish uchun k-qo'riqchini tanlang;
  • vipadkovy vibrír k-qo'riqchi;
  • birinchi k-qo'riqchilarni tanlash.

Natijada qo'shiq klasteriga tayinlangan teri ob'ektlari mavjud.

2. Iterativ jarayon.

Klaster markazlari sanaladi, ular keyin va keyin koordinatali o'rta klasterlar tomonidan hisobga olinadi. Ob'ektlar yana qayta tiklanadi.

Markazlarni hisoblash va ob'ektlarni uch marta qayta tartibga solish jarayoni, docklar aqllardan birini hisoblamadi:

  • klaster markazlari barqarorlashdi, tobto. in-line iteratsiyasiga tegishli bo'lgan klasterga tegishli bo'lgan barcha ehtiyot choralari;
  • takrorlash soni maksimal takrorlash soniga teng.

Robotning dumbasi va ikkitadan yaxshiroq bo'lgan k uchun k o'rtacha algoritmi kichkintoyga qaratilgan.

K-vosita algoritmiga robot misoli (k=2)

Katlanadigan oziq-ovqatda klasterlar sonini tanlang. Har qanday raqamga ruxsat berish mumkin emas, ikkita klaster yaratishni tavsiya eting, keyin 3, 4, 5, va hokazo, natijalarni teng o'lchamda qabul qiling.

Klasterlashning zichligini qayta tekshirish

K-vositalarni kuzatish usulidan foydalangan holda klaster tahlili natijalarini olgandan so'ng, klasterlashning to'g'riligini tekshiring (klaster shkalasi bittadan bitta deb hisoblanadimi yoki yo'qligini baholash uchun).

Shuning uchun teri klasterining o'rtacha qiymati ishlab chiqilgan. Yaxshi klasterlash bilan, nosozliklar olib tashlanadi, o'rta bo'lganlar barcha o'limlar yoki hatto kattaroq qismi uchun kuchli g'azablanadi.

K-o'rtacha algoritmining afzalliklari:

  • vikoristannyaning soddaligi;
  • shvidkist vikoristannya;
  • algoritmga aql va shaffoflik.

k-o'rtacha algoritmining kamchiliklari:

  • algoritm wikidiv uchun juda sezgir, shuning uchun u o'rtacha qo'llab-quvvatlash mumkin.

Muammoning mumkin bo'lgan echimlari ê vikoristannya algoritmini k-median algoritmini o'zgartirish;

  • algoritm katta ma'lumotlar bazalariga to'g'ri qo'llanilishi mumkin. Biz muammolarni ko'rishimiz va ma'lumotlarni tanlashda g'alaba qozonishimiz mumkin.

Bayesivskiy Mereji

Nazariy jihatdan bir xil, Sulyjnosti (Chi Suvoro: Vidsutsetya qobiliyatsiz), yakning hushyorligi majburiyligi, natijada bizning shifobaxshligimiz faktlardan ko'proqdir.

Grafikdagi elementlarni aylantiradigan to'g'ri yo'lni ko'rishda elementlar orasidagi bo'shliqlarni tasavvur qilish oson va intuitiv ravishda oqilona. X va y elementlari orasidagi mavjudligi o'rta asossiz emas va uchinchi element z yordamida o'rnatilganligi sababli, z elementi x va y o'rtasidagi yo'lda ekanligini tekshirish mantiqan to'g'ri keladi. Bunday tugun-vositachilar x va y, tobto o'rtasidagi nobudlikni "kashf qiladilar". in'ektsiyadagi oraliq bo'lmagan omillarning ma'lum ahamiyati uchun ular orasidagi ruhiy mustaqillik holatini modellashtirish.Bunday til bilan aytganda, modellashtirish Bayesovski merezhí bo'lib, yaki tabiiy fan sohasini tushunishlar orasidagi aqliy zaifliklarning tavsifi bo'lib xizmat qiladi.

Bayesovski merezhí - imovirnysnyh vydnosin mizh topshirish uchun tse grafik tuzilmalari ajoyib kilkistyu zdíysnennya ymovirnysnogo vivedennya uchun tsikh zmínnyh asosida deb zminnyh."Naívna" (Bayesovska) tasnifi - tasniflash usulining tushunchasi va hikmatini to'ldirish. "Naivna" o'zaro to'g'risida qabuldan chiqqanlarga chaqiriladimustaqillik belgisi.

Dominant tasnifi:

1. Vykoristannya barcha zminnyh va ular o'rtasida barcha o'g'itlar belgilash.

2. Ba'zi o'zgarishlarga ruxsat berish uchun ikkitasining mavjudligi:

  • barcha o'zgarishlar shunga qaramay muhim;
  • Barcha o'zgarishlar statistik jihatdan mustaqil, tobto. bir o'zgarishning ma'nosi boshqasining ma'nosi haqida hech narsa aytmaydi.

Bayesian birlashuvini o'rnatishning ikkita asosiy stsenariysi mavjud:

1. Tavsif tahlili. Mavzu sohasi grafikning ko'rinishi bilan ko'rsatiladi, ularning tugunlari tushunuvchini ifodalaydi va o'qlar bilan ko'rsatilgan tekislangan yoylar bu tushunuvchilar o'rtasidagi uzluksiz noto'g'rilikni ko'rsatadi. X va y tushunchalari o'rtasidagi bog'liqlik: x ning ma'nosini bilish y ning ma'nosini ko'proq bilishga yordam beradi. Ularning orasidagi intellektual mustaqillikni tushunish modellari o'rtasida uzluksiz bog'liqlikning mavjudligi, bunday to'plamning ma'nolarini hisobga olgan holda, "bo'lingan" narsani tushunish uchun. Misol uchun, rozmyr vzuttya bolalar, shubhasiz, po'yazaní z umínnyam bolalar vykom o'qib. Shunday qilib, kattaroq rozmyr vzuttya ko'proq tushuncha beradi, bola allaqachon o'qiydi, lekin agar biz allaqachon vykni bilsak, u holda rozvyr vzuttya bilimi bizga bermaydi. Qo'shimcha ma'lumot o'qishdan oldin bolaning qurilishi haqida.


Boshqa, ko'payadigan dumba kabi, biz bir vaqtning o'zida tovuq va sovuq kabi bog'lanmagan omil sifatida qarashimiz mumkin. Va biz, masalan, odam yolg'on yo'taldan azob chekayotganini bilganimizdek, odamning chekmasligini bilish, odamning shamollashi haqida xabardor bo'lishga yordam beradi.

2. Tasniflash va prognozlash. Bayesovska merezha, past intellektual mustaqillikni tushunishga imkon beradi, ikki kishilik to'shakdagi parametrlar sonini o'zgartirishga imkon beradi, ma'lumotlarning haqiqiy majburiyatlari bo'yicha baholashga ishonish imkonini beradi. Shunday qilib, 10 ta o'zgarishlar bilan teri z ulardan 10 qiymatga ega bo'lishi mumkin, uyqusiragan atirguldagi parametrlar soni - 10 milliard - 1. Agar ruxsat bersangiz, ular orasida bir turdagi o'zgarishlar 2 dan kam bo'lsa, u holda raqam Bir suruvdagi parametrlar soni 8 * (10-1) + (10 * 10-1) \u003d 171. Men resurslarni hisoblash uchun realistman, uyqusiragan atirgul modeli, men hech qanday tushunchaning ma'nosini oldindan aytib bera olmayman, chunki Misol uchun, bu tushunishning eng mumkin bo'lgan ma'nosi boshqalarning berilgan ma'nolari bilan tushunish.

DataMining usuliga Bayes o'lchovlarining quyidagi qiymatlarini ko'rsating:

Modelda minimal o'zgarishlar o'rtasida pasayishlar mavjud, bu esa osonlikcha imkon beradiba'zi bir ma'noga ega bo'lgan, ba'zi o'zgarishlar noma'lum bo'lgan vaziyatlarni umumlashtiring;

Bayes o'lchovlari oddiygina talqin qilinadi va bosqichda ruxsat etiladibashoratli modellashtirish "nima, nima" stsenariysi uchun tahlil qilish oson;

Bayes usuli tabiiy tartibni qonunlarni o'zgartirishga imkon beradi,ma'lumotlardan olingan, ya'ni, masalan, ekspert bilimlari, aniq ko'rinishdan olingan;

Bayes havolalarini tanlash qayta yo'naltirish muammosini hal qilishga imkon beradi(ortiqcha o'rnatish), ya'ni zaif tomoni bo'lgan ortiqcha moslama modeliboy usullar (masalan, daraxt echimlari va neyron tarmoqlar).

Naívno-bayêsívskiy pídkhíd shunday bo'lishi mumkin:

Barcha kirishlar bo'lsa, ongingizni faqat bir marta to'g'ri ko'paytiringhaqiqatning o'zgarishi statistik jihatdan mustaqildir; ko'pincha tsey usulikam baholangan aql statistik bilan yaxshi natijalarga erishish uchun ko'rsatishmustaqillik, lekin nazariy jihatdan bunday vaziyatni katlama mumkinnavchanní bayêsívskih merezhga asoslangan usullar;

Uzluksiz o'zgarishlarni to'xtatmasdan mumkin emas - bu kerakatributlar diskret bo'lishi uchun intervalli shkalaga o'tkazish; ammoboshqalarning o'zgarishi muhim qonuniyatlarning yo'qolishiga olib kelishi mumkin;

Naive-bayesian yondashuvining tasnifi natijasida ular kamroq qo'shiladikirish o'zgarishlarining individual qiymatlari, bug 'in'ektsiyalarining kombinatsiyasi yokiBu erda turli xil atributlarning uch barobar qiymatlari himoyalanmagan. Tse yaxshilanishi mumkinprognozli aniqlik nuqtai nazaridan tasniflash modelining sifati,ammo, u qayta ko'rib chiqilayotgan variantlar sonini ko'paytirdi.

Qismli neyron tarmoqlari

Parcha neyron tarmoqlar sinxron va asinxron bo'lishi mumkin.Sinxron neyron tarmoqlarda teri momenti o'z vaqtida kamroq bo'ladi bitta neyron. Asenkronda - lager darhol butun neyronlar guruhida, qoida tariqasida, hammasida o'zgaradi to'p. Siz ikkita asosiy arxitekturani ko'rishingiz mumkin - sharuvaty va renovate liniyalari.Sharuvatyh merezhakhning kaliti to'pni tushunishdir.To'p bitta yoki neyronlarning bir qismi bo'lib, uning kirish qismida bir xil yonayotgan signal beriladi.Sharuvaty neyron birlashadi - neyron birlashadi, okremi guruhlarga (to'plarga) bo'lingan ba'zi neyronlarda axborotni qayta ishlash ham sferik tarzda tartibga solinadi.Sferik to'rlarda i-to'pning neyronlari kirish signallarini oladi, ular ajratish nuqtalari orqali aylanadi va to'pning neyronlariga (i + 1) uzatiladi. I shunday k-chi to'pga, nima ko'ryapsiztarjimon va koristuvach uchun chiqish signallari. Teri to'pidagi neyronlar soni boshqa to'plardagi neyronlar soniga bog'liq emas, lekin etarli bo'lishi mumkin.Bitta to'pning chegaralarida ma'lumotlar parallel ravishda qayta ishlanadi va barcha chiziqlar miqyosida ishlov berish ketma-ketlikda - to'pdan to'pgacha amalga oshiriladi. Sharuvaty neyron tarmoqlaridan oldin, masalan, boy sferik perseptronlar, radial asosiy funktsiyalarning massivlari, kognitron, nokognitron, massivlarni ko'rish mumkin. assotsiativ xotira. Biroq, signal har doim ham barcha neyronlarga yuborilmaydi. Kognitronlarda, masalan, oqim to'pining teri neyroni signallarni faqat oldingi to'pning yaqin neyronlaridan oladi.

Sharuvaty merezhi, sizning yoningizda, bitta to'p va bagato-to'p bo'lishi mumkin.

Yagona sharli to'r- Merezha, u bitta to'pdan iborat.

Bagatoshharova merezha- Mereja, senda qanaqa to'p bor?

Bagato-to'p zanjirida birinchi to'p kiruvchi deb ataladi, oyoqlar ichki yoki qo'shimchalar deb ataladi, qolgan to'p esa tashqi hisoblanadi. Ushbu tartibda, oraliq to'plar bagatosfera neyron tarmog'idagi barcha to'plar, kirish va chiqishning qirrasi.Chegaraning kirish to'pi kirish ma'lumotlaridan, chiqish - chiqishdan havolalarni amalga oshiradi.Ushbu tartibda neyronlar ichkarida, tashqarida va biriktirilishi mumkin.Kirish neyronlaridan (inputneuron) tashkilotlarning kirish to'pi, shuning uchun ma'lumotlar olinadi va tarmoq to'pi bilan biriktirilgan neyronlarning kirishlari bo'yicha kengaytiriladi.Qo'shimcha neyron (yashirin neyron) - neyron tarmog'ining biriktiruvchi to'pi ichida joylashgan neyron.Chiqish neyronlari (chiqish neyronlari), shu jumladan tashkilotlar, chiqish to'pirobot neyron tarmog'ining natijalari

At povnozv'yazykovykh merezhakh teri neyroni o'zining chiqish signalini boshqa neyronlarga, shu jumladan o'ziga uzatadi. Bog'lanishning chiqish signallari bog'lanish funktsiyasining bir necha davrlaridan keyin neyronlarning hammasi yoki bir xil chiqish signallari bo'lishi mumkin.

Barcha kirish signallari barcha neyronlarga yuboriladi.

Neyron tarmoqlarni o'rgatish

Neyron iplarini sinab ko'rishdan oldin o'rganish kerak.Neyron tarmog'ini o'rganish jarayoniga aniq vazifaga muvofiq ichki parametrlarni qurish ta'sir qiladi.Robot neyron tarmog'ining algoritmi iterativ bo'lib, u davrlar va tsikllar deb ataladi.Epoch - o'rganish jarayonida bir iteratsiya, bu dastlabki multiplikatordan barcha ilovalarni taqdim etishni va, ehtimol, nazoratda o'rganish sifatini qayta tekshirishni o'z ichiga oladi. yuzsiz. O'qitish jarayoni dastlabki tanlovni saqlashdir.Dastlabki tanlov ma'lumotlar to'plami uchun kirish qiymatlari va mos keladigan chiqish qiymatlarini o'z ichiga oladi. Neyronni o'rganish natijasida men qishda qishki sug'orishning qancha yiqilib ketishini bilaman.Bu darajada oziq-ovqat bizning oldimizda singan - bizga kirish maydonlari (belgilari) kabig'alaba qozonish kerak. Boshning orqa tomonida, evristik tarzda tanlang, beringKirishlar soni o'zgarishi mumkin.

Katlama ma'lumotlar to'plamidagi oziq-ovqat miqdorini talab qilishi mumkin. Men qo'riqchilarning kerakli soni va o'lchov hajmi o'rtasidagi bog'liqlikni tavsiflovchi ba'zi qoidalarni o'rnatmoqchiman, ularning to'g'riligi keltirilmagan.Rivojlanayotgan vazifalarning murakkabligi oldida yotish uchun zarur bo'lgan qo'riqchilar soni. Odamlar sonining ko'payishi bilan ogohlantirishlar sonining belgisi chiziqli bo'lmagan holda o'sib boradi va muammo "mo'l-ko'llikning la'nati" deb ataladi. Etarli miqdor bilanchiziqli modelni yutib olish tavsiya etiladi.

Tahlilchi hujayradagi to'plar sonini va teri to'pidagi neyronlar sonini aniqlash uchun javobgardir.Dali ular mumkin, deb vag va zmíschen bunday qiymatini tan zarurkechirim atirgulini minimallashtirish. Vag'i va o'zgarish avtomatik ravishda shunday darajaga o'rnatiladi, shuning uchun biz bazhanim orasidagi farqni minimallashtiramiz va kechirim deyilganidek, chiqishdagi signallarni olib tashlaymiz.Uyg'ongan neyron tarmog'i uchun kechirim paritet yo'li bilan hisoblanadivihídnikh va tsíl'ovih (bazhanih) ma'nolari. Farqning egaliklaridan afv etish vazifasi shakllanadi.

Afv etish funktsiyasi asosiy funktsiyadir, chunki u jarayonda minimallashtirishni talab qiladikerovannogo navchannya neyron to'ri.Afv qilishning qo'shimcha funktsiyasi uchun siz mashg'ulot soati uchun neyron tarmoq ishining samaradorligini baholashingiz mumkin. Masalan, avf etish kvadratlari yig'indisi ko'pincha yutib olinadi.Neyron tarmog'ini o'rganish qobiliyatida vv zdatníst viríshuvati vazifalarni qo'yish.

Neyron tarmoq nomini o'zgartirish

Ko'pincha neyron tarmoqlarning shakllanishi uchun jiddiy qiyinchiliklar ayblanadi, ular deyiladihaddan tashqari moslashish muammosi.Nomini o'zgartirish yoki do'konga yaqin joyda joylashtirish - buyurtma to'g'rineyron chizig'i chiziq qo'llaniladigan dastlabki ilovalarning ma'lum bir to'plamigazagalnennya uchun zdatnyst.Nomini o'zgartirish uzoq vaqt davomida ayblanadi, raqam etarli emasneyron tarmog'ining qayta tashkil etilgan tuzilishining dastlabki ilovalari.Nomini o'zgartirish boshlang'ich (o'quv) multiplikatorini tanlash bilan bog'liqê vipadkovim. Birinchi bir necha yillardan boshlab, avf etishni o'zgartirish boshlanishining boshlanishi amalga oshiriladi. ustidakelgusi oylar kechirishni o'zgartirish usuli bilan (rol funktsiyasi)dastlabki multiplikatorning o'ziga xos xususiyatlari ostida podlashtoyutsya. Biroq, gap kelganda"Qurilish bosqichida" seriyaning umumiy muntazamligiga emas, balki yogo qismining o'ziga xosligiga asoslanadi -boshlang'ich submultiple. Prognozning aniqligi kim uchun o'zgaradi.Arqonlarning nomini o'zgartirish bilan kurashish variantlaridan biri - dastlabki tanlovni ikkiga bo'ldishaxssiz (birinchi va oxirgi sinov).Ko'paytirgichning boshida neyron chizig'ining boshlanishi hisobga olinadi. Sinov to'plamida so'ralgan modelni qayta tekshirish amalga oshiriladi. Qi ko'paytiriladi peretinatisya aybdor emas.Teri kroki bilan modelning parametrlari o'zgaradi, proteo doimiy ravishda o'zgaradiMaqsadli funktsiyaning qiymati dastlabki multiplikatorda o'zi tomonidan aniqlanadi. Agar multiplikator ikkiga bo'lingan bo'lsa, dastlabki multiplikator ustidagi ogohlantirishlar bilan parallel ravishda test multiplikatoridagi prognoz uchun kechirimning o'zgarishini taxmin qilish mumkin. Yakiylarprognozni kechirish soni ikkala vaqtda ham o'zgaradi. Biroq, yoqilgantest koʻpligidagi kechirim qoʻshiqchi timsohgacha oʻsishni boshlaydi, bosh koʻplikdagi kechirim esa oʻzgarishda davom etadi. Bu daqiqa juda muhim

Ma'lumotlarni qidirish vositalari

Dunyo dasturiy ta'minot xavfsizligi bozorining DataMining sektoridagi rivojlanish dunyoning yetakchi yetakchilari, shuningdek, rivojlanayotgan yangi kompaniyalar sifatida band. DataMining vositalari mustaqil qo'shimcha sifatida yoki asosiy mahsulotga qo'shimcha sifatida taqdim etilishi mumkin.Qolgan variant dasturiy ta'minot xavfsizligi bozorining etakchilari tomonidan amalga oshiriladi.Shunday qilib, an'anaviy statistik tahlil usullariga qo'shimcha sifatida universal statistik paketlarning chakana sotuvchilari paketga kiritishlari allaqachon an'anaga aylangan.DataMining usullarining birinchi to'plami. Narxi bir xil paket SPSS (SPSS, Clementine), Statistica (StatSoft), SAS instituti (SAS Enterprise Miner). Ba'zi OLAP yechim provayderlari DataMining usullari to'plamini, masalan, Cognos mahsulot oilasini targ'ib qiladi. Ê DataMining yechimlari va DBMS funksionalligini o'z ichiga olgan yetakchilar: Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMintelligentMinerforData).

Adabiyotlar ro'yxati

  1. Abdikeev N.M. Danko T.P. Ildemenov S.V. Kiselov A.D., “Biznes jarayonlarni reinjiniringi. MBA kursi”, M.: Eksmo ko'rinishi, 2005. – 592 p. - (MBA)
  1. Abdikeev N.M., Kiselov A.D. "Korporatsiyalar va biznes reinjiniringida bilimlarni boshqarish" - M.: Infra-M, 2011. - 382 b. - ISBN 978-5-16-004300-5
  1. Barseghyan A.A., Kupriyanov M.S., Stepanenko V.V., Holod I.I. "Ma'lumotlarni tahlil qilish usullari va modellari: OLAP va ma'lumotlarni qazib olish", Sankt-Peterburg: BHV-Peterburg, 2004, 336 pp., ISBN 5-94157-522-X
  1. Dyuk Da., Samiylenka LEKIN., “Ma’lumotlarni qazib olish.Boshlang'ich kurs » Sankt-Peterburg: Peter, 2001, 386s.
  1. Chubukova I.A., ma'lumotlarni qazib olish kursi, http://www.intuit.ru/department/database/datamining/
  1. IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data Mining: Qurilish asboblari va texnologiyalari uchun amaliy mashinalar (Uchinchi nashr), ISBN 978-0-12-374856-0
  1. Petrushin V.A. , Khan L., Multimedia Data Mining va Knowledge Discovery

© 2022 androidas.ru - Android haqida hamma narsa