Daha çox

R-də nəzarətsiz təsadüfi meşə təsnifatının hesablanması?

R-də nəzarətsiz təsadüfi meşə təsnifatının hesablanması?


R-də bir raster yığınından nəzarətsiz təsadüfi bir meşə təsnifatını hesablamaq istəyirəm. Raster yığını fərqli spektral zolaqlarda eyni dərəcədə təmsil edir və nəticədə yığının nəzarətsiz bir təsnifatını almaq istəyirəm. Məlumatlarım çox böyük olduğundan kodumla bağlı problemlər yaşayıram.

Təsadüfi meşə alqoritmini bu şəkildə idarə etmək üçün yığını yalnız bir məlumat çərçivəsinə çevirmək yaxşıdır?

stack_median <- yığın (b1_mosaic_median, b2_mosaic_median, b3_mosaic_median, b4_mosaic_median, b5_mosaic_median, b7_mosaic_median) stack_median_df <- as.data.frame (stack_median)

Budur, məlumatları bir csv faylı olaraq (https://www.dropbox.com/s/gkaryusnet46f0i/stack_median_df.csv?dl=0) - və aşağıdakılar vasitəsilə oxuya bilərsiniz:

stack_median_df <-read.csv (file = "stack_median_df.csv") stack_median_df <-stack_median_df [, - 1] stack_median_df_na <- na.omit (stack_median_df)

Növbəti addımım nəzarətsiz təsnifat olacaq:

median_rf <- randomForest (stack_median_df_na, əhəmiyyət = TRUE, yaxınlıq = FALSE, ntree = 500, type = nəzarətsiz, meşə = NULL)

Nəhəng məlumat dəstimə görə yaxınlıq ölçüsü hesablana bilmir (təxminən 6000 GB lazım olacaq).

Təsnifata nəzər salmağı necə bacaracağınızı bilirsinizmi?

Kimiproqnozlaşdırmaq (median_rf)süjet (median_rf)heç bir şey qaytarmayın.


Etiketlenmemiş (nəzarətsiz) rejimdəki təsadüfi meşələr açıq sinifləri qaytarmır, əksinə, düyün yaxınlıqlarına əsaslanan miqyaslı çox dəyişkən məsafələrə bənzər bir şey gətirir. Yaxınlıq matrisi olmadan, istifadə edilə bilən etiketlənməmiş bir modeliniz yoxdur. Bəli, böyük problemlər üçün, hətta seyrək bir matris istifadə etməklə, yanaşmanın təbiəti yaxınlıq matrisinin böyük olmasına səbəb olur. Bu, təsadüfi meşələrdən, nəzarətsiz məsafədən algılamada istifadə olunan yayımlanan yanaşmaları görməməyinizin səbəbi ola bilər.

Yaxınlıqlara əsasən, gördüyüm bir yanaşma, klasterlər çıxarmaq / yoxlamaq, yaxınlıq matrisində dəyişdirilmiş K-vasitələrindən istifadə etməkdir. Alternativ olaraq yaImpute paketindəki təsadüfi meşələr seçimindən istifadə edərək imputasiya funksiyasını aldada biləcəksiniz, daha sonra oxşarlığa əsaslanan qruplara təyin edilə bilən analoji şeyləri ən yaxın qonşuya (kNN) qaytaracaq bir matris imputasiyası həyata keçirə bilərsiniz. matris.

Düşündüyünüz qədər birbaşa bir şey deyil və hər iki ayağınızla atlamadan əvvəl bu yanaşmanı araşdırmağı məsləhət görərdim.

**** 14.12.2018 Redaktə edin Bir neçə versiya əvvəl rfUtilities paketinə nəzarətsiz təsadüfi meşələr funksiyasını əlavə etdim. Raster kimi böyük məlumatlarda tövsiyə etmirəm, amma faydalı bir klaster üsuludur. Budur sadə bir nümunə.

kitabxana (rfUtilities) kitabxana (sp) data (meuse) meuse <- na.omit (meuse) n = 6 clust.meuse <- rf.unsupervised (meuse, n = n, proximity = TRUE, siluetler = TRUE) (meuse $ k <- clust.meuse $ k) mds <- stats ::: cmdscale (clust.meuse $ distances, eig = TRUE, k = n) colnames (mds $ points) <- paste ("Dim", 1: n) mds.col <- ifelse (clust.meuse $ k == 1, göy qurşağı (6) [1], ifelse (clust.meuse $ k == 2, göy qurşağı (6) [2), ifelse (clust.meuse $ k == 3, göy qurşağı (6) [3], ifelse (clust.meuse $ k == 4, göy qurşağı (6) [4], ifelse (clust.meuse $ k == 5, göy qurşağı (6) [5], ifelse (clust.meuse $ k == 6, göy qurşağı (6) [6], NA)))))) plot (mds $ points [, 1: 2], col = mds.col, pch = 20) pair ( mds $ bal, col = mds.col, pch = 20) koordinatlar (meuse) <- ~ x + y plot (meuse, col = mds.col, pch = 19) box ()

Kümelenme, məlumat nöqtələrinin əsl seçimlər haqqında heç bir məlumat olmadan siniflərə bölünməsi halını ifadə edən ümumi bir termindir. Beləliklə, hansı növ alqoritmi tətbiq etməyinizdən asılı olmayaraq, nəzarətsiz təsnifat halında bir klaster olacaqdır.

Əlbətdə vəziyyətə, məlumatlara, problemə və s. Asılı olaraq bir çox fərqli yanaşma var, əgər dəqiq tapşırığınızla bağlı daha çox kontekst verə bilsəniz, bəzi yanaşmaların adını çəkə bilərəm.

Qısa cavab YOXDUR, klasterləşdirmə nəzarətsiz öyrənmə altındakı yeganə sahə deyil. Nəzarət edilməmiş Öyrənmə yalnız klasterləşdirmə ilə müqayisədə daha genişdir. Kümelenme yalnız nəzarətsiz öyrənmənin (və ya növünün) alt sahəsidir.

Kiçik düzəliş: KNN bir klaster üsulu deyil, bir təsnif alqoritmidir. Yəqin ki, k-vasitələri demək istəmisiniz.

Nəzarətsiz öyrənmənin mahiyyəti, əsasən, həqiqət etiketi olmadan məlumatları öyrənməkdir. Beləliklə, nəzarətsiz öyrənmənin məqsədi verilən məlumatların təqdimatını tapmaqdır. Nəzarətsiz öyrənmənin tətbiqləri çox dəyişir, baxmayaraq ki, akademik olaraq sahənin tədqiqatçılar üçün daha az cəlbediciliyi və yeni məhsullar yaratmaq və / və ya inkişaf etdirmək səyləri səbəbindən doğrudur.

Ölçülərin azaldılması nəzarətsiz öyrənmə şəraitində nəzərə alına bilər, çünki aşağı ölçülərdə məlumatların yaxşı bir şəkildə təqdimatını tapmaq istəyirsən. Bunlar yüksək ölçülü məlumatları görselləşdirmək üçün də faydalıdır. PCA, SNE, tSNE, Isomap və s. Bu tətbiqetmələrin bir növüdür.

Kümelenme metodları, bəzi məsafə / fərqlilik ölçüsünə əsasən dəyərləri qruplaşdırmaq və etiketləmək istədiyiniz nəzarətsiz öyrənmə növüdür. Bəzi tətbiqetmələr K-vasitələri, iyerarxik qruplaşma və s. Ola bilər.

Generativ modellər, generativ modellər şərti ehtimal P (X | Y = y) modelləşdirir. Bu sahədəki araşdırmalar GAN nəşrindən bəri sürətlə inkişaf etdi (kağıza bax). GAN'lar məlumatları açıq şəkildə görmədən məlumat paylamasını öyrənə bilərlər. Metodlar GAN, VAE, Gaussian Qarışıq, LDA, Gizli Markov modelinin olduğu müxtəlifdir.


Arqumentlər

Bu paket çox faydalı funksiyaları ehtiva edir və istifadəçilər ətraflı məlumat üçün kömək sənədini bütöv oxumalıdırlar. Bununla birlikdə, paketin səthində gəzməyi və başa düşməyi asanlaşdıran bir neçə əsas funksiyanı qısaca qeyd edirik.

Bu paketin əsas giriş nöqtəsidir. İstifadəçi tərəfindən verilən təlim məlumatlarını istifadə edərək təsadüfi bir meşə yetişdirir. Nəticə obyektinə RF-SRC böyümə obyekti kimi müraciət edirik. Formal olaraq, nəticələnən obyekt sinifə malikdir (rfsrc, böyümək).

Alt nümunə götürərək rfsrc-in sürətli tətbiqi.

Təlim və sınaq üçün tək dəyişkən və çox dəyişkən kvantil regresiya meşəsi. Yüksək yaddaş səmərəliliyinə görə böyük məlumatlar üçün xüsusilə uyğun olan Greenwald-Khanna (2001) alqoritmi daxil olmaqla müxtəlif üsullar mövcuddur.

Proqnoz üçün istifadə olunur. Proqnozlaşdırılan dəyərlər, istifadəçinin verdiyi test məlumatlarını böyümək meşəsinə endirməklə əldə edilir. Nəticədə alınan obyekt sinfə malikdir (rfsrc, tahmin).

Nəzarət olunmayan məlumatların SID istifadə edərək qruplaşdırılması (Mərhələli Qarşılıqlı Məlumat). Breiman'ın (2003) süni iki sinifli yanaşmasını da həyata keçirir.

Dəyişən seçim üçün istifadə olunur:

vimp, dəyişənə səs verməklə (məsələn, permütasiya yolu ilə) bir RF-SRC böyümə / proqnozlaşdırma obyektindən dəyişən uyğunsuzluğu (VIMP) hesablayır. Zənglərin böyüməsi / proqnozlaşdırılması həmişə birbaşa VIMP tələb edə biləcəyini unutmayın.

alt nümunə alt seçmə yolu ilə VIMP etibarlılıq italələrini hesablayır.

holdout.vimp, dəyişən modeldən çıxarıldıqda onun əhəmiyyətini ölçür.

q-təsnifatı və sinif balanssız məlumatları üçün G-ortalama VIMP.

RF-SRC üçün sürətli imputasiya rejimi. Həm rfsrc, həm də predict.rfsrc itkin məlumatları yerləşdirməyə qadirdir. Bununla birlikdə, yeganə marağı imputing data olan istifadəçilər üçün bu funksiya bunun üçün səmərəli və sürətli bir interfeys təmin edir.

Dəyişən və ya dəyişənlərin ansambllara qismən təsirlərini çıxarmaq üçün istifadə olunur.


Sayılar:

Shi et al. (http://labs.genetics.ucla.edu/horvath/RFclustering/RFclustering/RandomForestHorvath.pdf) iki seçmə üsulunu təsvir edir - (1) məlumatların dəyişənlərinin empirik marjinal paylanmalarının məhsulundan təsadüfi seçmə və (2) məlumatları ehtiva edən hiper düzbucaqlıdan təsadüfi seçmə (vahid paylama).

Şi və s. "RF uyğunsuzluğu, sintetik məlumatların xüsusi həyata keçirilməsinin bir funksiyası olaraq əhəmiyyətli dərəcədə dəyişə bilər" dedi. Beləliklə, bir sıra meşələr yetişdirilir və son nəticəni əldə etmək üçün birləşdirilir.


2 Cavablar 2

randomForest, dəyişənin sinifindən asılı olaraq təsnifat və ya reqressiya üçün standartdır. Yəni yazsanız

bunun bir amil olduğunu görəcəksiniz. kodunuzdakı 'etiket', çox güman ki, ədədi olduğu üçün randomForest standart olaraq reqressiyaya uğrayır. Təsnifat üçün bir faktora çevirməlisiniz. ColClasses-i read.table-a qoyaraq çevirə və ya faktor olaraq oxuya bilərsiniz.

Çox vaxt bunun R-yə etiketin kategorik bir dəyişən olduğunu söyləməməyinizə səbəb olur. Read.csv funksiyası hər bir sütun üçün hansı növü istifadə edəcəyini təxmin etməyə çalışır və ədədi bir sütuna bənzəyirsə o zaman istifadə ediləcəkdir. Str funksiyasından istifadə edərək R-in dəyişəni necə saxladığını yoxlaya bilərsiniz. ColClasses arqumentindən istifadə edərək read.csv-i dəyişəni faktor kimi oxumağa məcbur edə bilərsiniz (və ya ədədi və ya.). Yoxsa faktor funksiyasından istifadə edərkən oxuduqdan sonra etiketləri amilə dəyişə bilərsiniz.

Bu belə deyilsə, məlumatlarınız haqqında daha çox məlumata ehtiyacımız var. Məlumat çərçivənizdə str işləməyin nəticələri yəqin ki, faydalı ola bilər.


Proqnoz

Proqnozlaşdırılan dəyərlər, model yaradıldıqdan sonra test məlumatlarının meşəyə enməsi ilə əldə edilir. Sınaq məlumatları bir nəticə əldə etdikdə ümumi səhv nisbəti qaytarılır. Heç bir test məlumatı verilmirsə, orijinal təlim məlumatları istifadə olunur və kod meşəni, əlaqəli terminal düyünü statistikalarını və ansamblları bərpa etməyə qayıdır. Bu, istifadəçiyə meşədən model yaradılması zamanı istənilməyən nəticələr çıxarmaq imkanı verməsi baxımından faydalıdır. [Meşə Qərar Sərhədləri] rəqəmi, x-dəyişənlərə qoyulmuş meşə qərar sərhədlərini görmək üçün proqnozlaşdırmanın necə istifadə edilə biləcəyinə bir nümunədir. Traning, sınaq və bərpa nümunələri aşağıdakılardır:

Nəticə = "test"

Əgər nəticə = "test" olarsa, təlim məlumatları terminal qovşaqlarının statistikasını hesablamaq üçün istifadə olunmur. Bunun əvəzinə, TNS, test dəstindəki y nəticələrini istifadə edərək yenidən hesablanır. Bu, meşənin dəyişməz topologiyasının təlim məlumatlarına əsaslandığı, lakin ansamblların və proqnozlaşdırılan dəyərlərin test məlumatlarına əsaslandığı dəyişdirilmiş bir proqnoz verir. Terminal düyünü statistikaları, ansambllar və səhv nisbətləri hamısı test məlumatlarını yükləmək və qərəzsiz təxminləri təmin etmək üçün OOB fərdlərindən istifadə etməklə hesablanır.

Əvvəllər [Meşə Qərar Sərhədində] təsvir edilmiş meşəni və mənşəyindəki tək test nöqtəsi üçün əlaqəli meşə ansamblını düşünün. Bu orijinal təlim məlumatları və ansamblı [nəticə = "test"] in yuxarı sol və yuxarı sağ hissəsində göstərilir. Mavi və sarı siniflərin radiuslarının azaldılması ilə əmələ gələn yeni test məlumatları şəklin sol alt hissəsində göstərilir. Mənşə yalnız iki məlumat nöqtəsini, yəni bir qırmızı və bir yaşıl nöqtəni ehtiva edir. Terminal düyünlərini doldurmaq üçün yeni test məlumatlarından istifadə edərək, mavi və sarı sinifləri itirən bir ansamblla nəticələnir. Bu ansambl şəklin sağ alt hissəsində göstərilir.


nəticə = "test"

Kürələrin yaradılması funksiyası [Əlavə Kod] bölməsində verilmişdir və [nəticə = "test"] şəklini çıxarmaq üçün istifadə olunan daha yüksək səviyyəli kod aşağıdakılardır:

Budama

Bir modeldə ağacların böyüməsini məhdudlaşdırmaq üçün bir sıra yollar var. Ən aydın olanlar [Düyün dərinliyi və düyün ölçüsü ”bölməsində müzakirə olunan nodedepth və nodeize parametrləridir. Düyünlənmənin azaldılması və ya düyünlənmənin artması daha dayaz ağaclarla nəticələnəcəkdir. Meşə yaradıldıqdan sonra istifadəçi ptn.count parametrindən istifadə edərək ağacları yenidən kəsə bilər. Bu parametr yalançı terminal düyün sayını əks etdirir. Bir ağac böyüdükdən sonra istənilən sayda yalançı terminal qovşaqlarını təyin etməyə imkan verir. Bu, təsadüfi Meşələr təhlili üçün faydalı deyil, ancaq digər tətbiqlərdə də faydalı ola bilər. Ağaclar çevik və uyğunlaşan parametrik olmayan qiymətləndiricilərdir və beləliklə, qradiyent artırma tətbiq etmək üçün ideal zəif şagirdləri təmsil edirlər [Friedman, 2001]. Tam olaraq J-terminal qovşaqlarının (J-nin hər hansı bir tam dəyəri üçün) lazım olduğu regresiya və təsnifat üçün artırılmış ağaclar, ptn.count parametri istifadə edilərək asanlıqla həyata keçirilir. RandomForestSRC paketinin bu xüsusi tətbiqi CRAN üzərindəki boostmtree paketinə daxil edilmişdir [Ishwaran and Kogalur, 2016]. Budama, istənilən yalançı terminal düyün sayına çatana qədər terminal qovşaqlarını kökünə doğru maksimum dərinlikdən silməklə həyata keçirilir. Qız qovşaqları cüt-cüt silinir. Bu, qızı terminal düyünlərinin mövcud maksimum dərinlikdə silinməsindən sonra bir ana düyünün yalançı terminal düyününə çevrilməsi ilə nəticələnir.


Nəzarətsiz öyrənmədə məlumatlar, eyni sinifli x -vektorlar toplusundan ibarətdir və sinif etiketi və cavab dəyişkənləri yoxdur. Sahəni birmənalı olmayan nəticələrə açıq qoyaraq optimallaşdırmağın ləyaqəti yoxdur. Adi məqsəd məlumatları yığmaqdır - hər birinə bir məna verilə bilən müxtəlif yığınlara düşüb-düşmədiyini görmək.

Təsadüfi meşələrdə yanaşma, orijinal məlumatları 1-ci sinif kimi qəbul etmək və 2-ci sinif kimi etiketlənəcək eyni ölçülü sintetik ikinci bir sinif yaratmaqdır. Sintetik ikinci sinif, orijinalın dəyişməz paylanmalarından təsadüfi seçmə yolu ilə yaradılmışdır. məlumat. Burada iki sinifin tək bir üzvü necə yaradılır - ilk koordinat N dəyərlərindən seçilir . İkinci koordinat N dəyərlərindən müstəqil olaraq seçilir , və sairə.

Beləliklə, ikinci sinif müstəqil təsadüfi dəyişənlərin paylanmasına malikdir, hər biri orijinal məlumatdakı müvafiq dəyişənlə eyni dəyişkən paylanmaya malikdir. Class 2 beləliklə orijinal məlumatdakı asılılıq quruluşunu məhv edir. Ancaq indi iki sinif var və bu süni iki sinif problemi təsadüfi meşələr vasitəsilə idarə edilə bilər. Bu, təsadüfi meşə seçimlərinin hamısının orijinal etiketlənməmiş məlumat dəstinə tətbiq edilməsinə imkan verir.

İki sinif problemindəki oob səhv təsnifatı nisbəti, deyək ki, 40% və ya daha çox olarsa, bu x-dəyişənlərin təsadüfi meşələrə müstəqil dəyişənlərə bənzədiyini göstərir. Bağımlılığın böyük rolu yoxdur və çox ayrı-seçkilik baş vermir. Yanlış təsnifat nisbəti daha azdırsa, asılılıqlar vacib rol oynayır.

İki sinif problemi kimi formalaşdırmağın bir sıra mənfəəti var. Eksik dəyərlər effektiv şəkildə əvəz edilə bilər. Üst həddi tapmaq mümkündür. Dəyişən əhəmiyyəti ölçmək olar. Ölçekleme həyata keçirilə bilər (bu vəziyyətdə, orijinal məlumatlarda etiketlər varsa, nəzarətsiz miqyaslandırma çox vaxt orijinal miqyasın quruluşunu saxlayır). Ancaq ən vacib qazanc kümelenme ehtimalıdır.

Səslərin ümumi sayının "həqiqi" nümunələrin sayının (sinif 1) olması səbəbi sadəcə "saxta" nümunələrə (sinif 2) səslərin qaytarılması üçün bir səbəbin olmamasıdır. Bunlar təsadüfi və ehtimal sıxlığı funksiyası tamamilə məlumdur.


2 Cavablar 2

Həddindən artıq təsnifat, kanonik RF metodu üçün bir problem olan və bir sıra dəyişikliklərin araşdırıldığı proqnoz meylinə səbəb ola bilər. Yəqin ki, qərəzliliyin azaldılmasına əsas yanaşma, bəzən 'həddindən artıq' təsadüfi meşə adlandırılan, randomizə edilmiş bölünmə eşiklərindən istifadə etməkdir. R paketində RF-nin hansı ləzzətinin tətbiq olunduğundan əmin deyiləm, lakin balanssız təsnifat məlumat dəstləri ilə işləyərkən problem daha çox nəzərə çarpacaq - səs çoxluğu alaraq meşə səslərin tarazlığı ilə bağlı məlumatları itirir və bu bilər və tez-tez təsnifatlara qərəz gətirəcəkdir.


3 Cavablar 3

Modelinizin yaxşı dəqiqlik nümayiş etdirdiyini nəzərə alsaq, onu etiketlənməmiş verilənlər bazasında qeydlərin sinif etiketlərini proqnozlaşdırmaq üçün istifadə edə bilərsiniz. Bununla birlikdə çıxışları etiketlənməmiş məlumatlarla qiymətləndirə bilməzsiniz.

Modelinizin keyfiyyətini etiketli məlumatlarda çarpaz doğrulama ilə qiymətləndirməyinizə diqqət yetirin. Təlim səhv nisbətini yoxlamaq kifayət deyil.

Modeliniz kifayət qədər dəqiq deyilsə, yarı nəzarətli təlim haqqında düşünə bilərsiniz. Etiketlenmemiş məlumatlar induktiv təlim yolu ilə modelinizin keyfiyyətini artırmaq üçün istifadə olunur. Dəqiqlik hər zaman etiketli məlumatlarınızda çarpaz doğrulama ilə hesablanmalıdır.

[Crimisini et al. Qərar Meşələri: Təsnifat, Reqressiya, Yoğunluğun Qiymətləndirilməsi, Doldurma Öyrənmə və Yarı Nəzarətli Öyrənmə üçün Vahid Bir Çərçivə] Yarım nəzarətli öyrənmə haqqında 7. Fəsil və yarı nəzarətli təlimlə induksiya haqqında 7.4.

Nəzarətsiz daha yaxşı işləyəcəyinə şübhə edirəm, amma sınamaq üçün sərin bir məşq ola bilər. Təsadüfi meşə ilə nəzarətsiz öyrənmə, məlumatlarınızı təsvir edən müstəqil dəyişənlərinizə əsaslanan ortaq bir paylama quraraq həyata keçirilir. Sonra bu paylanmadan istifadə edərək müəyyən sayda müşahidəni simulyasiya edin. Məsələn, 1000 müşahidən varsa, 1000 daha çox simulyasiya edə bilərsən. Sonra onları etiketləyirsiniz, məsələn. 1: = həqiqi müşahidə, 0: = süni müşahidə. Bundan sonra, həqiqi müşahidələri süni olanlardan ayırmağa çalışan adi bir təsadüfi meşə təsnifatçısı işlədirsiniz. Nəzərə alın ki, yaxınlıq seçimini hesablayın. Həqiqi faydalı nəticə məhz bundan ibarətdir, bu yazıları təyin etməyə çalışarkən Random Forest-in gördüyü işlərə əsaslanan müşahidələriniz arasındakı yaxınlığın təsviri. İndi müşahidələrinizin bir-birindən nə qədər "yaxın" və ya "bənzər" olduğuna dair bir təsviriniz var və hətta bir çox texnikaya əsaslanaraq onları yığmaq olar. Düz bir bu "məsafələr" üçün eşiklər seçmək olardı. Müəyyən bir həddən daha yaxın olan müşahidələri birləşdirmək deməkdir. Başqa bir asan seçim hiyerarşik klasterləşdirmə etmək, lakin bu məsafə matrisindən istifadə etməkdir. R ilə işləyə bilsəniz, əksər hiyerarşik klaster paketləri funksiyaları xüsusi məsafə matrisləri ilə təmin etməyə imkan verir. Daha sonra bir kəsmə nöqtəsi seçirsiniz, onu bir dendrogram və s. Kimi təsəvvür edə bilərsiniz.

Əvvəllər bu təsadüfi meşə qruplaşması haqqında çox yaxşı bir təlimat idi və bu məqsədlə yazdıqları bəzi faydalı R funksiyalarını bölüşdülər, ancaq keçid indi ölmüş kimi görünür. Bəlkə daha sonra yenidən gündəmə gələcəkdir. Bunu yoxlamaq istəyirsinizsə çox təsadüfi bir təsadüfi glm R paketi də yazdılar (təsadüfi meşəyə bənzəyir, ancaq duh. Glms-a əsaslanır). Həmişə müəlliflərə yaza bilər və əvvəllər ölü linkdə mövcud olan Random Forest təsnifatı üçün material istəyə bilərsiniz. Məndə R kodu var, amma bura yapışdırmaq üçün çox böyükdür, əgər mənə xüsusi bir mesaj göndərsəniz, sizə göndərə bilərəm.


Hemant İşwaran və Udaya B. Kogalur

Breiman L. (2001). Təsadüfi meşələr, Maşın Təlimi, 45:5-32.

Geurts, P., Ernst, D. və Wehenkel, L., (2006). Son dərəcə təsadüfi ağaclar. Maşın öyrənmə, 63(1):3-42.

İşwaran H. və Kogalur U.B. (2007). R üçün təsadüfi sağ qalma meşələri, Rnews, 7(2):25-31.

İşwaran H. (2007). İkili reqressiya ağaclarında və meşələrdə dəyişkən əhəmiyyət, Elektron J. Statistika., 1:519-537.

İşwaran H., Kogalur U.B., Blackstone E.H. və Lauer M.S. (2008). Təsadüfi sağ qalma meşələri, Ann. Tətbiq Statist., 2:841-860.

İşwaran H., Kogalur U.B., Gorodeski E.Z, Minn A.J. və Lauer M.S. (2010). Sağ qalma məlumatları üçün yüksək ölçülü dəyişən seçim. J. Amer. Statist. Dos., 105:205-217.

İşwaran H., Kogalur U.B., Chen X. və Minn A.J. (2011). Yüksək ölçülü məlumatlar üçün təsadüfi sağ qalma meşələri. Stat. Anal. Data Mining, 4:115-132

İşwaran H., Gerds T.A., Kogalur U.B., Moore R.D., Gange S.J. və Lau B.M. (2014). Rəqib risklər üçün təsadüfi sağ qalma meşələri. Biostatistika, 15(4):757-773.

Ishwaran H. və Malley J.D. (2014). Sintetik öyrənmə maşınları. BioData Mining, 7:28.

İşwaran H. (2015). Bölünmənin təsadüfi meşələrə təsiri. Maşın Təlimi, 99:75-118.

İşwaran H. və Lu M. (2019). Təsadüfi meşə reqressiyasında, təsnifatında və sağ qalmasında dəyişkən əhəmiyyəti üçün standart səhvlər və güvən aralıkları. Tibbdə statistika, 38, 558-582.

Lu M., Sadiq S., Ziyafət D.J. və Ishwaran H. (2018). Təsadüfi meşə metodlarından istifadə edərək müşahidə məlumatlarında fərdi müalicə effektinin qiymətləndirilməsi. J. Comp. Qrafik. Statist, 27(1), 209-219

Mantero A. və Ishwaran H. (2020). Nəzarət edilməyən təsadüfi meşələr. Görünmək Statistik Analiz və Data Mining.

Meinshausen N. (2006) Quantile regresiya meşələri, Maşın Öyrənmə Araşdırma Jurnalı, 7:983-999.

O'Brien R. və Ishwaran H. (2019). Sinif balanssız məlumatları üçün təsadüfi bir meşə kvant təsnifatçısı. Nümunə Tanıma, 90, 232-249

Segal M.R. və Xiao Y. Çox dəyişkən təsadüfi meşələr. (2011). Wiley Fənlərarası İncelemeler: Data Mining və Bilik Kəşfi. 1(1):80-87.

Tang F. və Ishwaran H. (2017). Təsadüfi meşə itkin məlumat alqoritmləri. Statistik Analiz və Data Mining, 10:363-377.


Videoya baxın: . 2-ci cərəyan dövrəsində aktiv tutum və induktiv müqavimət.