Statistical Issues in Machine Learning Towards Reliable Split Selection and Variable Importance Measures -  Carolin Strobl

Statistical Issues in Machine Learning Towards Reliable Split Selection and Variable Importance Measures (eBook)

eBook Download: PDF
2008 | 1. Auflage
204 Seiten
Cuvillier Verlag
978-3-7369-2661-5 (ISBN)
Systemvoraussetzungen
19,60 inkl. MwSt
  • Download sofort lieferbar
  • Zahlungsarten anzeigen
Recursive partitioning methods from machine learning are being widely applied in many scientific fields such as, e.g., genetics and bioinformatics. The present work is concerned with the two main problems that arise in recursive partitioning, instability and biased variable selection, from a statistical point of view. With respect to the first issue, instability, the entire scope of methods from standard classification trees over robustified classification trees and ensemble methods such as TWIX, bagging and random forests is covered in this work. While ensemble methods prove to be much more stable than single trees, they also loose most of their interpretability. Therefore an adaptive cutpoint selection scheme is suggested with which a TWIX ensemble reduces to a single tree if the partition is sufficiently stable. With respect to the second issue, variable selection bias, the statistical sources of this artifact in single trees and a new form of bias inherent in ensemble methods based on bootstrap samples are investigated. For single trees, one unbiased split selection criterion is evaluated and another one newly introduced here. Based on the results for single trees and further findings on the effects of bootstrap sampling on association measures, it is shown that, in addition to using an unbiased split selection criterion, subsampling instead of bootstrap sampling should be employed in ensemble methods to be able to reliably compare the variable importance scores of predictor variables of different types. The statistical properties and the null hypothesis of a test for the random forest variable importance are critically investigated. Finally, a new, conditional importance measure is suggested that allows for a fair comparison in the case of correlated predictor variables and better reflects the null hypothesis of interest.
Erscheint lt. Verlag 30.7.2008
Sprache englisch
Themenwelt Mathematik / Informatik Mathematik
ISBN-10 3-7369-2661-8 / 3736926618
ISBN-13 978-3-7369-2661-5 / 9783736926615
Haben Sie eine Frage zum Produkt?
PDFPDF (Wasserzeichen)
Größe: 969 KB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasser­zeichen und ist damit für Sie persona­lisiert. Bei einer missbräuch­lichen Weiter­gabe des eBooks an Dritte ist eine Rück­ver­folgung an die Quelle möglich.

Dateiformat: PDF (Portable Document Format)
Mit einem festen Seiten­layout eignet sich die PDF besonders für Fach­bücher mit Spalten, Tabellen und Abbild­ungen. Eine PDF kann auf fast allen Geräten ange­zeigt werden, ist aber für kleine Displays (Smart­phone, eReader) nur einge­schränkt geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Mehr entdecken
aus dem Bereich
Ein Übungsbuch für Fachhochschulen

von Michael Knorrenschild

eBook Download (2023)
Carl Hanser Verlag GmbH & Co. KG
16,99
Grundlagen - Methoden - Anwendungen

von André Krischke; Helge Röpcke

eBook Download (2024)
Carl Hanser Verlag GmbH & Co. KG
34,99