Przewodniki finansowe

Co to jest Random Forest?

Las losowy to technika wykorzystywana w modelowaniu prognoz i analizie zachowań, oparta na drzewach decyzyjnych. Zawiera wiele drzew decyzyjnych, które reprezentują odrębny przypadek klasyfikacji danych wejściowych do lasu losowego. Technika losowego lasu uwzględnia poszczególne instancje, przyjmując jako wybraną prognozę tę z większością głosów.

Rysunek 1. Losowa struktura lasu (źródło)

Każde drzewo w klasyfikacji pobiera dane wejściowe z próbek w początkowym zbiorze danych. Funkcje są następnie wybierane losowo, które są używane do powiększania drzewa w każdym węźle. Każde drzewo w lesie nie powinno być przycinane aż do końca ćwiczenia, kiedy prognoza zostanie ostatecznie osiągnięta. W ten sposób losowy las umożliwia każdemu klasyfikatorowi o słabych korelacjach utworzenie silnego klasyfikatora.

Szybkie podsumowanie

Losowy las to połączenie drzew decyzyjnych, które można modelować pod kątem prognozowania i analizy zachowania.
Drzewa decyzyjnego w lesie nie można przycinać do pobierania próbek, a tym samym do wyboru prognoz.
Technika losowego lasu może obsługiwać duże zbiory danych ze względu na jej zdolność do pracy z wieloma zmiennymi, których liczba wynosi nawet tysiące.

Prognozowanie modelowania

Metoda losowego lasu może budować modele predykcyjne przy użyciu losowych drzew regresji leśnej, które są zwykle niecięte, aby dawać mocne prognozy. W przypadku drzew regresji, których nie należy przycinać, stosowana jest metoda bootstrap. Optymalne węzły są próbkowane z łącznej liczby węzłów w drzewie, aby utworzyć optymalną funkcję podziału.

Technika losowania zastosowana przy wyborze optymalnej cechy podziału obniża korelację, a tym samym wariancję drzew regresji. Poprawia zdolność predykcyjną różnych drzew w lesie. Pobieranie próbek przy użyciu metody bootstrap zwiększa również niezależność między poszczególnymi drzewami.

Zmienne znaczenie

Zmienne (cechy) są ważne dla lasu losowego, ponieważ interpretacja modeli jest wyzwaniem, zwłaszcza z biologicznego punktu widzenia. Naiwne podejście ukazuje znaczenie zmiennych, przypisując wagę zmiennej na podstawie częstotliwości jej włączania do próby przez wszystkie drzewa. Można to łatwo osiągnąć, ale stanowi wyzwanie, ponieważ wpływ na redukcję kosztów i zwiększenie dokładności jest zbędny.

Ważność permutacji to miara, która śledzi dokładność przewidywania, gdzie zmienne są losowo permutowane z próbek spoza worka. Podejście oparte na permutacji działa lepiej niż podejście naiwne, ale zwykle jest droższe.

Ze względu na wyzwania związane z losowym lasem, który nie jest w stanie zinterpretować przewidywań z biologicznego punktu widzenia, technika ta opiera się na naiwności, zmniejszeniu zanieczyszczeń i podejściu do permutacji, aby nadać im bezpośrednią możliwość interpretacji wyzwań. Te trzy podejścia obsługują zmienne predykcyjne z wieloma kategoriami.

Jednak w przypadku zmiennych predykcyjnych ciągłych o podobnej liczbie kategorii, zarówno podejście do ważenia permutacji, jak i średniego spadku zanieczyszczenia nie wykazuje tendencyjności Odchylenie od wydobywania danych Odchylenie do eksploracji danych odnosi się do założenia wagi, jaką przedsiębiorca przypisuje zdarzeniu na rynku, który faktycznie był wynikiem przypadku lub nieprzewidzianych. Wybór zmiennej często wiąże się z odchyleniem. Aby tego uniknąć, należy przeprowadzić podpróbkowanie bez zastępowania, aw przypadku wnioskowania warunkowego należy zastosować metodę losowego lasu.

Ukośne losowe lasy

Ukośne losowe lasy są wyjątkowe, ponieważ wykorzystują ukośne podziały do podejmowania decyzji zamiast konwencjonalnych podziałów decyzyjnych w węzłach. Ukośne lasy wykazują dużą przewagę, wykazując następujące cechy.

Po pierwsze, mogą rozdzielać rozkłady na osiach współrzędnych za pomocą pojedynczego podziału na wiele zmiennych, który obejmowałby konwencjonalnie potrzebne podziały w głębokiej osi. Po drugie, umożliwiają zmniejszenie odchylenia drzew decyzyjnych dla wykreślonych ograniczeń. Konwencjonalne podziały wyrównane do osi wymagałyby dwóch dodatkowych poziomów zagnieżdżenia podczas oddzielania podobnych klas za pomocą podziałów ukośnych, dzięki czemu ich użycie jest łatwiejsze i wydajniejsze.

Losowy klasyfikator lasu

Losowy klasyfikator lasu to zbiór drzew predykcyjnych, w którym każde drzewo jest zależne od losowych wektorów pobieranych niezależnie, z podobnym rozkładem co każde inne drzewo w losowym lesie. Pierwotnie zaprojektowany do uczenia maszynowego klasyfikator zyskał popularność w społeczności teledetekcyjnej, gdzie jest stosowany w klasyfikacji obrazów zdalnie wykrywanych ze względu na jego wysoką dokładność. Osiąga również odpowiednią wymaganą prędkość i wydajną parametryzację procesu. Losowy klasyfikator lasu ładuje losowe próbki, w których wybierana jest prognoza z najwyższym głosem ze wszystkich drzew.

W całym procesie ważna jest indywidualność drzew. Indywidualność każdego drzewa jest gwarantowana dzięki następującym cechom. Po pierwsze, każde szkolenie drzewa w próbie wykorzystuje losowe podzbiory z początkowych próbek uczących. Po drugie, optymalny podział jest wybierany spośród losowo wybranych cech nieprzyciętych węzłów drzewa. Po trzecie, każde drzewo rośnie bez ograniczeń i nie powinno być w ogóle przycinane.

Zalety losowych lasów

Losowe lasy przedstawiają szacunki o różnym znaczeniu, tj. Sieci neuronowe. Oferują również doskonałą metodę pracy z brakującymi danymi. Brakujące wartości są zastępowane przez zmienną występującą najczęściej w danym węźle. Spośród wszystkich dostępnych metod klasyfikacji, lasy losowe zapewniają najwyższą dokładność.

Technika losowego lasu może również obsługiwać duże zbiory danych z wieloma zmiennymi sięgającymi tysięcy. Może automatycznie równoważyć zestawy danych, gdy klasa jest rzadsza niż inne klasy w danych. Metoda szybko obsługuje również zmienne, dzięki czemu nadaje się do skomplikowanych zadań.

Więcej zasobów

Finance oferuje program Financial Modeling & Valuation Analyst (FMVA) ™ Certyfikat FMVA® Dołącz do ponad 350 600 studentów, którzy pracują dla firm takich jak Amazon, JP Morgan i Ferrari, z programem certyfikacji dla tych, którzy chcą przenieść swoją karierę na wyższy poziom. Aby dalej uczyć się i rozwijać swoją bazę wiedzy, zapoznaj się z dodatkowymi odpowiednimi zasobami finansowymi poniżej:

Analiza danych przekrojowych Analiza danych przekrojowych Analiza danych przekrojowych to analiza zbiorów danych przekrojowych. Ankiety i dokumenty rządowe to typowe źródła danych przekrojowych
Próbkowanie klastrowe Pobieranie próbek klastrowych W statystyce próbkowanie klastrów jest metodą próbkowania, w której cała populacja badania jest podzielona na zewnętrznie jednorodne, ale wewnętrznie
Rozkład normalny Rozkład normalny Rozkład normalny jest również nazywany rozkładem Gaussa lub Gaussa. Ten rodzaj dystrybucji jest szeroko stosowany w naukach przyrodniczych i społecznych. Plik
Kryterium Roya przede wszystkim bezpieczeństwo Kryterium Roya przede wszystkim bezpieczeństwo Kryterium Roya przede wszystkim bezpieczeństwo to technika zarządzania ryzykiem stosowana przez inwestorów do porównywania i wybierania portfela w oparciu o kryterium, zgodnie z którym prawdopodobieństwo

Co to jest Random Forest?

Szybkie podsumowanie

Prognozowanie modelowania

Zmienne znaczenie

Ukośne losowe lasy

Losowy klasyfikator lasu

Zalety losowych lasów

Więcej zasobów

Zalecane

Czy Crackstreams zostały zamknięte?

Czy centrum dowodzenia MC jest bezpieczne?

Czy Taliesin opuszcza kluczową rolę?