Co to jest pakowanie (agregacja Bootstrap)?

Uczenie maszynowe w zespole można podzielić głównie na gromadzenie i przyspieszanie. Technika workowania jest przydatna zarówno do regresji, jak i klasyfikacji statystycznej. Pakowanie jest stosowane w drzewach decyzyjnych, gdzie znacząco podnosi stabilność modeli w redukcji wariancji i poprawie dokładności, co eliminuje problem nadmiernego dopasowania.

Parcianka

Rysunek 1. Przepływ workowania (agregacja Bootstrap). Źródło

Pakowanie w zespołowe uczenie maszynowe wymaga kilku słabych modeli, agregując prognozy w celu wybrania najlepszej prognozy. Słabe modele specjalizują się w odrębnych sekcjach przestrzeni funkcji, co umożliwia gromadzenie prognoz dotyczących dźwigni z każdego modelu w celu osiągnięcia najwyższego celu.

Quick Su mmary

  • Pakowanie i przyspieszanie to dwie główne metody zespołowego uczenia maszynowego.
  • Pakowanie jest metodą zespołową, którą można zastosować w regresji i klasyfikacji.
  • Znana jest również jako agregacja bootstrap, która tworzy dwie klasyfikacje workowania.

Co to jest Bootstrapping?

Pakowanie składa się z dwóch części: agregacji i ładowania początkowego. Bootstrapping to metoda próbkowania, w której próbka jest wybierana z zestawu przy użyciu metody zastępczej. Algorytm uczący jest następnie uruchamiany na wybranych próbkach.

Technika bootstrap wykorzystuje próbkowanie z wymianami, aby procedura selekcji była całkowicie losowa. Gdy próbka jest wybierana bez zastępowania, kolejne selekcje zmiennych są zawsze zależne od poprzednich selekcji, co powoduje, że kryteria są nielosowe.

Co to jest agregacja?

Prognozy modelu podlegają agregacji, aby połączyć je w celu ostatecznej prognozy uwzględniającej wszystkie możliwe wyniki. Agregację można przeprowadzić na podstawie całkowitej liczby wyników lub prawdopodobieństwa prognoz wyprowadzonych z ładowania początkowego każdego modelu w procedurze.

Co to jest metoda zespołowa?

Zarówno bagging, jak i boosting to najbardziej znane techniki zespołowe. Metoda zespołowa to platforma uczenia maszynowego, która pomaga wielu modelom w uczeniu się dzięki zastosowaniu tego samego algorytmu uczenia się. Metoda zespołowa jest uczestnikiem większej grupy wielokrotnych klasyfikatorów.

Wieloklasyfikatory to grupa wielu uczniów, licząca tysiące osób, których wspólny cel może łączyć się i rozwiązywać wspólny problem. Inną kategorią wielokrotnych klasyfikatorów są metody hybrydowe. Metody hybrydowe wykorzystują zestaw uczniów, ale w przeciwieństwie do wielu klasyfikatorów mogą używać różnych metod uczenia się.

Uczenie się napotyka wiele wyzwań, takich jak błędy, które są głównie spowodowane uprzedzeniami, szumem i wariancją. Dokładność i stabilność uczenia maszynowego są gwarantowane przez metody zespołowe, takie jak pakowanie i przyspieszanie. Wiele kombinacji klasyfikatorów zmniejsza wariancję, zwłaszcza gdy klasyfikatory są niestabilne i są ważne w przedstawianiu bardziej wiarygodnych wyników niż pojedynczy klasyfikator.

Zastosowanie metody „bagging” lub „boosting” wymaga najpierw wybrania podstawowego algorytmu ucznia. Na przykład, jeśli wybierze się drzewo klasyfikacyjne, wówczas wzmocnienie i zapakowanie będzie pulą drzew o rozmiarze równym preferencjom użytkownika.

Zalety i wady pakowania w worki

Random forest Random Forest Random forest to technika wykorzystywana w modelowaniu prognoz i analizie zachowania, oparta na drzewach decyzyjnych. Losowy las zawiera wiele drzew decyzyjnych jest jednym z najpopularniejszych algorytmów pakowania. Tworzenie worków ma tę zaletę, że pozwala wielu słabym uczniom połączyć wysiłki, aby prześcignąć jednego silnego ucznia. Pomaga również w zmniejszaniu wariancji, a tym samym eliminuje nadmierne dopasowanie. Przebrojenie. Przefiltrowanie to termin używany w statystykach, który odnosi się do błędu modelowania, który występuje, gdy funkcja zbyt blisko odpowiada określonemu zestawowi danych modeli w procedurze.

Wadą workowania jest to, że powoduje utratę zdolności do interpretacji modelu. Wynikowy model może być obciążony dużym obciążeniem, jeśli zignoruje się właściwą procedurę. Pomimo tego, że pakowanie jest bardzo dokładne, może być kosztowne obliczeniowo, co w niektórych przypadkach może zniechęcać do jego używania.

Pakowanie vs. Boosting

Najlepsza technika do zastosowania między pakowaniem a zwiększaniem zależy od dostępnych danych, symulacji i wszelkich istniejących w danym momencie okoliczności. Wariancja oszacowania jest znacznie zmniejszona przez techniki workowania i wzmacniania podczas procedury łączenia, zwiększając w ten sposób dokładność. Dlatego uzyskane wyniki wykazują większą stabilność niż wyniki indywidualne.

Kiedy zdarzenie stanowi wyzwanie w postaci niskiej wydajności, technika workowania nie przyniesie lepszego obciążenia. Jednak technika wzmacniania generuje ujednolicony model z mniejszymi błędami, ponieważ koncentruje się na optymalizacji zalet i redukcji niedociągnięć w jednym modelu.

Kiedy wyzwaniem w pojedynczym modelu jest nadmierne dopasowanie, metoda workowania działa lepiej niż technika wzmacniająca. Boosting stoi przed wyzwaniem radzenia sobie z nadmiernym dopasowaniem, ponieważ samo w sobie wiąże się z nadmiernym dopasowaniem.

Powiązane odczyty

Finance oferuje program Financial Modeling & Valuation Analyst (FMVA) ™ Certyfikat FMVA® Dołącz do ponad 350 600 studentów, którzy pracują dla firm takich jak Amazon, JP Morgan i Ferrari, z programem certyfikacji dla tych, którzy chcą przenieść swoją karierę na wyższy poziom. Aby dalej uczyć się i rozwijać swoją bazę wiedzy, zapoznaj się z dodatkowymi odpowiednimi zasobami finansowymi poniżej:

  • Próbkowanie klastrowe Pobieranie próbek klastrowych W statystyce próbkowanie klastrów jest metodą próbkowania, w której cała populacja badania jest podzielona na zewnętrznie jednorodne, ale wewnętrznie
  • Przesadna pewność siebie Zbytnia pewność siebie Zbytnia pewność siebie to fałszywa i myląca ocena naszych umiejętności, intelektu lub talentu. Krótko mówiąc, jest to egoistyczne przekonanie, że jesteśmy lepsi niż w rzeczywistości. Może to być niebezpieczne nastawienie i jest bardzo owocne w finansach behawioralnych i rynkach kapitałowych.
  • Analiza regresji Analiza regresji Analiza regresji to zestaw metod statystycznych używanych do szacowania relacji między zmienną zależną a jedną lub większą liczbą zmiennych niezależnych. Można go wykorzystać do oceny siły związku między zmiennymi i do modelowania przyszłych relacji między nimi.
  • Analiza danych szeregów czasowych Analiza danych szeregów czasowych Analiza danych szeregów czasowych jest analizą zbiorów danych, które zmieniają się w czasie. Zestawy danych szeregów czasowych rejestrują obserwacje tej samej zmiennej w różnych punktach czasu. Analitycy finansowi używają danych szeregów czasowych, takich jak ruchy cen akcji lub sprzedaż firmy w czasie

Zalecane

Czy Crackstreams zostały zamknięte?
2022
Czy centrum dowodzenia MC jest bezpieczne?
2022
Czy Taliesin opuszcza kluczową rolę?
2022