Co to jest elastyczna siatka?

Elastyczna regresja liniowa netto wykorzystuje kary z obu technik lasso i grzbietu w celu uregulowania modeli regresji. Technika ta łączy w sobie zarówno lasso LASSO LASSO, skrót od Least Absolute Shrinkage i Selection Operator, jest formułą statystyczną, której głównym celem jest selekcja cech i regularyzacja oraz metody regresji grzbietów poprzez uczenie się na ich wadach w celu ulepszenia regularyzacji modeli statystycznych.

Elastyczna siatka

Metoda elastycznej siatki poprawia ograniczenia lassa, tj. Gdy lasso pobiera kilka próbek dla danych o dużych wymiarach, procedura elastycznej siatki zapewnia włączenie liczby „n” zmiennych aż do nasycenia. W przypadku, gdy zmienne są wysoce skorelowanymi grupami, lasso ma tendencję do wybierania jednej zmiennej z takich grup i całkowicie ignoruje resztę.

Aby wyeliminować ograniczenia występujące w lasso, elastyczna siatka zawiera w karie wyrażenie kwadratowe (|| β || 2), które stosowane oddzielnie staje się regresją grzbietu. Kwadratowe wyrażenie kary podnosi funkcję straty do wypukłości. Elastyczna siatka czerpie z tego, co najlepsze z obu światów - tj. Lassa i regresji grzbietu.

W procedurze znajdowania estymatora metody siatki sprężystej istnieją dwa etapy, które obejmują zarówno technikę lasso, jak i technikę regresji. Najpierw znajduje współczynniki regresji grzbietu, a następnie przeprowadza drugi krok, stosując rodzaj skurczu współczynników lasso.

Dlatego metoda ta poddaje współczynniki w dwóch typach skurczów. Podwójny skurcz z naiwnej wersji elastycznej siatki powoduje niską efektywność w przewidywalności i duże odchylenie. Aby skorygować takie efekty, współczynniki przeskalowuje się, mnożąc je przez (1 + λ 2 ).

Szybkie podsumowanie

  • Metoda sieci elastycznej jednocześnie dokonuje selekcji zmiennych i regularyzacji.
  • Technika elastycznej siatki jest najbardziej odpowiednia, gdy dane wymiarowe są większe niż liczba użytych próbek.
  • Grupowanie i dobór zmiennych to kluczowe role techniki elastycznej sieci.

Elastyczna geometria siatki

Po naniesieniu na płaszczyznę kartezjańską, elastyczna siatka znajduje się pomiędzy wykresami regresji grzbietu i lassa, ponieważ jest to połączenie tych dwóch metod regresji. Wykres dla siatki sprężystej wykazuje również osobliwość w wierzchołkach, które są ważne dla rzadkości. Wykazuje również ściśle wypukłe krawędzie, których wypukłość zależy od wartości α.

Wypukłość zależy również od efektu grupowania zależnego od korelacji. Korelacja Korelacja jest statystyczną miarą zależności między dwiema zmiennymi. Miarę najlepiej stosować w zmiennych, które wykazują liniową zależność między sobą. Dopasowanie danych można przedstawić wizualnie na wykresie rozrzutu. wybranych zmiennych. Im wyższa korelacja zmiennych, tym większy efekt grupowania, a tym samym większa liczba zmiennych w próbie.

Wybór zmiennych

Budowanie modelu wymaga wyboru zmiennych, aby utworzyć podzbiór predyktorów. Elastyczna siatka wykorzystuje podejście problemu p >> n, co oznacza, że ​​liczba predyktorów jest większa niż liczba próbek użytych w modelu. Elastyczna siatka jest odpowiednia, gdy zmienne tworzą grupy, które zawierają wysoce skorelowane zmienne niezależne Zmienna niezależna Zmienna niezależna to dane wejściowe, założenie lub czynnik, który jest zmieniany w celu oceny jej wpływu na zmienną zależną (wynik). .

Dobór zmiennych jest włączony do procedury budowania modelu, aby pomóc w zwiększeniu dokładności. W przypadku, gdy grupa zmiennych jest silnie skorelowana i jedna ze zmiennych jest wybrana do próby, cała grupa jest automatycznie włączana do próby.

Rejestracja CATREG

CATREG to algorytm ułatwiający transformację zmiennych, zarówno liniowych, jak i nieliniowych. Algorytm wykorzystuje funkcje krokowe i funkcje sklejane do przekształcania zmiennych niemonotonicznie lub monotonicznie w przekształceniach nieliniowych. CATREG może jednocześnie przekształcać i regulować zmienne niemonotonicznie, bez konieczności uprzedniego rozszerzania zmiennych do podstawowych funkcji lub zmiennych fikcyjnych.

Elastyczne funkcje straty netto można również określić jako ograniczony typ zwykłej funkcji straty regresji metodą najmniejszych kwadratów. Algorytm CATREG jest wbudowany w elastyczną siatkę, co poprawia wydajność i prostotę otrzymanego algorytmu. Dla porównania, elastyczna siatka przewyższa lasso, które samo w sobie przewyższa regresję grzbietu pod względem wydajności i prostoty.

Elastyczna regularyzacja sieci

Podczas procedury regulacyjnymi, l 1 część kary stanowi rzadki model. Z drugiej strony kwadratowa sekcja kary sprawia, że część l 1 jest bardziej stabilna na ścieżce do regularyzacji, eliminuje limit ilościowy wybranych zmiennych i promuje efekt grupowania.

Efekt grupowania pomaga w łatwej identyfikacji zmiennych za pomocą korelacji. To usprawnia procedurę pobierania próbek. Zwiększa również liczbę wybranych zmiennych, ponieważ gdy jedna zmienna jest próbkowana w wysoce skorelowanej grupie, wszystkie inne zmienne z tej grupy są automatycznie dodawane do próby.

Efektywne stopnie swobody

Efektywne stopnie swobody mierzą złożoność modelu. Stopnie swobody są ważne podczas szacowania lub dokładnego przewidywania dopasowania modelu. Stopnie swobody są również włączone do uczenia wygładzaczy liniowych. W każdej metodzie związanej z karą l 1 nieliniowy charakter modeli stanowi wyzwanie w analizie.

Elastyczna siatka może być również używana w innych zastosowaniach, takich jak rzadki PCA, gdzie uzyskuje główne składniki, które są modyfikowane przez rzadkie obciążenia. Druga aplikacja znajduje się w elastycznej sieci jądra, w której generowanie maszyn klasy jądra odbywa się z wektorami pomocniczymi.

Dodatkowe zasoby

Finance oferuje Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ Certification Akredytacja Certified Banking & Credit Analyst (CBCA) ™ to globalny standard dla analityków kredytowych obejmujący finanse, rachunkowość, analizę kredytową, analizę przepływów pieniężnych, modelowanie zobowiązań, pożyczki spłaty i nie tylko. program certyfikacji dla tych, którzy chcą przenieść swoją karierę na wyższy poziom. Aby dalej uczyć się i rozwijać swoją bazę wiedzy, zapoznaj się z dodatkowymi odpowiednimi zasobami finansowymi poniżej:

  • Drzewo decyzyjne Drzewo decyzyjne Drzewo decyzyjne to narzędzie pomocnicze o strukturze podobnej do drzewa, które modeluje prawdopodobne wyniki, koszt zasobów, narzędzia i możliwe konsekwencje.
  • Zmienna zależna Zmienna zależna Zmienna zależna to taka, która będzie się zmieniać w zależności od wartości innej zmiennej, zwanej zmienną niezależną.
  • Wielokrotna regresja liniowa Wielokrotna regresja liniowa Wielokrotna regresja liniowa odnosi się do techniki statystycznej stosowanej do przewidywania wyniku zmiennej zależnej na podstawie wartości zmiennych niezależnych
  • Overfitting Overfitting Overfitting to termin używany w statystykach, który odnosi się do błędu modelowania, który występuje, gdy funkcja zbyt blisko odpowiada określonemu zestawowi danych

Zalecane

Czy Crackstreams zostały zamknięte?
2022
Czy centrum dowodzenia MC jest bezpieczne?
2022
Czy Taliesin opuszcza kluczową rolę?
2022