Co to jest Overfitting?

Nadmierne dopasowanie to termin używany w statystykach, który odnosi się do błędu modelowania, który występuje, gdy funkcja zbyt blisko odpowiada określonemu zestawowi danych. W rezultacie nadmierne dopasowanie może nie dopasować dodatkowych danych, a to może wpłynąć na dokładność prognozowania przyszłych obserwacji.

Przebudowanie

Nadmierne dopasowanie można zidentyfikować, sprawdzając wskaźniki walidacji, takie jak dokładność i utrata. Wskaźniki walidacji zwykle rosną do momentu, w którym ulegają stagnacji lub zaczynają spadać, gdy na model wpływa nadmierne dopasowanie. Podczas trendu wzrostowego model szuka dobrego dopasowania, które po osiągnięciu powoduje, że trend zaczyna spadać lub stagnacja.

Szybkie podsumowanie

  • Nadmierne dopasowanie to błąd modelowania, który wprowadza odchylenie do modelu, ponieważ jest zbyt blisko związany ze zbiorem danych.
  • Nadmierne dopasowanie sprawia, że ​​model jest odpowiedni tylko dla swojego zbioru danych i nieistotny dla innych zestawów danych.
  • Niektóre metody stosowane w celu zapobiegania nadmiernemu dopasowaniu obejmują tworzenie zespołów, rozszerzanie danych, upraszczanie danych i walidację krzyżową.

Jak wykryć nadmierne dopasowanie?

Wykrywanie nadmiernego dopasowania jest prawie niemożliwe przed przetestowaniem danych. Może pomóc rozwiązać nieodłączną cechę nadmiernego dopasowania, czyli niemożność uogólnienia zbiorów danych. Dane można zatem podzielić na różne podzbiory, aby ułatwić ich szkolenie i testowanie. Dane są podzielone na dwie główne części, tj. Zbiór testowy i zbiór uczący.

Zestaw uczący reprezentuje większość dostępnych danych (około 80%) i trenuje model. Zestaw testowy stanowi niewielką część zbioru danych (około 20%) i służy do testowania dokładności danych, z którymi nigdy wcześniej nie wchodził w interakcje. Segmentując zbiór danych, możemy zbadać wydajność modelu na każdym zestawie danych, aby wykryć nadmierne dopasowanie, gdy wystąpi, a także zobaczyć, jak działa proces uczenia.

Skuteczność można zmierzyć za pomocą procentu dokładności zaobserwowanej w obu zestawach danych, aby stwierdzić obecność nadmiernego dopasowania. Jeśli model działa lepiej na zbiorze uczącym niż na zbiorze testowym, oznacza to, że prawdopodobnie model jest nadmiernie dopasowany.

Jak zapobiegać nadmiernemu dopasowaniu?

Poniżej znajduje się kilka sposobów zapobiegania nadmiernemu dopasowaniu:

1. Trening z większą ilością danych

Jednym ze sposobów zapobiegania nadmiernemu dopasowaniu jest trening z większą ilością danych. Taka opcja ułatwia algorytmy Algorytmy (Algos) Algorytmy (Algos) to zestaw instrukcji wprowadzanych w celu wykonania zadania Algorytmy są wprowadzane w celu zautomatyzowania handlu w celu generowania zysków z częstotliwością niemożliwą do wykrycia sygnału przez tradera lepiej zminimalizować błędy. Ponieważ użytkownik wprowadza więcej danych treningowych do modelu, nie będzie w stanie przekomponować wszystkich próbek i będzie zmuszony do generalizowania, aby uzyskać wyniki.

Użytkownicy powinni stale gromadzić więcej danych, aby zwiększyć dokładność modelu. Jednak ta metoda jest uważana za kosztowną, dlatego użytkownicy powinni upewnić się, że wykorzystywane dane są odpowiednie i czyste.

2. Rozszerzanie danych

Alternatywą dla treningu z większą ilością danych jest rozszerzanie danych, które jest tańsze w porównaniu do poprzedniego. Jeśli nie możesz stale gromadzić większej ilości danych, możesz sprawić, by dostępne zestawy danych wyglądały na zróżnicowane. Rozszerzanie danych sprawia, że ​​przykładowe dane wyglądają nieco inaczej za każdym razem, gdy są przetwarzane przez model. Proces ten sprawia, że ​​każdy zestaw danych wydaje się być unikalny dla modelu i uniemożliwia modelowi poznanie charakterystyk zestawów danych.

Inną opcją, która działa w taki sam sposób jak powiększanie danych, jest dodanie szumu do danych wejściowych i wyjściowych. Dodanie szumu do wejścia sprawia, że ​​model staje się stabilny, bez wpływu na jakość danych i prywatność, a dodanie szumu do wyjścia sprawia, że ​​dane są bardziej zróżnicowane. Jednak dodawanie szumu powinno odbywać się z umiarem, aby zakres szumu nie był tak duży, że powodował, że dane były nieprawidłowe lub zbyt różne.

3. Uproszczenie danych

Nadmierne dopasowanie może wystąpić ze względu na złożoność modelu, tak że nawet przy dużych ilościach danych model nadal jest w stanie przepełnić zestaw danych szkoleniowych. Metoda upraszczania danych jest stosowana w celu zmniejszenia nadmiernego dopasowania poprzez zmniejszenie złożoności modelu, aby uczynić go na tyle prostym, aby nie był nadmiernie dopasowany.

Niektóre z działań, które można zaimplementować, obejmują przycinanie drzewa decyzyjnego, redukcję liczby parametrów. Parametr Parametr jest przydatnym elementem analizy statystycznej. Odnosi się do cech, które służą do definiowania danej populacji. Jest używany w sieci neuronowej i przy zaniku sygnału w sieci neutralnej. Uproszczenie modelu może również uczynić go lżejszym i działać szybciej.

4. Zespół

Zespoły to technika uczenia maszynowego, która polega na łączeniu prognoz z dwóch lub więcej oddzielnych modeli. Najpopularniejsze metody tworzenia zespołów to boosting i bagging. Zwiększanie działa przy użyciu prostych modeli podstawowych w celu zwiększenia ich łącznej złożoności. Szkoli dużą liczbę słabych uczniów ułożonych w sekwencję, tak że każdy uczeń w sekwencji uczy się na błędach wcześniejszego ucznia.

Boosting łączy wszystkich słabych uczniów w sekwencji, aby wydobyć jednego silnego ucznia. Inną metodą łączenia jest workowanie, które jest przeciwieństwem wzmacniania. Pakowanie polega na szkoleniu dużej liczby silnych uczniów ułożonych równolegle, a następnie łączeniu ich w celu optymalizacji ich przewidywań.

Więcej zasobów

Finance jest oficjalnym dostawcą globalnego programu Financial Modeling & Valuation Analyst (FMVA) ™ Certyfikat FMVA® Dołącz do ponad 350 600 studentów, którzy pracują dla firm takich jak Amazon, JP Morgan i Ferrari, program certyfikacji, który ma pomóc każdemu zostać światowej klasy analitykiem finansowym . Aby kontynuować karierę, przydatne będą poniższe dodatkowe zasoby finansowe:

  • Podstawowe pojęcia statystyczne w finansach Podstawowe pojęcia dotyczące statystyki w finansach Dokładne zrozumienie statystyki jest niezwykle ważne, abyśmy mogli lepiej zrozumieć finanse. Ponadto koncepcje statystyczne mogą pomóc inwestorom w monitorowaniu
  • Odchylenie przy eksploracji danych Odchylenie przy eksploracji danych Odchylenie przy eksploracji danych odnosi się do założenia, jakie znaczenie przypisuje trader zdarzeniu na rynku, które faktycznie było wynikiem przypadku lub nieprzewidzianych
  • Random Forest Random Forest Random forest to technika wykorzystywana w modelowaniu prognoz i analizie zachowania, która jest oparta na drzewach decyzyjnych. Losowy las zawiera wiele drzew decyzyjnych
  • Bezwarunkowe prawdopodobieństwo Bezwarunkowe prawdopodobieństwo Bezwarunkowe prawdopodobieństwo, nazywane również krańcowym prawdopodobieństwem, odnosi się do prawdopodobieństwa, na które nie mają wpływu poprzednie lub przyszłe zdarzenia. Innymi słowy,

Zalecane

Czy Crackstreams zostały zamknięte?
2022
Czy centrum dowodzenia MC jest bezpieczne?
2022
Czy Taliesin opuszcza kluczową rolę?
2022