Sobreoptimización y ruptura de sistemas.
 
 

Sobreoptimización y ruptura de sistemas.

 
TradingSys (AndG) - 18 Mayo 2016
0 comentarios
 

tradingsysEn este artículo abordaremos el escurridizo concepto de sobreoptimización en relación con la ruptura de sistemas en operativa real. Mostraremos un nuevo método para determinar el desgaste de una estrategia en el tiempo diferenciando entre la rentabilidad potencial debida a la lógica y la que se obtiene mediante optimización.

 

1) INTRODUCCIÓN

 

Un sistema de trading es un conjunto de reglas y parámetros que determinan los puntos de apertura y cierre de posiciones. Llamamos "lógica" a las reglas del sistema que nos permiten capturar una ineficiencia o ventaja aprovechable (edge) en los mercados.

Llamamos "parámetros" a las variables susceptibles de optimización que contienen las reglas. Los parámetros aportan diversidad y permiten operar una misma estrategia en diferentes compresiones horarias y activos. Incluso un sistema simple, con muy pocos parámetros y reglas, genera una enorme variabilidad o número de configuraciones posibles.

Llamamos "optimización" al proceso iterativo en el que vamos probando en un histórico dado cada una de estas configuraciones a fin de seleccionar aquellas que generen mejores resultados.

Al diseñar y evaluar sistemas normalmente dividimos el histórico disponible en dos regiones distintas: In-Sample (IS) y Out-Sample (OS). Usamos la región IS para construir la estrategia, hacer un testeo preliminar de la lógica subyacente y determinar las horquillas paramétricas de la zona robusta. Llamamos "zona robusta" a los rangos entre valores máximos y mínimos de cada parámetro optimizable que muestran un comportamiento más estable y robusto, bajo el criterio de algún ratio de performance (Sharpe, SQN, Profit Factor, Calmar, etc.).

La región OS (o fuera de muestra) contiene los datos históricos no empleados en el diseño de la estrategia y se utiliza para hacer una evaluación más realista. Generalmente se utiliza alguna técnica estadística de validación cruzada, como el Walk-Forwrad (WF), que no es más que una validación lineal (de atrás a adelante) con K iteraciones o el Robust Walk Forward (RWF) que limita el training solo a los rangos de valores de la zona robusta. Comparando los resultados obtenidos en IS y OS podremos determinar si la estrategia tiene potencial de proyectar a futuro los resultados obtenidos en backtest.

 

2) SOBREOPTIMIZACIÓN Y RETORNO ESPERADO

 

La sobreoptimización es un concepto difuso y a menudo mal entendido. En el contexto del aprendizaje automático mediante sistemas basados en lógica difusa, redes neuronales y algoritmos genéticos este concepto hace referencia a la incapacidad de la máquina de encontrar soluciones globales, de construir un modelo que sintetice la estructura general de un problema o situación. En lugar de ello, el algoritmo de autoaprendizaje se atasca en el laberinto de los local optima o soluciones idóneas para el conjunto de datos de entrada pero con escasa o nula aplicabilidad a otros conjuntos de datos o problemas del mismo tipo.   

En el ámbito de los sistemas de trading decimos que un sistema está sobreoptimizado cuando con un conjunto específico de reglas y parámetros conseguimos en el IS unos resultados muy superiores a los que obtenemos en las regiones fuera de muestra u OS.  En términos más formales: Consideramos sobreoptimizado un sistema si la performance obtenida en OS con las mejores combinaciones paramétricas del IS está por debajo de la mediana de la performance obtenida en OS en el conjunto de combinaciones paramétricas de la zona robusta.

El siguiente gráfico servirá para ilustrar el concepto que vamos a explicar a continuación:

 

 tradingsys

>> Ampliar Imagen.

 

Supongamos un sistema con cuatro parámetros optimizables que queremos optimizar en un histórico de ocho años. Una vez acotada la zona robusta, obtenemos una matriz de por ejemplo 5.500 combinaciones paramétricas. Cada combinación de parámetros generará una serie de operaciones diferente. Si disponemos todas ellas, o una muestra significativa, en un gráfico de equity curve obtendremos un gráfico como la de la imagen superior. Algunas combinaciones de parámetros obtendrán una performance muy superior a la media, mientras que otras tendrán un rendimiento muy inferior. La superficie acotada entre las curvas de máximo y mínimo rendimiento dará lugar a un cono con una determinada pendiente. Bien, pues para que un sistema tenga calidad, lo realmente importante es que dicha pendiente sea positiva y que el conjunto de curvas tenga la menor dispersión posible.

Consideramos sobreoptimizadas o infraoptimizadas aquellas curvas que se alejan varias desviaciones típicas de los valores centrales de la distribución. Idealmente consideraremos también, aunque luego veremos que no tiene por qué ser así, que el rendimiento esperable en OS para dicho sistema estará próximo a la mediana de la distribución. De este modo, cuando aplicamos al OS las combinaciones paramétricas de máximo rendimiento, existe una altísima probabilidad de que los resultados obtenidos sean considerablemente peores que en el IS. Realmente lo que ocurre es que debido a la variabilidad de los mercados, en cada corte temporal será óptima una combinación paramétrica distinta.  

En mi opinión el concepto de sobreoptimización está sobrevalorado: Lo importante no es la elección de una determinada combinación de parámetros, sino la robustez de la lógica en sí. Dicho de manera gráfica: La pendiente y la anchura del cono por el que se mueven todas las curvas posibles. Así que lo que nos interesa es construir sistemas que, con independencia del juego de parámetros elegido, tengan esperanza matemática positiva. Aún podemos ser más exigentes: ¿Qué le pediríamos a un sistema ideal? Sencillo: Que con cualquier combinación paramétrica obtengamos un BMO (beneficio medio por operación) superior a los gastos de la operativa. Hasta aquí todo perfecto. El problema surge cuando comprobamos en operativa real que muchos sistemas van teniendo año a año unos resultados peores que los obtenidos en la evaluación OS. Y no es problema de que estén mal evaluados. Se trata, como seguidamente veremos, del desgaste inherente a la lógica; del progresivo desacople entre sistema y mercado.   

 

3) RENTABILIDAD DEBIDA A LA LÓGICA Y A LOS PARÁMETROS

 

En todo sistema nos interesa diferenciar la rentabilidad debida a la calidad de la lógica; más estable y consistente entre marcoépocas, de la rentabilidad debida a los parámetros; es decir, aquella que se obtiene por la vía de la optimización.

Supongamos un sistema intradiario con las siguientes zonas robustas. Estas zonas han sido obtenidas en un histórico de siete años (2001-07), aplicando unos gastos de operativa que consideramos realistas para ese activo y utilizando para optimizar el ratio diana SQN:

 

 tradingsys

 

Con estos valores obtenemos la siguiente matriz de combinaciones paramétricas:

M = (35-15) * [(400-150)/10] * [(300-100)/10] * (30-10) * [(1,5-0,5)*10] = 2.000.000

Dos millones de combinaciones posibles parecen muchas para realizar una optimización completa. Sin embargo, podemos generar una muestra suficientemente representativa con 2.000 a 5.000 combinaciones aleatorias.

Hecha la optimización, la distribución resultante del BMO (Beneficio Medio por Operación) es:

 

tradingsys 

 

Siendo el BMO:

Máximo = 120,17€

Mínimo = 28,21€

Media = 75,25€

Mediana = 74,77€

 

El BMO mínimo y máximo lo extraemos del promedio de las curvas que se encuentran por debajo de los percentiles 0,01 y 0,99. De este modo contrarrestamos las diferencias en BMO debidas al número de operaciones.

EL BMO mínimo podemos interpretarlo como el escenario más adverso posible aplicando las combinaciones paramétricas menos óptimas. Es decir, casos extremos de "desoptimización". El BMO máximo representa el mejor escenario que podemos conseguir optimizando. Estas son las combinaciones paramétricas que inevitablemente generan sobreoptimización.

La mediana de la distribución podemos considerarla como el potencial del sistema debido a la calidad de la lógica. Aunque fluctúa en el tiempo debido a la permanente variabilidad de los mercados, es más estable que las combinaciones paramétricas. Su evolución en periodos largos puede ser una herramienta útil para tanto para analizar el progresivo desgaste de un sistema como su ruptura.

 

4) RUPTURA DE SISTEMAS

 

Una cuestión muy debatida entre desarrolladores y gestores de portfolios sistemáticos son los criterios para determinar cuándo una estrategia se ha roto. Esta ruptura puede ocurrir de manera abrupta, cuando el sistema incurre en un profundo  drawdown, superior al observado en OS y al obtenido en simulaciones de Montecarlo (DDm), o de marera progresiva, lo que se conoce como stagnation. En este segundo caso el sistema se queda estancado en largos períodos o  gana dinero a un ritmo muy inferior al previsto en el modelo.

Los criterios más usados son de tipo estadístico y de tipo estocástico. Entre los primeros tenemos el T-Test y la prueba de Chi cuadrado. Con ellos tratamos de confirmar si la serie de operaciones reales pertenece a la misma población que la serie OS (o conjunto de estadísticas representativas del modelo). Los segundos emplean simulaciones de Montecarlo para determinar el DDm, las bandas de máximos y mínimos, el CVaR y el CMO o curva de mínimo rendimiento.

Teniendo en cuenta lo expuesto en este artículo otro criterio de ruptura podría centrarse en la calidad de la lógica. Consistiría en comparar la mediana de las combinaciones paramétricas de la zona robusta del modelo con el período de operativa real. Consideraremos rotas aquellas estrategias en las que la merma del BMO sea superior a un nivel dado; por ej. el 70%.

En la siguiente imagen podemos ver un caso claro de degradación de la lógica analizado en las siguientes tres regiones:

IS (2001-07) à OS (2008-12) à REAL (2013-16)

Tras realizar en cada región una optimización del sistema y recoger una muestra aleatoria de 3.000 combinaciones paramétricas, obtenemos la siguiente tabla:

 

 tradingsys

 

Siendo la distribución el BMO de cada período:

 

 tradingsys

>> Ampliar imagen. .

 

Como podemos apreciar comparando las regiones IS y OS, el deterioro de la lógica no es muy grande, por lo que el sistema pasará el RWF sin dificultad. Sin embargo, entre los periodos OS y Real el deterioro de la lógica resulta evidente. La distribución (2013-16) muestra un altísimo porcentaje de combinaciones paramétricas perdedoras y la mediana del BMO desciende hasta 6,30€. Salta a la vista que el sistema está roto; se ha producido un desacople casi total entre la lógica y el mercado.

Este enfoque tiene diferencias importantes respecto a los procedimientos más habituales de evaluación OS y de detección de ruptura de estrategias:

 

1.- En un RWF clásico, en cada corte solo utilizamos la combinación paramétrica de máximo rendimiento (según el ratio que sea) para proyectar a futuro. Podría ocurrir que, por azar, la mayoría las combinaciones seleccionadas se encuentren en percentiles altos de la distribución de cada tramo OS. Al final, y aunque hubiésemos seguido con total rigor el procedimiento RWF, tendríamos un modelo (serie P&L completa del OS)  sobreoptimizado.

2.- Para detectar la ruptura de sistemas por alguno de los métodos mencionados comparamos las series OS y Real. Pero la comparación es de un solo "hilo"; una secuencia de operaciones contra la otra; no nos permite explorar el desgaste de la lógica en su conjunto. De este modo, no podemos hablar de "ruptura del sistema", sino más bien de ruptura de la combinación paramétrica seleccionada para "ese sistema".

3.- En general, todos los estadísticos que utilizamos para medir la consistencia y robustez de las estrategias son de un solo "hilo". Lo que realmente interesa es acreditar la consistencia y robustez en toda la matriz de combinaciones posibles.

 

Resumiendo, lo que tenemos que acreditar es la consistencia de la lógica entre marcoépocas y cortes temporales: No nos interesa tanto el rendimiento puntual de los mejores parámetros como el de la matriz de todas las combinaciones posibles. Y esto en cada tramo, en cada época y en cada evaluación realizada.

 

Andrés A. García.

© Tradingsys.org, 2016.

 


Si usted es ciudadano o residente en los EE.UU. debe leer la siguiente advertencia.

 

IMPORTANT RISK DISCLOSURE

Futures based investments are often complex and can carry the risk of substantial losses. They are intended for sophisticated investors and are not suitable for everyone. The ability to withstand losses and to adhere to a particular trading program in spite of trading losses are material points which can adversely affect investor returns.

Past performance is not necessarily indicative of future results. Data and graph above are intended to be mere examples and are for educational and illustrative purpose only, and do not represent any trading recommendation.

 

Please read carefully the CFTC required disclaimer regarding hypothetical results below.

HYPOTHETICAL PERFORMANCE RESULTS HAVE MANY INHERENT LIMITATIONS, SOME OF WHICH ARE DESCRIBED BELOW. NO REPRESENTATION IS BEING MADE THAT ANY ACCOUNT WILL OR IS LIKELY TO ACHIEVE PROFITS OR LOSSES SIMILAR TO THOSE SHOWN; IN FACT, THERE ARE FREQUENTLY SHARP DIFFERENCES BETWEEN HYPOTHETICAL PERFORMANCE RESULTS AND THE ACTUAL RESULTS SUBSEQUENTLY ACHIEVED BY ANY PARTICULAR TRADING PROGRAM. ONE OF THE LIMITATIONS OF HYPOTHETICAL PERFORMANCE RESULTS IS THAT THEY ARE GENERALLY PREPARED WITH THE BENEFIT OF HINDSIGHT. IN ADDITION, HYPOTHETICAL TRADING DOES NOT INVOLVE FINANCIAL RISK, AND NO HYPOTHETICAL TRADING RECORD CAN COMPLETELY ACCOUNT FOR THE IMPACT OF FINANCIAL RISK OF ACTUAL TRADING. FOR EXAMPLE, THE ABILITY TO WITHSTAND LOSSES OR TO ADHERE TO A PARTICULAR TRADING PROGRAM IN SPITE OF TRADING LOSSES ARE MATERIAL POINTS WHICH CAN ALSO ADVERSELY AFFECT ACTUAL TRADING RESULTS. THERE ARE NUMEROUS OTHER FACTORS RELATED TO THE MARKETS IN GENERAL OR TO THE IMPLEMENTATION OF ANY SPECIFIC TRADING PROGRAM WHICH CANNOT BE FULLY ACCOUNTED FOR IN THE PREPARATION OF HYPOTHETICAL PERFORMANCE RESULTS AND ALL WHICH CAN ADVERSELY

 

 

 

 

 

Añadir comentario

 
Modificado por Global - 30 Mar 2017
 
 

Secciones

 
 

Entradas recientes

 
 

Enlaces