Niveles de descripción en trading algorítmico
 
 
  • Usted está aquí:
  • Home
  • Generalidades
  • Niveles de descripción en trading algorítmico

Niveles de descripción en trading algorítmico

 
AndyG - 1 Jul 2019
0 comentarios
 

En numerosas ocasione nos hemos preguntado si los resultados de una estrategia tienen algún fundamento más allá de las estadísticas, si hay algún principio inherente a la dinámica de los mercados que avale su funcionamiento y garantice su robustez. Para abordar esta cuestión tenemos que investigar las formas en que se construyen y validan las estrategias, particularmente en los niveles de medición y análisis de la información disponible, formulación de las reglas de operativa y evaluación del constructo.


En el ámbito científico existen diferentes niveles de investigación que hacen referencia al grado de profundidad con que se analizan determinados fenómenos o procesos  naturales y sociales. Cada uno de estos niveles aporta información relevante sobre el objeto de estudio y contribuye a la formulación de hipótesis, modelos explicativos y, en última instancia, al desarrollo aplicaciones prácticas. En las siguientes líneas veremos cómo se concretan estos niveles en el ámbito del trading y qué tipo de investigaciones encajan en cada uno de ellos.

Vaya por delante que el trading en sentido estricto no es una ciencia y está lejos de cumplir los requisitos de objetividad, uniformidad, contrastabilidad, sistematicidad, replicabilidad y predictibilidad propios de cualquier disciplina científica. Lo cual no impide que quienes se dedican a él actúen con un rigor propio de cualquier actividad científica y utilicen herramientas metodológicas, instrumentos de análisis matemático y protocolos de investigación comparables en rigor a los de otras ciencias.

 

NIVEL I.- INVESTIGACIÓN CUALITATIVA


Este tipo de investigación se enmarca en lo que se denomina nivel exploratorio. En este nivel el investigador recoge información relevante sobre aspectos globales y difícilmente cuantificables. Lo que se busca es la descripción de fenómenos y procesos de manera profunda y comprensiva. Es decir, interesa analizar el comportamiento de los sistemas como totalidades orgánicas y sus interacciones a nivel global.

Cabe señalar que en numerosas situaciones, incluyendo el estudio de los mercados financieros, las investigaciones cualitativas y cuantitativas son complementarias y necesarias para obtener una comprensión más completa y coherente de realidades complejas y en permanente proceso de cambio. Por ejemplo, el investigador de los mercados, no solo recopila datos y establece relaciones causales entre sectores de la economía, políticas monetarias, interacciones entre tipos de activos, etc. También se tiene que enfrentar a variables ocultas y procesos complejos difíciles de cuantificar  y con un fuerte sesgo subjetivo: ¿Qué relación existe entre las decisiones políticas y la evolución de los mercados? ¿Qué efecto tienen los hábitos de los consumidores o las nuevas tendencias tecnológicas sobre un conjunto de empresas o sectores? ¿Qué impacto tienen determinadas noticias o contenidos informativos en los mercados?

También hay determinados temas de investigación que están en la frontera entre lo cuantitativo y lo cualitativo. Y de hecho solo pueden ser comprendidos en profundidad combinando ambos enfoques: 


  • Análisis entre mercados para describir las interdependencias regionales y sectoriales.
  • Relación entre tipos de interés y movimientos de los mercados de valores.
  • Relación entre mercancías y divisas.
  • Análisis multifactoriales y detección de ciclicidad en productos sobre materias primas.
  • Comprensión de las interacciones entre sectores bursátiles y grupos industriales
  • Observación de  la actividad del mercado a nivel de microestructura y macroestructura.


Por otra parte, y en el ámbito del trading automático, se han hecho numerosos intentos por sistematizar el procesamiento de datos cualitativos. Por ejemplo en lo relativo a la utilización de variables cualitativas en redes neuronales y perceptrones multicapa. Sin embargo, aunque aparentemente algunos desarrollos de la inteligencia artificial muestran cierta capacidad de generalización en ámbitos muy restringidos, aún estamos muy lejos de dotar a las máquinas de habilidades comprensivas y metacomprensivas. Es decir, de algo equivalente al sentido común.

En definitiva, la investigación cualitativa no genera por si misma modelos explicativos de la dinámica de los mercados susceptibles de formalización o análisis inferencial, si bien favorece una visión global de la actividad inversora que dota de contexto tanto a la operativa discrecional como algorítmica, permitiendo arrojar algo de luz en un mundo prácticamente dominado por la aleatoriedad y el cambio permanente.   

 

NIVEL II.- INVESTIGACIÓN CUANTITATIVA


Es el tipo de investigación predominante en el análisis financiero. Se basa en el estudio de procesos y dinámicas de  los mercados cuantificables, a partir de los cuales es posible generar datos susceptibles de tratamiento estadístico. Elementos característicos de esta investigación son  la catalogación y etiquetado de las fuentes de datos, la descripción de sus rasgos específicos o “stylized facts”, la búsqueda de correlaciones seriales, la determinación de variables, el descubrimiento de pautas y patrones cíclicos o el análisis multifactorial.

El enfoque cuantitativo permite un mayor nivel de control sobre las variables y facilita la formulación de inferencias precisas, si bien no tiene por objeto la formulación de hipótesis o modelos explicativos de los fenómenos estudiados. En general los estudios cuantitativos muestran un nivel de estructuración mayor que los cualitativos y requieren instrumentos de recopilación y análisis de la información en los que se emplean herramientas informáticas, paquetes estadísticos y se hace uso extenso de las matemáticas financiaras para extraer conclusiones.

 

El proceso de investigación cuantitativa se desarrolla en varias etapas:



Muchas veces las características de los datos determinan el tipo de estudio a realizar. En el caso de los mercados financieros disponemos de fuentes heterogéneas de información que podemos agrupar en dos tipos:


1) Información procedente del proceso de negociación:  

·         Datos primarios: Series de pecios e información completa del libro de órdenes.

·         Datos secundarios o elaborados: Retornos, riesgos, volatilidades, ratios. 

2) Información procedente de los agentes del mercado:

·         Valoración de agencias.

·         Índices de sentimiento.

·         Indicadores macroeconómicos.


La cantidad de datos que generan los mercados financieros es inmensa y en ocasiones desborda el tratamiento estadístico convencional, por lo que los investigadores tienen que recurrir a técnicas específicas de minería de datos que les permitan detectar pautas, correlaciones y tendencias que tengan valor explicativo o supongan alguna ventaja para el trader. Estas son las fuentes primarias de alpha

Una cosa es identificar patrones o ineficiencias en los mercados otra muy distinta comprender los procesos que las generan. La discusión está en si realmente es necesario dar este último paso para obtener estrategias eficientes y rentables. Dar el salto al nivel comprensivo implica utilizar la información disponible para construir hipótesis o modelos explicativos sobre estas dinámicas de los mercados, que luego deberán contrastarse experimentalmente empleando otras series de datos. 

En la industria del trading son mayoría quienes consideran que para desarrollar sistemas algorítmicos son innecesarias hipótesis y modelos que establezcan relaciones causales entre la evolución de los precios y determinados aspectos o procesos de la realidad económica, política o social.  Este planteamiento cuenta además con la ventaja de la automatización: Es posible construir algoritmos que escaneen los mercados, identifiquen las ineficiencias e incluso construyan sistemas de inversión para sacar partido de ellas. Donde no se requiere inteligencia científica el “qué” sustituye al “por qué” y nos las podemos apañar bastante bien con las herramientas de la minería de datos y el aprendizaje automático.    

Utilizando estas herramientas encontramos al menos tres subniveles de descripción:

A) Búsqueda automatizada y validación estadística de patrones y otras ineficiencias de los mercados financieros. Normalmente se utilizan datos primarios de los mercados y se realizan estudios multivariados de las series temporales.


B) Desarrollo de modelos predictivos que detectan las ineficiencias y generan señales de trading. Suelen emplearse algoritmos de autoaprendizaje, ya que son idóneos para tareas en las que concurren una gran cantidad de datos y numerosas variables.  Las técnicas son muy diversas; desde algoritmos de aprendizaje no supervisado basados en el clustering hasta modelos predictivos supervisados con técnicas de clasificación y regresión.


C) Construcción automatizada de sistemas mediante técnicas de programación genética. Se trata de construir y validar estrategias adaptando un conjunto predefinido de reglas a las características de un mercado o conjunto de mercados. Aquí no se trata de buscar ineficiencias con algún valor predictivo, sino de seleccionar reglas y combinaciones paramétricas, bien por procedimientos heurísticos bien con algoritmos genéticos, que consigan extraer alpha de  las series de datos.

 

- El subnivel A es interesante desde un punto de vista científico y analítico. Los resultados de un estudio estadístico bien diseñado para detectar ineficiencias en los mercados pueden ser la base de investigaciones que den lugar a hipótesis y modelos explicativos de las mismas.

- El subnivel B puede considerarse como una extensión práctica del anterior. En los últimos años las redes neuronales y otros desarrollos del machine learning son el abordaje predominante para el modelado estadístico en entornos complejos. De hecho poseen ventajas superiores a otros métodos convencionales; como la capacidad para procesar datos incompletos, ambiguos o con ruido y la búsqueda de relaciones no lineales u ocultas.

Sin embargo, desde un punto de vista operativo, generan un problema de interpretación: El típico problema de la “caja negra” del que ya hemos hablado en numerosas ocasiones. Y es que no resulta fácil conocer en una red compleja la tarama de conexiones internas y sus pesos.  Es decir, lo que media entre los inputs o variables predictoras y los outputs o variables de respuesta. 

- El subnivel C utiliza el potencial del data mining para construir estrategias basadas en reglas. Ahora el proceso es inverso; en lugar de buscar anomalías en las series de precios, se buscan combinaciones específicas de reglas capaces de generar alpha en dichas series. Se trata de un proceso iterativo complejo que utiliza algoritmos genéticos para encontrar combinaciones de reglas que satisfagan una función de ajuste. Para prevenir el overfitting los sistemas se construyen y validan en regiones separadas del histórico. Pero aun así,  esta técnica no está exenta de críticas ya que las estrategias que superan los criterios de idoneidad, al organizarse en un ranking en el que entran las mejores y salen las peores, pueden estar en él por efecto de la suerte o por el propio proceso de data mining. En otras palabras, tener un sistema que supera con éxito un backtest no es garantía suficiente para concluir que está capturando alguna ineficiencia genuina de los mercados. De hecho, deberíamos proceder analíticamente y realizar el camino inverso: deconstruir la estrategia, eliminar redundancias, colinealidades, evaluar cada una de sus reglas por separado, etc. Y este proceso inverso no es automatizable.

 

  NIVEL III.- INVESTIGACIÓN EXPLICATIVA-INFERENCIAL


En este nivel se busca establecer la trama de interacciones causales que servirán de base para la formulación de teorías y modelos. Se sustituye el análisis descriptivo  por el inferencial, buscando en última instancia una comprensión rigurosa de los eventos y procesos objeto de investigación.  

El problema de la cientificidad  de la Economía ha sido ampliamente abordado por numerosos autores y las posiciones epistemológicas son muy variadas; desde aquellos que afirman que no satisface las características propias del método científico (determinismo, independencia, objetividad, poder predictivo, etc.) hasta quienes defienden un estatuto científico particular para esta disciplina, a medio camino entre las ciencias sociales y las ciencias físicas.

En todo caso, el problema de fondo es el de la dicotomía entre causalidad fuerte y débil. Se entiende por “causalidad fuerte” aquella que conduce a hipótesis deterministas. Mientras que  la causalidad “débil” o “blanda” se fundamenta en enunciados de tipo probabilista.  Tener esto en cuenta será de especial importancia para el tema que nos ocupa; el desarrollo de hipótesis y modelos explicativos sobre las dinámicas de los mercados que sirvan de fundamento o marco teórico a trading cuantitativo.

Causalidad “blanda” no implica impredecibilidad, más bien pone de manifiesto que en sistemas complejos, como los mercados financieros, en los que concurren numerosas variables ocultas que escapan al control del investigador es inútil formular teorías en sentido determinista. Lo más que puede obtenerse son descripciones fundamentadas en la inferencia estadística: o sea, hipótesis y modelos blandos que indican recorridos probables de los precios. Pero incluso eso es mejor que nada.

Algunos hitos en la formulación de hipótesis sobre la dinámica de los mercados son:


  • Hipótesis de los mercados eficientes (Fama, 1970)
  • Hipótesis de las expectativas heterogéneas sobre los precios (Miller, 1977)
  • Finanzas del comportamiento y burbujas especulativas (Shiller, 1979)
  • Método generalizado de momentos (Hansen, 1982)
  • Hipótesis del mercado fractal (Peters, 1994)
  • Modelos factoriales: 2, 3, 4 y 5 factores (Fama y French, 1993-1996)
  • Teoría de los agentes mudos (Surowiecki, 1999)
  • Momento implícito (Bali, Hu y Murray, 2015)
  • Hipótesis de los mercados adaptativos (Andrew Lo, 2016)
  • Hipótesis del descubrimiento de los mercados (Mayer, 2018)    


Y algunos modelos matemáticos para el análisis de series temporales de precios:


  • ARFIMA (Hosking, 1981)
  • ARCH (Engle, 1982)
  • GARCH (Boyerslev, 1986)
  • EGARCH
  • ARCH-M (modelos multivariados).


¿Qué tiene que ver todo esto con el trading algorítmico?

Nada y todo. Me explico: Es evidente que no son necesarias hipótesis y modelos como los anteriores para capturar ineficiencias aprovechables en los mercados. Sin embargo, disponer de un marco teórico en el que asentar una estrategia cuantitativa añade solidez al constructo. Convierte el algoritmo en un desarrollo práctico de la teoría, incluso en una prueba de hipótesis.

Es muy difícil encontrar sistemas bien documentados o que exploran una anomalía avalada por  una sólida base de estudios empíricos y no digamos ya que se fundamenten en alguna de las hipótesis mencionadas. Después de una larga búsqueda en Internet el resultado ha sido decepcionante. Excepción hecha de la web Quantpedia que recopila estrategias desarrolladas por instituciones financieras e investigadores de prestigio y se adentra en sus fundamentos teóricos, documentando con una amplia bibliografía las evidencias empíricas del proceso generador de alpha. Lástima que no todos sus contenidos sean de libre acceso.  

Estos niveles de descripción nos permiten establecer el siguiente ranking de calidad en el desarrollo de estrategias de trading:



Naturalmente, calidad en la construcción no implica necesariamente buenos resultados. De hecho estamos cansados a ver estrategias obtenidas por minería de datos que muestran unas estadísticas fabulosas y superan los criterios de validación más exigentes. Sin embargo, conocer el fundamento de una estrategia y poder explicar la causa por la que está ganando dinero añade un plus de confianza al que un trader experimentado nunca debería renunciar.

 

Andrés A. García

© Tradingsys.org, 2019  



 

 

Añadir comentario

 
Modificado por AndyG - 22 Oct 2019
 
 

Secciones

 
 

Entradas recientes

 
 

Enlaces