Empirisk markedsmikrostruktur

Kildeknude: 937627

Fra Pexels

Bestil Flow Toxicity i Bitcoin Spot Market

Siden august 2020 er mere end 800 milliarder dollars USDT-denomineret Bitcoin blevet handlet på Binance - langt den største Bitcoin udveksling. Som på andre markeder kommer det meste af den likviditet, der stilles til rådighed på Binance, fra market makers: virksomheder, der er villige til både at købe eller sælge Bitcoin i håb om, at de vil tjene på bud-ask-spændet.

Markedsmikrostrukturteori anerkenderzbetyder, at prisdannelsen er bestemt af endogene faktorer, såvel som eksogene. Likviditet, markedspåvirkning, transaktionsomkostninger (glidning), volatilitet og mekanikken i limitordrebogen spiller alle en væsentlig rolle.

Klassisk økonomisk teori om udbud og efterspørgsel antager, at enhver investor, der er villig til at købe og sælge til ligevægtsprisen, generelt kan gøre det. I virkeligheden ændrer selve handlingen med at købe eller sælge et værdipapir markedsprisen; handler har markedspåvirkning.

En investor, der ønsker at købe eller sælge en stor mængde Bitcoin, vil ikke udføre hele ordren på én gang. I stedet vil de gøre det gradvist over tid for at købe til den laveste eller sælge til den højeste pris. Stan Druckenmiller - der sammen med George Soros, brød Bank of England in 1992 — nævnte for nylig, at han forsøgte at købe 100 millioner dollars i Bitcoin i 2018. I mangel af likviditet tog det ham to uger at købe 20 millioner dollars, hvorefter han gav op.

Således spiller markedspåvirkningen af ​​en handel en væsentlig rolle i investors beslutninger om at købe eller sælge et værdipapir, hvilket igen påvirker den pris, som værdipapiret handles til.

Alle markedsdeltagere går ind på et marked i håb om at tjene penge, men alligevel tjener (eller taber) market makers og handlende penge på fundamentalt forskellige måder. Market makers både køber og sælger Bitcoin i håbet om at tjene bid-ask spreadet. Handlende køber og sælger Bitcoin, fordi de har en informeret eller uinformeret overbevisning om fremtidige prisændringer.

For at tjene bid-ask-spredningen skal market makers aktivt administrere en beholdning af både Bitcoin og Tether. Når handelsstrømmene er afbalancerede, kan de sælge Bitcoin på forespørgslen og købe det tilbage ved buddet, hvilket giver en fortjeneste. Men hvis handelsstrømmene bliver for ubalancerede, bliver det sværere for market makers at rulle deres beholdning over med overskud. Generelt vil market makers så øge prisen, som de tager for deres tjenester - bid-ask spreadet - hvilket øger handelsomkostningerne (slipage) for handlende.

Market makers og handlende tjener (eller taber) penge på fundamentalt forskellige måder

Det bud og bud, hvor market makers er villige til at stille likviditet til rådighed, bestemmes af, i hvilken grad de bliver negativt udvalgt af informerede handlende. Hvis ordrestrømmene bliver ubalancerede, fordi informerede forhandlere køber eller sælger Bitcoin, betragtes denne ordrestrøm som giftig.

Bestil Flow Toxicity under Flash Crash den 6. maj

I 2010 udgav tre forskere fra Cornell i samarbejde med Tudor Investment Group en papir beskriver, hvordan flash-krakket i 2010 – hvor Dow Jones Industrial Average (DJIA) kortvarigt faldt 9 %, før det straks kom sig – var forårsaget af en ekstrem mængde ordrestrømstoksicitet.

Modellen, der blev brugt til at identificere giftig ordrestrøm - VPIN (volumen-synkroniseret sandsynlighed for informeret handel) - steg til alle tiders højder i timen op til flash-nedbruddet og forudsagde med succes, hvad der stadig betragtes som en mystisk begivenhed.

Tudor-avisen fik en vis opmærksomhed i medierne: en Bloomberg artikel påpegede, at VPIN kunne "hjælpe tilsynsmyndigheder med at forhindre nedbrud såsom styrtdykket den 6. maj". Forskere ved Lawrence Berkeley National Laboratory viste, at VPIN klarede sig godt med at forudsige begivenheder med høj volatilitet på Futures-markeder fra januar 2007 til juli 2012.

I strålende senere papir, de samme forfattere påpeger, at toksicitet for høj ordrestrøm ikke kun tvinger markedsproducenter ud af markedet; hvis market makers er nødt til at dumpe deres varelager med tab, kan de dræne eventuel resterende likviditet i stedet for at stille den til rådighed.

I timerne op til krakket den 6. maj havde informerede handlende konsekvent solgt deres positioner til market makers, som stod over for stigende tab. Da de samme market makers til sidst blev tvunget til at afvikle deres positioner, var resultaterne katastrofale. Med forskernes ord: "ekstrem toksicitet har evnen til at omdanne likviditetsudbydere til likviditetsforbrugere".

"Ekstrem toksicitet har evnen til at omdanne likviditetsudbydere til likviditetsforbrugere" - Mikrostrukturen af ​​'Flash Crash'

VPIN er baseret på PIN-modellen, der betragter handel som et spil mellem tre typer deltagere: informerede handlende, uinformerede handlende og market makers.

VPIN er tilnærmet som den absolutte forskel mellem købs- og salgsvolumen over et historisk vindue. I stedet for sampling efter tid, beregnes VPIN ved hjælp af faste volumenstænger. For eksempel kan du prøve en gang hver gang 1000 Bitcoins udveksles.

Volumen har en tendens til at stige, når ny information kommer på markedet, og falde, når den ikke gør det. Sampling efter volumen er således beslægtet med sampling efter volatilitet (og informationsflow).

En ordre klassificeres som en købsordre, hvis køberen er en informeret erhvervsdrivende; på samme måde klassificeres en ordre som en salgsordre, hvis sælgeren er en informeret erhvervsdrivende. Mere om at identificere køb og salg af handler næste gang.

VPN er den gennemsnitlige volumen-ubalance over et historisk vindue med længden n
Beregn VPIN bruger to Panda-serier af klassificeret købs- og salgsvolumen

Afkrydsningsreglen klassificerer informerede købs- og salgshandler ved at identificere handelsaggressoren, dvs. den pristager. En erhvervsdrivende, der køber Bitcoin via en markedsordre, vil blive matchet med den bedste forespørgsel i ordrebogen - over bud-spørg-gennemsnittet. Dette gør ham til aggressoren. Hvis en erhvervsdrivende afgiver en grænseordre for at købe Bitcoin under bud-spørgsmålet, kan denne ordre i sidste ende fyldes, hvis en anden erhvervsdrivende aggressivt sælger Bitcoin via en markedsordre.

Tick-reglen identificerer handelsaggressoren ved at stole på en simpel observation. Aggressive købsordrer har en tendens til at øge prisen på et aktiv, da ordren matches med den laveste forespørsel i ordrebogen. Tilsvarende har aggressive salgsordrer en tendens til at sænke prisen på et aktiv, efter at det højeste bud er matchet. Den efterfølgende prisændring kan bruges til at identificere handelsaggressoren.

Afkrydsningsreglen (fremskridt inden for finansiel maskinlæring, kapitel 19)

Handler, der forårsager en efterfølgende prisstigning, er mærket som et 1 - et køb. Handler, der forårsagede et prisfald, er mærket -1 - et salg. Handler, der ikke forårsager en ændring i prisen (fordi de ikke udfyldte det højeste bud eller laveste bud fuldstændigt) er mærket med det forrige flueben.

Mens Tick-reglen (generelt) med succes identificerer aggressorsiden, tyder nogle nyere undersøgelser på, at aggressorsidehandlere og informerede handlende muligvis ikke er ækvivalente på højfrekvente markeder. For eksempel kan en informeret erhvervsdrivende blot indsende flere limiterede ordrer i hele ordrebogen, annullere dem, der ikke fylder, og stadig fremstå uinformeret i henhold til afkrydsningsreglen.

Den oprindelige implementering af VPIN bruger en Bayesiansk tilgang kaldet Bulk Volume Classification (BVC) at tilnærme andelen af ​​informeret købs- og salgsvolumen i hver søjle (enten tids- eller volumenbaseret). Min praktiske erfaring med BVC har været ret blandet. I stedet for at bruge BVC besluttede jeg at gå med en anden mulighed: brug handelsmærkerne, der angiver, om køberen eller sælgeren var en market maker i rå Binance Trade-data.

Binance udgiver live handelsdata via en Websocket-stream, som jeg har indsamlet på en AWS-server siden begyndelsen af ​​august sidste år; det er der mine data kommer fra. Siden marts 2021 kan du også downloade historiske data her.

Jeg har beregnet VPIN ved hjælp af rullende dollarstænger med cirka 1600 prøver om dagen med en vinduesstørrelse på 1000. Det betyder, at hver volumenspand strengt taget ikke har nøjagtig samme størrelse. Alligevel er forskellene minimale, så jeg føler mig tryg ved at bruge den originale implementering uden at skulle vægte individuelle spande.

I modsætning til den oprindelige implementering er købs- og salgsvolumen blevet klassificeret ved hjælp af handelsniveau-tags, som angiver, om køberen var en market maker eller ej. I modsætning til den oprindelige implementering er VPN ikke stationært.

Ordreflowubalancer ser ud til at være faldet betydeligt i løbet af det seneste år, da markedsværdien og handelsvolumen for Bitcoin steg. Dette er i tråd med forskning, der viser, at større aktier har lavere bid-ask-spænd, hvilket indebærer mindre negativ udvælgelse.

VPN beregnet fra august 2020 til midten af ​​juni 2021

Ordreflow-ubalancen mellem købs- og salgsordrer på aggressorsiden frem til den sidste korrektion — 19. maj 2021 — forekommer minimal. Den relativt lave VPIN-metrik antyder, at toksicitet ikke spillede en rolle i korrektionen.

Nogle gange ser de lokale ubalancer i ordreflowet ud til at toppe lige før et dramatisk fald i prisen - 12. og 18. juni er de bedste eksempler. Dette kunne dog bare være mig, der læser ind i diagrammet.

Forudsigelse af Triple Barrier Labels med VPN

VPN var ikke nødvendigvis designet til at forudsige fremtidige afkast. I stedet beskriver den blot de gennemsnitlige, volumenvægtede ordreflowubalancer over et historisk vindue. Viden om disse ubalancer kan ikke nødvendigvis bruges til at forudsige vedvarende, stigning eller fald i fremtidige ubalancer. Ikke desto mindre tænkte jeg, at jeg kunne prøve det.

Jeg har brugt en ret standardopsætning foreslået af Marcos López de Prado - det følgende afsnit vil lyde som volapyk for dem, der ikke er bekendt med Financial Machine Learning, så du er velkommen til at springe det over.

Jeg har beregnet volatilitetsjusterede Triple Barrier Labels for at klassificere prøver som enten lange eller korte positioner. Den maksimale etiketbredde er begrænset til 3.5 % i begge retninger; lodrette barriere hits klassificeres efter det absolutte afkast over længden af ​​positionen. Jeg har beregnet prøvevægte baseret på gennemsnitlig unikhed. RF trænes med 100 træer, de relevante maksimale prøver pr. træ, ikke mere end én funktion pr. træ og en maksimal dybde på 6. Dataene skaleres, renses, embargo (5%) og krydsvalideres på tværs af fem gange . Læs de to første dele af Marcos' bog hvis du er interesseret i detaljerne.

Da der ser ud til at være et skarpt brud i VPIN sidst sidste år, besluttede jeg kun at bruge data fra de sidste seks en halv måned; altså omkring en måneds data pr. fold. Det giver i alt ~250,000 prøver.

Som i det originale papir tilpassede jeg VPIN-metrik ved hjælp af en log-normalfordeling og trænede modellen på CDF'en for VPIN. Jeg brugte syv forskellige vinduesstørrelser: 50, 100, 250, 500, 1000, 2500 og 5000. ROC-kurverne på tværs af alle fem folder er plottet nedenfor.

Receiver Operating Characteristic (ROC) kurver af lang-korte tredobbelte barriere forudsigelser på tværs af fem fold

Modellen klarer sig klart under 0.5 AUC benchmark i gennemsnit, mens ydeevnen varierer på tværs af folder. Alligevel er en ROC-kurve og AUC-score muligvis ikke den bedste måde at evaluere ydeevnen af ​​(CDF for) VPIN.

Problemet med en ROC-kurve i Financial Machine Learning er, at de ikke giver en god ide om ydeevnen i den afsluttende ende. Det er fuldt ud muligt - og endda sandsynligt - at VPIN ikke har nogen indflydelse på prisdannelsen under normale markedsforhold. Faktisk forventer market makers udsving mellem købs- og salgsvolumen; det er bare omkostningerne ved at drive forretning.

Jeg vil gerne vide, om ekstrem høj eller lav ordrestrømstoksicitet under ekstreme markedsforhold har nogen forudsigelseskapacitet i Bitcoin. Svaret (nedenfor) ser ud til at være ja.

En præcisionsgenkaldskurve for lange positioner (positiv etiket =1)

En Precision Recall-kurve plotter afvejningen mellem Precision og Recall på tværs af forskellige tærskler. I dette tilfælde viser det, at ved meget høje tærskler, dvs. meget lave niveauer af tilbagekaldelse (0.05 og lavere), stiger modellens gennemsnitlige præcision til at identificere lange positioner på tværs af alle fem fold til de høje halvtredserne (og måske endda tresserne). Ved 0.6-tærsklen, på tværs af alle fem fold, identificerer Random Forest 75 % af lange positioner korrekt, selvom AUC er et godt stykke under 0.5.

En præcisionsgenkaldskurve for korte positioner (positiv etiket = 0)

Precision Recall-kurven for korte positioner fortæller en lignende historie. Selvom den gennemsnitlige AUC forbliver under 0.5 på tværs af alle fem kurver, er der en stigning i præcision ved meget høje tærskler.

Dette tyder på, at VPIN muligvis kun har forudsigelseskapacitet i meget sjældne tilfælde - måske højst en eller to gange om måneden i dette datasæt.

Markeder opfører sig generelt meget anderledes i perioder med høj og lav volatilitet. Forudsigeligheden af ​​nogle funktioner falder markant under et volatilitetschok, mens andre funktioner (inklusive markedsmikrostrukturelle) bliver mere relevante.

Mål for ordrestrømstoksicitet kunne være særligt relevante på et marked, der allerede er volatilt, hvor market makers allerede har udvidet spændet, hvormed de tilfører likviditet. Hvis market makers, ud over at håndtere høj prisvolatilitet, også bliver negativt udvalgt af informerede handlende, kan dette danne en slags "dobbelt puf" (jeg spekulerer selvfølgelig rent her).

For at fortsætte denne spekulationslinje kan market makers være mere tilbøjelige til at tage tab på et meget volatilt marked. Dette øger sandsynligheden for, at de dumper deres beholdning (som de gjorde under 2010 Flash Crash), hvilket forårsager et prisfald.

En volatilitetstærskel fjerner alle prøver fra datasættet, hvor volatiliteten falder under et bestemt benchmark. For eksempel i dette datasæt udelukker en volatilitetstærskel på 0.02 omkring tre femtedele af dataene, men fører til dramatiske forbedringer i AUC, Long Precision Recall Curve og Short Precision Recall Curve.

ROC-kurve for både lang (1) og kort (0) positioner med en volatilitetstærskel på 0.02

AUC-scoren stiger fra 0.49 (værre end en tilfældig klassifikator) til respektable 0.55. AUC-scoren i alle folder undtagen én er et godt stykke over 0.5 benchmark.

Præcisionsopkaldskurven for lange positioner (positiv etiket = 1)
Præcisionsopkaldskurven for korte positioner (positiv etiket = 2)

For Precision Recall-kurverne synes inklusion af en volatilitetstærskel at have hævet Precision dramatisk på tværs af en række tærskler. VPIN ser ud til at have en væsentlig højere forudsigelseskapacitet på markeder, der allerede er volatile.

Det er selvfølgelig muligt, at jeg (på en eller anden måde) har overfittet dataene. En mere komplet analyse ville anvende den samme tilgang til andre kryptovalutaer såsom Ethereum, Ripple og Cardano for at sikre, at VPIN faktisk kan forudsige prisbevægelser, og at dets forudsigelseskapacitet stiger med volatilitet.

Market makers spiller en af ​​de vigtigste roller på en børs – de sørger for likviditet. Men når informerede handlende afhenter deres ordrer, lider disse likviditetsudbydere tab. De står derefter over for et valg: De kan øge omkostningerne ved deres tjenester eller - i alvorlige tilfælde - trække sig helt tilbage fra et marked. Ved at analysere ubalancerne i ordreflowet mellem købs- og salgsvolumen kan vi modellere interaktionerne mellem informerede handlende og market makers.

Ikke alene kan ordreflow-toksicitet være en god forudsigelse for kortsigtet volatilitet — det ser ud til, at det i nogle (meget) sjældne tilfælde endda kan forudsige større prisbevægelser.

VPINs forudsigelseskapacitet stiger kraftigt, når det pågældende marked allerede er ret volatilt. Jeg kan kun spekulere i årsagerne, men egentlig ser jeg to.

Den første er, at market makers opererer med knivtynde marginer. De er derfor mere tilbøjelige til at lide store tab på grund af negativ udvælgelse på mere volatile markeder.

Desuden er spændene på volatile markeder allerede ret store. Ordreflowtoksicitet - ud over volatilitet - kan øge spreads (og glideomkostninger for handlende) drastisk. Handel bliver meget dyrt, når dette sker; Jeg antager, at handlende vil være mindre tilbøjelige til at købe på grund af den høje prispåvirkning, men stadig tvunget til at sælge, hvis markedet kollapser.

Kilde: https://medium.com/@lucasastorian/empirical-market-microstructure-f67eff3517e0?source=rss——-8—————–cryptocurrency

Tidsstempel:

Mere fra Medium