KalShi LLM Predictions

Inspiration

Kalshi's AI prediction market offered a peculiar challenge: with perfect hindsight (we know Google won), could we reverse-engineer profitable trading patterns from 2025 EOD data? The dataset contained exploitable inefficiencies—panic dumps, emotional spikes, mean reversion opportunities—begging for systematic extraction.

What it does

Transforms $100 into $239 (+139% return) over 8 months using a Dump+Raise strategy: buy crashed contracts (≥3% drops) and ride information-driven momentum (tight spreads + OI increases). 12 trades, 100% win rate, avg 13-day hold. Models targeted: xAI (4), Anthropic (4), OpenAI (3), Google (1).

How we built it

Data pipeline: Cleaned 1,739 Kalshi records, standardized timestamps, parsed JSON, flagged 28% data gaps
Feature engineering: Mid-price, log-odds, liquidity signals (spread, turnover, dOI), probability normalization
Signal generation: Detected dumps (logit z-score, mid drops), classified raises (emotion vs information-driven)
Optimization: Grid search across 180 parameter combinations × 7 strategy types = 1,260 tests
Validation: Train/test split (Jan-Jun vs Jul-Dec) confirmed zero overfitting
Visualization: 19 figures across 5-tab narrative structure

Challenges we ran into

Data quality: 28% missing records, only 118/342 days had all 7 models. Alibaba/Meta 65% missing (late launches). Price fields 30% null even when records existed.
Spread economics: Initial PTLC strategy (pre-positioned two-leg completion) failed—spreads 2-3¢ meant lock cost $1.03-1.05 for $1.00 payout. Required pivot to directional strategies.
Small sample bias: 12 trades over 8 months. 100% win rate likely optimistic forward (realistic: 85-90%). EOD data misses intraday opportunities.

Accomplishments that we're proud of

Parameter optimization breakthrough: Reducing detection threshold from 2.5σ → 1.5σ unlocked 9 hidden trades. 376× profit improvement vs naive baseline ($0.37 → $139.14).
Raise strategy identification: RAISE trades (8) contributed 76% of profit—the missing piece in baseline analysis. Information-driven momentum beats emotional fading.
Perfect out-of-sample validation: Train/test metrics identical (Sharpe 1.63 both periods). Parameters robust across market regimes.
Production-ready playbook: Complete implementation guide with entry criteria, exit rules, position sizing, daily monitoring checklist.

What we learned

Signal quality > quantity. Volume filter ON eliminated false positives. 1.0× exit multiplier (quick cycles) beat 1.5× (greedy holds) despite lower per-trade returns.
Raise > Dump > Fade. Mean reversion after confidence spikes ($105.64 profit) dominates panic dumps ($33.50). Emotional fading adds minimal value ($5.23 single trade).
Market microstructure matters. Spread filtering critical (≤50% relative spread). dOI + spread tightening = information signal (tradeable). Spread widening = emotion (fadeable but low frequency).

What's next for KalShi LLM Predictions

Real-time WebSocket implementation: EOD data leaves money on table. Intraday spread compression windows unlock PTLC strategy (zero-risk locks).
Live monitoring dashboard: Automate signal detection, position tracking, exit alerts. Deploy with $500-1,000 capital (10× our backtest) for statistical significance.
2026 regime adaptation: Google dominance may fade post-market resolution. Retrain parameters quarterly. Monitor concentration shifts (Herfindahl < 0.40 = opportunity returns).

Built With

hex
python

Updates

Constant Chen started this project — Jan 22, 2026 12:53 AM EST

Leave feedback in the comments!

Log in or sign up for Devpost to join the conversation.