Financial Data & ML Pipeline

กระบวนการจัดการข้อมูลทางการเงินและการสร้าง Pipeline สำหรับ Machine Learning ในงาน Trading

🇹🇭 ภาษาไทย

จักรวาลของข้อมูลการเงิน (Financial Data Universe)

  • Market Data: ข้อมูลราคาและปริมาณการซื้อขาย (OHLCV, Tick data)
  • Fundamental Data: ข้อมูลพื้นฐานจากงบการเงิน (Earnings, Cash flow)
  • Alternative Data: ข้อมูลทางเลือก เช่น ข่าว, Social media sentiment, ภาพถ่ายดาวเทียม, หรือ Credit card transactions
  • Market Microstructure: โครงสร้างระดับละเอียดของตลาด เช่น Order Book dynamics, Bid-Ask spread และ Liquidity

กระบวนการ ML Pipeline

  1. Data Collection & Storage: การรวบรวมข้อมูลจากแหล่งต่างๆ และจัดเก็บอย่างเป็นระบบ (เช่น HDF5, Parquet)
  2. Feature Engineering: การสร้างปัจจัย (Alpha Factors) จากข้อมูลดิบ
  3. Model Training: การใช้โมเดล ML (Linear, Tree-based, Deep Learning)
  4. Synthetic Data: การสร้างข้อมูลสังเคราะห์เพื่อแก้ปัญหา Data scarcity หรือเพื่อทำ Stress testing

🇬🇧 English

Data Categories

  • Fundamental: Financial statements and economic indicators.
  • Market: High-frequency data, quotes, and trades.
  • Alternative: Unstructured data providing unique insights (Sentiment, Satellite).
  • Microstructure: Analyzing the mechanics of price formation and execution costs.

Machine Learning Workflow

  • Systematic Edge: Transitioning from discretionary to rule-based models.
  • Pipeline: Ensuring data integrity from ingestion to feature extraction and model validation.
  • Strategy Synthesis: Combining individual signals into a robust trading strategy.