Financial Data & ML Pipeline
กระบวนการจัดการข้อมูลทางการเงินและการสร้าง Pipeline สำหรับ Machine Learning ในงาน Trading
🇹🇭 ภาษาไทย
จักรวาลของข้อมูลการเงิน (Financial Data Universe)
- Market Data: ข้อมูลราคาและปริมาณการซื้อขาย (OHLCV, Tick data)
- Fundamental Data: ข้อมูลพื้นฐานจากงบการเงิน (Earnings, Cash flow)
- Alternative Data: ข้อมูลทางเลือก เช่น ข่าว, Social media sentiment, ภาพถ่ายดาวเทียม, หรือ Credit card transactions
- Market Microstructure: โครงสร้างระดับละเอียดของตลาด เช่น Order Book dynamics, Bid-Ask spread และ Liquidity
กระบวนการ ML Pipeline
- Data Collection & Storage: การรวบรวมข้อมูลจากแหล่งต่างๆ และจัดเก็บอย่างเป็นระบบ (เช่น HDF5, Parquet)
- Feature Engineering: การสร้างปัจจัย (Alpha Factors) จากข้อมูลดิบ
- Model Training: การใช้โมเดล ML (Linear, Tree-based, Deep Learning)
- Synthetic Data: การสร้างข้อมูลสังเคราะห์เพื่อแก้ปัญหา Data scarcity หรือเพื่อทำ Stress testing
🇬🇧 English
Data Categories
- Fundamental: Financial statements and economic indicators.
- Market: High-frequency data, quotes, and trades.
- Alternative: Unstructured data providing unique insights (Sentiment, Satellite).
- Microstructure: Analyzing the mechanics of price formation and execution costs.
Machine Learning Workflow
- Systematic Edge: Transitioning from discretionary to rule-based models.
- Pipeline: Ensuring data integrity from ingestion to feature extraction and model validation.
- Strategy Synthesis: Combining individual signals into a robust trading strategy.