Pydantic evals

                 Evaluation Summary: run_agent
┏━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━┓
┃ Case ID                ┃ Outputs     ┃ Assertions ┃ Duration ┃
┡━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━┩
│ uppercase_basic        │ HELLO WORLD │ ✔✔         │   148.7s │
├────────────────────────┼─────────────┼────────────┼──────────┤
│ uppercase_with_numbers │ HELLO 123   │ ✔✔         │   148.6s │
├────────────────────────┼─────────────┼────────────┼──────────┤
│ Averages               │             │ 100.0% ✔   │   148.7s │
└────────────────────────┴─────────────┴────────────┴──────────┘