美團LongCat團隊20日正式發布當前高度貼近真實生活場景、面向複雜問題的大模型智能體評測基準--VitaBench(Versatile Interactive Tasks Benchmark),並已全面開源。
據官方介紹,VitaBench以外賣點餐、餐廳就餐、旅遊出行三大高頻真實生活場景為典型載體,構建了包含66個工具的交互式評測環境,並進行了跨場景的綜合任務設計。例如,在旅遊規劃任務中,要求智能體通過思考、調用工具和用戶交互,完整執行從買好票到訂好餐廳的終端狀態。
《經濟通通訊社21日專訊》
【助眠救星】加拿大銷售No.1 | 維柏健[快睡寶]限時2件75折。即上 healthsmart.com.hk (優惠期至23/10/2025)► 了解詳情