美團LongCat團隊20日正式發布當前高度貼近真實生活場景、面向複雜問題的大模型智能體評測基準--VitaBench(Versatile Interactive Tasks Benchmark),並已全面開源。
據官方介紹,VitaBench以外賣點餐、餐廳就餐、旅遊出行三大高頻真實生活場景為典型載體,構建了包含66個工具的交互式評測環境,並進行了跨場景的綜合任務設計。例如,在旅遊規劃任務中,要求智能體通過思考、調用工具和用戶交互,完整執行從買好票到訂好餐廳的終端狀態。
《經濟通通訊社21日專訊》
【你點睇?】「粵車南下」最快11月實施,邵家輝冀當局根據路面承載力逐步放寬名額,你是否認同?► 立即投票