當(dāng)前評(píng)測(cè)生成式模型代碼能力的浪潮中,傳統(tǒng)依賴人工編寫的算法基準(zhǔn)測(cè)試集,正日益暴露出可擴(kuò)展性不足與數(shù)據(jù)污染嚴(yán)重兩大瓶頸。
為突破這一困局,北京大學(xué)與通用人工智能研究院聯(lián)合提出全新 UniCode 框架。該研究由北京大學(xué)梁一韜助理教授指導(dǎo),博士生鄭欣悅為第一作者,林昊葦為共同一作,創(chuàng)新性地構(gòu)建了一套能夠自動(dòng)生成高質(zhì)量算法題目與抗污染測(cè)試用例的進(jìn)化式評(píng)測(cè)系統(tǒng)。
UniCode 框架通過(guò)三大核心策略動(dòng)態(tài)擴(kuò)展題目,并采用基于「壓力測(cè)試」的用例合成技術(shù),成功構(gòu)建出包含 492 道題目的全新評(píng)測(cè)基準(zhǔn)。在對(duì) 19 個(gè)前沿大模型進(jìn)行系統(tǒng)性測(cè)試后,表現(xiàn)最佳的 o4-mini 模型也僅達(dá)到 70.3% 的通過(guò)率,充分印證了 UniCode 在評(píng)測(cè)上的高挑戰(zhàn)性與強(qiáng)判別力,為代碼能力評(píng)估開辟了一條動(dòng)態(tài)、可擴(kuò)展的全新路徑。