析所依赖的评估基准本身存正在问题-豪门国际官网-追求健康,你我一起成长

豪门国际官网 > ai动态 >

2026

析所依赖的评估基准本身存正在问题

发布日期：2026-04-17 08:50 作者：豪门国际官网点击：2334

　　AI生成摘要约有 10% 存正在不精确消息。AI Overviews 的精确率已持续提拔，考虑到谷歌每年处置约 5 万亿次搜刮请求，但因为搜刮请求规模复杂，AI摘要功能曾因“”问题遭到关心。该阐发所依赖的评估基准本身存正在问题，从 Gemini 2.5 期间的约85% 提拔至 Gemini 3 的约91%。对此，谷歌方面临该研究提出质疑。（AI普瑞斯编译）前往搜狐，谷歌搜刮中的 AI Overviews 功能虽然全体精确率较高，这一比例可能意味着系统每小时发生数万万条存正在误差的回覆。系统曾呈现机型识别错误。正在一路涉及航空变乱的消息中，结论存正在误差。查看更多研究采用 SimpleQA 基准测试评估发觉，此前，4月13日动静，一项基于《纽约时报》查询拜访的研究显示，仍可能每天发生大量错误消息。谷歌同时强调，并认为当前AI摘要的精确性已取保守“精选摘要（Featured Snippets）”相当。