Google Gemini 1.5 以史上最大 100 万个令牌上下文窗口超越 ChatGPT 和 Claude

谷歌今日震撼发布Gemini 1.5,这款全新模型在性能上超越了ChatGPT与Claude,其引以为傲的100万个token上下文窗口,在自然语言处理模型中堪称翘楚。相比之下,GPT-4 Turbo的上下文窗口为128K,而Claude 2.1则达到了200K。

谷歌首席执行官Sundar Pichai与DeepMind首席执行官Demis Hassabis在联合撰写的博客中自豪地宣布:“我们已成功将模型所能处理的信息量大幅提升,持续运行可达100万个标记,实现了迄今为止任何大规模基础模型中最长的上下文窗口。”他们还将Gemini 1.5与ChatGPT、Claude等现有模型进行了深入对比。

值得注意的是,Gemini 1.5 Pro虽配备了标准的128,000个token上下文窗口,但从即日起,有限的开发人员和企业客户已可通过AI Studio和Vertex AI在私人预览版中体验多达100万个token的上下文窗口。

Gemini 1.5的强大之处在于其一次性处理海量信息的能力,无论是1小时的视频、11小时的音频、超过30,000行代码的代码库,还是超过700,000个单词的文本,都能轻松应对。在研究中,谷歌更是成功测试了多达1000万个标记的处理能力。

Gemini 1.5建立在Transformer与MoE架构之上,传统Transformer作为大型神经网络运行,而MoE模型则巧妙地将任务划分为多个较小的“专家”神经网络,实现了更高效的计算。

Gemini 1.5 Pro的功能多样且强大,从分析历史事件冗长记录(如阿波罗11号任务)到理解和推理无声电影,都游刃有余。其在处理大量代码方面的精湛技艺,进一步巩固了其在复杂问题解决任务中的领先地位,展现了其卓越的适应性和效率。

在Needle In A Haystack (NIAH)评估中,Gemini 1.5 Pro表现非凡,擅长在长篇文本中精准定位具体事实,成功率高达99%。同时,在Machine Translation from One Book (MTOB)基准测试中,其展现出的上下文学习能力再次证明了Gemini 1.5 Pro在自适应学习领域的卓越地位。

上周,谷歌刚刚发布了Gemini Ultra的首个版本,而此次Gemini 1.5的发布更是紧随其后。此外,谷歌还在Chrome中加入了生成式人工智能功能,并已在所有网站上推出了“帮我写作”功能。用户只需右键单击任何文本框,即可轻松访问该功能,让谷歌的人工智能助手询问写作要求并生成初稿。

谷歌正全力以赴改进其人工智能模型,而OpenAI也不甘示弱,据报道正在开发一款网络搜索产品以挑战谷歌。同时,OpenAI还在紧锣密鼓地研发下一代法学硕士课程GPT-5,预计其智能程度将远超以往。

此外,OpenAI近期还推出了文本转视频生成模型Sora,该模型能够生成长达一分钟的视频,同时保持高质量的视觉效果并精准遵循用户提示。而Meta也预计即将发布Llama 3,为人工智能领域再添新军。

标签