近日,谷歌正式推出其全新的GeminiAPIURLContext功能,旨在让AI在浏览网页时有如人类一般的理解能力。这一功能于5月28日在GoogleAIStudio上线,标志着谷歌在AI技术领域的又一次重大突破。
与我们常用的链接分享不同,URLContext功能的运作方式截然不同。通常情况下,当我们将链接丢给AI时,它往往只是通过简单的浏览器工具或搜索引擎插件来读取网页内容,而这种方式常常只能获取到网页的摘要或部分信息。然而,Gemini的URLContext则是专为开发者设计的API,可以精准解析和理解网页中的所有内容,甚至可以处理PDF、图片等多种格式的信息。
具体来说,URLContext功能能够处理高达34MB的网页内容,支持多种文件格式,包括HTML、JSON和CSV等。谷歌产品负责人LoganKilpatrick表示,这项功能极大地简化了开发者的工作流程,使其能够在几行代码中实现深度的信息提取与处理。与传统的“检索-增强生成”(RAG)流程相比,URLContext减少了繁琐的步骤,不再需要额外的内容提取、向量存储和检索机制。
这一功能的能力相当强大。通过一个简单的URL,Gemini可以提取特斯拉财报中的关键数据,如“总资产”和“总负债”,而这些信息往往无法通过传统方式获取。此外,它还能够识别PDF中的复杂结构,包括表格和脚注等。这使得开发者能够更快速、准确地获得所需信息,极大提高了工作效率。
不过,URLContext也有其局限性。它无法突破付费墙,对于需要登录才能访问的内容无能为力。此外,它对专用工具(如YouTube视频和GoogleDocs等)也不会进行处理。内容的处理费用是按照Token数量计费,因此开发者需要合理设计信息源,以控制成本。
URLContext功能不仅展示了AI技术的前沿发展趋势,也让我们对未来的信息检索方式有了新的认识。
文章地址:https://towardsdatascience.com/googles-url-context-grounding-another-nail-in-rags-coffin/