关于我们

强劲算力,源源动力

谷歌认真起来,就没 OpenAI 什么事了!创始人组队打造“杀手级”多模态 AI 模型
发布时间:2023-08-28 14:27:59    来源:醉月
谷歌认真起来,就没OpenAI什么事了!创始人组队打造“杀手级”多模态AI模型

截至目前,OpenAI 大语言模型在 AI 竞赛中一直处于领先地位。而强劲优势的背后,离不开微软庞大数据中心基础设施的有力支持。但 ChatGPT 的主导地位恐怕无法长久持续下去,因为新的、更强大的 AI 模型正不断涌现,而其中最具战斗力的挑战者就来自谷歌。

 

今年 4 月,Alphabet 首席执行官桑达尔·皮查伊 (Sundar Pichai) 迈出了不寻常的一步:合并两个具有不同文化和代码的大型人工智能团队(谷歌 Brain 和 DeepMind 团队),以赶上并超越 OpenAI 和其他竞争对手。

 

现在,检验这个团队工作成果的时刻即将到来。有消息称,这支数百人组成的团队将在今年秋天发布一组大型机器学习模型 Gemini,这是该公司有史以来构建的风险最高的产品之一。据参与 Gemini 开发的人士透露,这些模型统称为 Gemini,预计将使谷歌能够制造出竞争对手无法制造的产品。

 

谷歌 Gemini 于今年 5 月在 I/O 开发者大会上首度亮相。

 

当时,谷歌称 Gemini 为其下一代基础模型,它仍在训练中。Gemini 是从一开始就以多模式、高效的工具和 API 集成为目标而创建的,旨在支持未来的创新,例如内存和规划。经过微调和严格的安全测试后,Gemini 将提供各种尺寸和功能,就像 PaLM 2 一样。

全世界都在关心的 Gemini 到底是个啥?

早在 2016 年,DeepMind 就因其人工智能程序 AlphaGo 在复杂的围棋游戏中击败了一位冠军选手而成为头条新闻。快进到今天,DeepMind 首席执行官 Demis Hassabis 透露,他的团队正在利用 AlphaGo 的变革性技术来创建 Gemini AI。Demis Hassabis 透露,Gemini AI 的开发成本估计为数亿美元,使用了数万颗谷歌的 TPU AI 芯片进行训练

 

据悉,Gemini AI 是一个类似于 ChatGPT 的 GPT-4 的大规模语言模型。然而,Hassabis 和他的团队更进一步,为 Gemini AI 注入了源自 AlphaGo 的解决问题能力和战略规划能力。

 

从根本上讲,Gemini AI 包含下一代 AI 架构,有望取代 Google 当前的 AI 模型 PaLM 2。该模型目前支持 Google 的一系列 AI 服务,例如 Workspace 应用程序中广泛使用的 Duet AI 和流行的 Bard 聊天机器人。

 

谷歌还放出消息,称 Gemini 将为旗下 AI 聊天机器人 Bard,以及 Google Docs、Slides 等企业级应用提供支持。

 

The Information 报道称,谷歌并不是简单地与 ChatGPT 等产品竞争,而是打算超越一众大模型产品让友商们无法望其项背。消息人士指出,该公司专注于将大型语言模型 (LLM) 的文本功能与人工智能图像生成相结合,以创建多功能产品。这意味着 Gemini 不仅能够像 ChatGPT 那样生成文本,还能够创建上下文图像,但据报道,谷歌也在考虑添加其他功能。例如,用户最终可能能够使用 Gemini 通过语音分析流程图或控制软件。

 

Gemini 之所以能够成为强大的竞争对手,是因为谷歌同样掌握着雄厚的资源储备,特别是用于训练 AI 模型的宝贵数据。谷歌能够访问 YouTube 视频、谷歌图书、庞大的搜索索引以及 Google Scholar 上的学术资料。其中大部分数据为谷歌所独有,这也使其在构建顶尖 AI 模型方面占据着超越其他厂商的优势。

 

那么,Gemini 在训练中,具体都用到了哪些数据集?

 

Gemini 用到了哪些数据集?

 

据悉,Gemini 项目汲取了谷歌多个项目的数据集来训练大模型,包括了 Google Piper monorepo、DeepMind  MassiveText 以及 YouTube 中的数据。

 

  • 来自 Google Piper monorepo 的 Gemini 数据集(估计)

 

Gemini 数据集可能由大量代码组成,以支持最终训练模型中的推理。Google 的内部 monorepo Piper 大小为 86TB 。使用 The Pile 的每字节 0.4412 个令牌的计算,该数据集将约为 37.9T 个令牌,或者大约是 GPT-4 中下一个最大数据集大小的两倍(估计)。

 

  • 来自 DeepMind MassiveText 的 Gemini 数据集(估计)

 

Gemini 数据集可能由 DeepMind 的一些 MassiveText(多语言) 5T 令牌数据集组成

请注意,下表是关于 Gemini 数据集的猜测(未经 Google DeepMind 确认),并且基于来自最先进的 DeepMind MassiveText(多语言)+ 1,000B 讨论令牌的可用信息。MassiveText 包括网页、书籍、新闻和代码等文本,包含约 23.5 亿个文档, 10.5 TB 的文本量。


序列

数据集

百分比代币

原始大小 (GB)

Token size(B)

1

书籍(英文)

68.11%

12,853GB

3,423B

2

讨论(通过YouTube上进行的多语言讨论,预估)*

x %

3,750GB

1,000B*

3

网页:C4(多语言)

19.45%

3,656GB

977B

4

代码:Github

7.46%

2,754GB

375B

5

新闻(英文)

4.71%

888GB

237B

6

维基百科(多语言)

0.26%

48GB

13B

 

 

总计

23,949GB(23.9TB)

6,000B(6T)

MassiveText 多语言数据集估计。

*四舍五入大概的数据以粗体显示(来自 DeepMind 的 MassiveText 多语言数据集),确定的数据以斜体显示。

 

  • 来自 YouTube 的 Gemini 数据集(估计)

据一位知情人士透露,谷歌的研究人员一直在使用 YouTube 来开发其下一个大型语言模型 Gemini。

 

YouTube 2023 总体统计数据(来自WyzowlStatista):

  • 视频总数:8 亿。

  • 平均长度:11.7 分钟。

  • 总时间:93.6 亿分钟。

  • 四舍五入以跟上每小时上传 30,000 小时的速度:10B 分钟。

 

YouTube 2023 文本统计数据:

  • 人类说话速度:每分钟 150 个单词 (wpm)。

  • 150wpm x 10B 分钟 = 总计 1.5 万亿字。

  • 假设:(1) 说话仅出现在视频的子集中,(2) 质量分类器保留分数位于前 80% 的视频,那么我们保留其中的 80%。

  • 1.5T 字 x 0.8 = 1.2T 字。

  • 1.2T 单词 x 1.3 = 1.56T 文本标记。

 

产品服务