Posted in

谷歌「Her」来啦!发布 Gemini Live 语音模式,现场演示两次翻车_AI阅读总结 — 包阅AI

包阅导读总结

1. 关键词:谷歌、Gemini Live、语音助手、安卓、AI

2. 总结:谷歌在 MadeByGoogle 发布会上公布 AI 语音助手 Gemini Live,可顺畅语音交流,集成到安卓系统,能与谷歌应用集成,已向 Google Advanced 用户开放测试,未来还有多步骤连续推理等功能展望。

3.

– 谷歌发布会上公布 AI 语音助手 Gemini Live

– 对标的是 GPT-4,两周前开放语音模式测试

– 有 10 条声线,支持多种交流方式

– 深度集成到安卓系统,可通过长按电源键或特定指令唤起

– 能实现屏幕读取、内容感知等

– 可与所有 Google 应用和工具集成,如跨软件交互、图片识别等

– 上下文记忆功能强大,但需过几周上线,发布会实机演示两次翻车

– 已向 Google Advanced 用户开放测试,暂仅支持英文和安卓手机,未来几周苹果用户可用并将开放更多语言

– 未来将推出多步骤连续推理功能等

– 同时发布新手机 Pixel 9,搭载更先进设备端 AI 模型

思维导图:

文章地址:https://mp.weixin.qq.com/s/HxX1zC0Jxk-h78umYRSMpg

文章来源:mp.weixin.qq.com

作者:海野

发布时间:2024/8/14 5:22

语言:中文

总字数:1347字

预计阅读时间:6分钟

评分:86分

标签:AI语音助手,谷歌,Gemini Live,安卓系统集成,跨软件交互


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

夕小瑶科技说 原创
作者 | 海野
重磅惊喜!

今天,在MadeByGoogle发布会上,谷歌公布了 AI语音助手 Gemini Live,对标的正是GPT-4o,而且是两周前开放测试的语音模式。

Gemini Live 可以进行顺畅的语音交流,听从语音指令,可以随时打断对话、稍后继续对话。

谷歌在发布会中提到,Gemini Live 有10条声线,支持自由对话、打断AI说话、以及免提播放等等。

更惊艳的是,Gemini Live 深度集成到安卓系统里,只需要长按电源键或者说“OK Google”,就能唤起Gemini Live,能实现屏幕读取、内容感知等。

如同集成到苹果系统里的Siri一样,Gemini Live 也是以语音助手的形态呈现出来的。

Gemini Experiences和Google Assistant的副总裁兼总经理Sissie Hsiao强调:

AI的发展能引起人们重新思考:助理到底能提供什么帮助?通过这些更新,Gemini将以语音助手的形式,提供更直观和对话式的体验,使其成为复杂任务的可靠伙伴。

此外,Gemini Live 还能与所有的Google应用和工具进行集成,实现跨软件交互、图片识别等。

例如,给Gemini发音乐会传单的信息,要求它查看日历上当天是否有待办事项,来判断自己有没有空去音乐会。

还可以让Gemini设置待办,晚上七点看一下门票价格。

这个上下文记忆功能是真的强大啊!

还可以话锋一转,让Gemini把浓咖啡的原料,添加到Keep购物清单中。

不需要描述太多细节,Gemini就能get到你想要什么。但这个功能需要过几周才能上线。

我想我知道为什么要过几周才能上线,因为谷歌自己都没调试好这个功能!

你看,发布会的实机演示就翻车了,还翻车了两次:

谷歌,你们是不是线下没商量好?还不如只放个视频演示上来呢!

已向Google Advanced用户开放测试

现在,这个语音功能已经向订阅Google Advanced的用户开放测试,暂时仅支持英文交流,且只有安卓手机能优先体验。谷歌宣称,在未来几周后苹果用户也能使用,并将开放更多语言。

虽然谷歌的语音功能上线得晚,但是它开放的早呀!OpenAI的语音功能还在小范围测试,完全开放还需要等到秋季(但谁也不知道,到底是早秋还是晚秋 )。

此外——

这个发布会不仅是语音功能比较惊艳,还有谷歌的新手机Pixel 9 。相比于上一代Pixel 8,它搭载了更先进的设备端AI模型,更快的响应速度、更多的AI功能,遥遥领先。

想具体领略一下它的魅力,请看VCR:

就是这个手机背面的摄像头,有点丑……

美好愿景

这里还有一些更长期的对未来的展望,Gemini未来还会推出多步骤连续推理功能,可以实现AI高级代理:全自动做计划,用Google Doc整合整合信息做成报告,成为用户、组织、企业的自动化研究助理。

比较恐怖的是,这些展望并没有那么遥远,它们就会在未来几个月内落地实现。

剩下的就是一些客套话了。比如AI的新功能也会带来新的挑战呀,我们会继续注重于服务效率和质量呀,未来继续加油呀,等等等等。

是每家发布会都会走的一些必备流程。

但,谷歌的发布会已经惊吓到我的小心脏了,虽然很多东西都是展望、期货,但至少Gemini Live是现在就能用的新玩意。

而且,很多期货内容(例如AI高级代理),也能吓死一堆小型创业公司了。

别总是吊在只会画“草莓”饼的OpenAI上了。