国内AI(人工智能)视频交互赛道再添重磅玩家。
近日,字节跳动旗下AI智能助手“豆包”的App上线视频通话功能,支持视频聊天问答 。据官方介绍 ,本次升级基于视觉推理模型,支持联网搜索。
《每日经济新闻》记者实测发现,豆包的视频通话功能用处不少 ,包括识别水果成熟度这样的日常用途。此外,在识别物品时,豆包更展现出持续记忆和逻辑推理能力 。
5月27日 ,一位大模型算法工程师接受《每日经济新闻》记者微信采访时表示,豆包在视频通话中展现出的视频理解与语音交互能力,在中文语境中处于第一梯队。
继文生视频大模型后 ,字节在AI多模态领域又迈出关键一步。
能打视频电话的豆包,效果如何?
“视觉是人类了解这个世界最重要的方式,对于大模型来说也是如此 。”在去年12月举行的“2024火山引擎FORCE原动力大会·冬 ”上 ,火山引擎总裁谭待发布了豆包视觉理解模型,称该模型具备更出色的内容识别、理解、推理 、视觉描述和创作等能力。
5个月后,这一新模型的能力让所有豆包用户“眼见为实”了。
近日,豆包App上线了实时视频通话功能 ,这一功能的实现正是基于豆包视觉理解模型的能力 。
为了更直观地展示这一新功能的应用场景,豆包团队在其官方微信公众号上列举了公园内花草识别、博物馆内实时讲解、图书馆内书籍推荐查阅以及买菜时的食材搭配这四大生活场景。在去年12月的发布会上,豆包团队就曾在演示视频中呈现了该模型在识别地标 、读懂代码、分析体检报告、为用户提供穿搭意见等日常任务中的完成能力。
和豆包打个视频电话 ,是否真的能解决上述这些生活问题呢?百闻不如一见,《每日经济新闻》记者近日以挑选水果 、识别物品和推荐书籍这三项任务,对豆包的实时视频通话功能进行了实测 。
首先 ,是较为基础的挑选水果任务,这也是用户在小红书等社交媒体上分享得最多的应用场景。“你来帮我挑选一个木瓜吧。”当开启视频通话后,豆包通过对果实表皮颜色、饱满程度等指标的观察 ,快速给出了挑选建议。有小红书用户在使用豆包挑选蔬菜后表示:“感觉突然身边多了个懂行的买菜老大爷 。 ”
在识别物品和推荐书籍的环节,豆包展现出了良好的记忆能力和连贯的实时搜索、互动性能。例如,面对杂乱摆放着书籍 、巧克力、耳机和电子时钟等物品的书桌 ,豆包可以轻松识别所有物品的详细信息并记忆它们在桌上的摆放位置。
这一记忆功能在记者浏览书架时得到了更为充分的展现 。记者在书店随机挑选了一个书架,就书架一侧第一本书和豆包进行沟通,同时举起手机走向了书架的另一头,再突然提出“刚刚有一本蔡磊写的书 ,你看到了吗?”的问题,豆包迅速记起这本曾在镜头前一闪而过的书,并对该书进行了简单介绍。
“(记忆功能的实现)大概率是每隔几秒给模型拍摄一张图片。”一位大模型算法工程师在微信上接受《每日经济新闻》记者采访时表示 ,豆包在该功能中展现的视频理解和语音交互能力,在中文语境中处于第一梯队 。
与豆包进行关于多本书籍的聊天时,豆包能够结合记忆能力与实时搜索 ,对书籍内容、作者生平 、同类作品推荐等话题进行自然延伸,整个交互过程流畅且生动。
从“听见 ”到“看见”
在去年,AI的视频交互功能就已经在业界掀起波澜。
2024年8月 ,“智谱清言”App率先推出了国内首个面向C端(消费者端)开放的视频通话功能 。一时间,网上涌现出大量对视频通话功能的测试。测试方式从最基础的物体识别到生活场景的沟通交流,甚至包括辅导小学生作业。
赶在OpenAI和谷歌之前 ,智谱清言先一步将AI视频交互在国内落地 。在国际市场上,从“听见 ”到“看见”同样成为AI进化的下一步。
2024年5月,OpenAI公司的“GPT-4o”发布。现场,OpenAI的研究员演示了GPT-4o的实时视觉功能——它通过手机摄像头实时解了一个方程 ,甚至还能通过前置摄像头观察用户的面部表情,分析用户的情绪。同月,谷歌推出的“Project Astra ”同样具备实时语音、视频交互的能力 。
今年4月 ,火山引擎总裁谭待也曾表示:“模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样 ,Agent(智能体)才能更好地处理复杂任务。”
视频通话功能的实现,就建立在其多模态能力之上。从最后呈现的使用形态来看,视频通话功能使得用户无需再通过语言组织传达眼前的信息 ,这无疑是对AI使用门槛的再一次降低 。
技术能力的升级为AI打通了视觉和听觉的“任督二脉”,但也要看到,AI智能助手的快速扩张已经来到了瓶颈 ,新的交互范式可能是新阶段的关键。
据量子位智库数据,4月份Web端(网页端)AI智能助手的总访问量首次出现下降,说明以尝鲜驱动的扩张期或已结束。
随着豆包在今年3月接入抖音及其“打电话”功能在社交媒体上受到关注,豆包也在通过抖音生态快速触达用户 。
27日 ,知名经济学者、工信部信息通信经济专家委员会委员盘和林在接受《每日经济新闻》记者微信采访时表示,豆包有着庞大的用户应用生态作为支撑,扩散应该比对手要快。
他认为 ,豆包在商业拓展时主要还是和“剪映 ”集成,可以和抖音的内容审核AI结合。比如可以通过AI发现违规的短视频内容 。盘和林还表示,AI视频交互的使用前景非常光明 ,比如生成虚拟人进行直播,又比如通过AI识别来迅速对视频文件进行归纳总结。
另一方面,AI眼镜这一类符合视频通话应用场景的新硬件逐渐升温 ,也给AI视频交互带来了更多可能性。
盘和林认为:“AI视频交互可以和AI眼镜有限结合,但现阶段AI眼镜的算力和显示等方面还存在技术缺陷 。所以,期待未来有新的融合。”
(文章来源:每日经济新闻)
中股配资服务:多少岁可以炒股票开户-美私募公司拟竞购澳达尔文港 外交部回应
配资:专业配资公司-瀛通通讯直线涨停!AI眼镜概念股强势拉升,科技巨头纷纷布局
财经:配资炒股开户操作视频-医研共识背书,“奇点护肤”引领科技抗衰新范式
鞍山配资炒股:股票可以在线开户么-走势吓人!午间突发公告 这只股票一度上演“天地板” 高位股危险了?
一般股票开户几天可以交易:股票画线工具app下载-12家券商发布6月金股 排名靠前的公司名单来了
股票短线炒股软件下载:股票买多少就能控制公司-5月一二线城市新房价格环比上涨 上海涨幅居百城首位
选倍网配资提示:文章来自网络,不代表本站观点。
记者王珍中国国际经济交流中心副理事长、国务院发展研究中心原副主任王一鸣周一在“中国发展高层论坛2025...
当地时间6月9日至10日,中美经贸中方牵头人、国务院副总理何立峰与美方牵头人、美国财政部长贝森特及商务部长卢特尼克、...
记者辛圆3月25日,博鳌亚洲论坛旗舰报告《亚洲经济前景及一体化进程2025年度报告》(以下简称《报告》...
3月24日,业内权威专家表示,MLF(中期借贷便利)不再有统一的中标利率,标志着MLF利率的政策属性完全退出。3月24日...
3月24日,易方达国证自由现金流ETF公开发售。该产品跟踪国证自由现金流指数,这个指数是什么?有哪些优势?投资价值如何?...
记者|赵阳戈年初,证监会就修改《证券发行与承销管理办法》部分条款向社会公开征求意见,市场也将注意力投向了...
2025年3月25日,倍轻松(688793.SH)公告称,公司股东宁波倍松投资有限公司(简称“宁波倍松”)拟通过大宗交易...
3月12日,汇丰发布对于中国投资市场的最新观点。汇丰环球私人银行及财富管理中国首席投资总监匡正表示,DeepSe...