近年来AI技术飞速发展,在不断提高人类工作效率的同时,也在改变大家对传统生活技能的依赖。最近有网友分享自己用GPT-4o选出水果店里剥皮沙瓤的甜西瓜的经历,还有网友称自己用GPT-4o成功避坑烂榴莲。据悉,OpenAI的GPT图片识别技术利用深度学习和图像分析,能够识别西瓜的色泽、纹理、形状等外观特征,从而判断其成熟度。用户只需使用智能手机对准西瓜拍照,GPT技术就能迅速分析并给出是否成熟的建议。而不止挑水果,现在AI已经成为人类的“冲浪搭子”、“吃饭搭子”、“看病搭子”……
针对于此,媒体@头号AI玩家 最近对GPT-4o、Gemini、腾讯元宝、通义千问4个AI工具的视觉能力进行测评,从挑水果、科普、看展、玩梗、娱乐等维度观察各位“AI搭子”的表现力。
首先在挑水果这件事情上,四家AI做选择的出发点具有细微不同之处,但眼光出奇一致。GPT-4o认为品质最好的是1号榴莲,因为外形较大且圆润,颜色也较黄,看起来成熟度较高,但5和6也是不错的选择。Gemini表示1、2、3都是成熟款的榴莲,6号可能还没熟透,但要准确判断还需要更加详细的细节。通义千问表示自己无法直接判断榴莲的果肉量和口感,给出了一些挑选榴莲的建议,但综合颜色、刺的硬度和外壳是否裂开等因素,选择1号榴莲。腾讯元宝认为如果看中果肉饱满,更推荐1、3、6号,但这只是根据视觉判断的结果,言外之意:仅供参考,不对结果负责。
而在科普方面,给出一张文字正反颠倒的图片,GPT-4o并未识别出文字颠倒,杜撰上面的日语是“厉害的”或“惊人的”的意思,将图片翻转过来才识别出“猫咪”。Gemini虽然对文字的识别不够准确,但正确猜测出这是一个黑色毛绒玩具的一部分。而通义千问和腾讯元宝无法识别出文字的意思,通义千问甚至直接摆烂,说自己还没有识别文字的能力。在看展方面,GPT-4o和腾讯元宝略胜一筹,能够识别图片出处并大概阐述图画所表达的意境,Gemini和通义千问则无法识别图片来源。吃瓜方面,各家AI工具的玩梗能力堪忧。娱乐方面,GPT-4o、Gemini、通义千问都能参透游戏背后的科学逻辑,腾讯元宝则停留在游戏表面。
当AI变成人类的挑水果、科普、看展、吃瓜、娱乐搭子,距离我们和AI一起“有机共存”还有多远?目前除了对话沟通功能之外,图片识别技术已经具备“睁眼看世界”的能力,庞大的数据库也让AI能够解析很多人类看不懂的知识。正如OpenAI Sora及DALL·E团队负责人Akitya Ramesh所认为,能够模拟任何想要的内容将是未来的一个重要里程碑。根据测评结果来看,如何通过模型驯化让AI理解人类的思想和情感,将成为未来AI发展的关键突破口。
而幻境线作为“次世代泛娱乐社交平台”,将以多人在线强社交泛娱乐模块为核心,以娱乐+生活的真实场景交互为拓展,探索XR/MR泛娱乐社交与MR场景化应用,满足年轻人的情感需求。同时融合XR/MR+AI技术,为用户打造泛娱乐生活搭子。在幻境线中,用户将不仅可以和真实或AI虚拟社交对象一起在游戏中升级打怪,畅享巨幕影院、VR演唱会、沉浸式戏剧、空间视频等内容,还可以实时获得诸如下厨、家务、办公、搭配等AI生活帮助。
幻境线将持续构建娱乐+生活协同的精细化场景,打造超越想象、娱乐化互动化的生活方式,通过有机融合XR+AI技术,创建充满想象力的空间环境,延展具有突破性的社交关系。生活中的吃喝玩乐、衣食住行,统统囊括,未来用户将和AI一起“生活”在幻境线中。返回搜狐,查看更多