电脑系统网-专业的系统软件下载基地!

当前位置:首页 > IT资讯 > 业界 > 详细页面

OPPO AI 中心产品总监张峻:多模态和个性化是将要深耕的方向

编辑:电脑系统网 2024-10-21 来源于:电脑系统网

2024 年 10 月 17 日,OPPO 在开发者大会上正式发布 ColorOS 15。ColorOS 15 以“超轻快、更舒适”为核心主题,重点提升流畅性AI、设计、易用性等方面。据悉,ColorOS 15 首次搭载 OPPO Find X8 和一加 13 并计划新产品 11 本月开始为旧型号提供正式版本升级。

当天下午,OPPO ColorOS 陈希和,设计总监 OPPO AI 中心产品总监张军接受了媒体采访,并与您交谈 ColorOS 15 和 AI 的问题。

在对话中,OPPO AI 中心产品总监张军明年分享 AI 发展的主要方向表示 OPPO 会在 AI 这方面带来了更多的惊喜。多模式和个性化是深度培育的方向,云协调将是关键结构。

“我们相信,在继续投资于这些领域后,它肯定会给用户带来更独特的体验。”张军进一步解释说,未来计算资源的紧密结合将尽可能放在端部,以提高安全性、实时性和用户体验。

在讨论流畅性优化的重度应用时,OPPO ColorOS 设计总监陈希回答说,系统级流畅性已经达到了相对较高的标准,下一个重点是应用程序的流畅性。

陈希表示,对于操作系统,要进一步优化长尾场景和日常精细体验,进入“微观竞争”阶段。例如,如何在各种长尾场景中保持体验的一致性和流畅性是未来竞争的维度之一。其次,从系统流畅到应用流畅,需要从芯片层到系统层进行深入优化。应用程序消耗系统资源,因此我们通过调度和优化底层芯片资源来提高应用程序的性能,如潮汐引擎。

据计算机系统网报道,ColorOS 15 全面优化了从底层到用户界面的流畅双引擎 —— 极光发动机和潮汐发动机。极光发动机引入了业内第一个并行绘制框架,使动画效果更加连贯流畅。潮汐发动机通过优化芯片级的性能,实现了流畅性和耐久性的双重提高。

至于潮汐发动机的技术优势是否可供其他制造商使用,陈说,潮汐发动机现在已经适用于高通和联发科的双平台。未来,该技术将成为该行业的标准,因为竞争已经到了这个阶段。也许我们今天领先,其他人明天会重复,所以保持领先的速度和质量是关键。

在此次 OPPO 在开发者大会上,OPPO 还提出了 AIOS 开发的三个阶段:系统应用的第一阶段 AI 化(AI for System),系统的第二阶段 AI 化(System for AI),再到第三阶段 AI 即系统(AI as System)。

基于上述概念,ColorOS 15 引入高效的系统级别 AI,包括全新的“超级小布助手”,支持一键问屏、一拍即问、一圈即搜、图片问答、文档问答等多种互动方式。另外,系统级 AI 感知和调度能力,ColorOS 15 在自有应用和三方应用之间实现生态握手,包括英语陪练、求职面试、旅游策略、美食点评等。

谈到这个话题,张军说,OS 是 AI 手机的重要组成部分,AIOS 应用程序有三个阶段 AI 化、系统 AI 化、AI 即系统。AI 它不再是一个单点功能,而是一个深度集成的系统级体验。例如,我们推出的“一键问屏”功能需要多模态交互的集成 —— 不仅要“看”,还要“听”,然后根据用户的语音和视觉反馈做出反应。这背后需要 AI 平台资源的调度与整合体现了系统级 AI 化。

OS 对于 AI 手机的硬件也会有一定的要求,因为这种多模式交互需要更多的感知能力和对端计算能力来提出新的硬件需求。因此,在硬件方面,传感器的布局和芯片平台都将进行相应的升级,以支持系统级别 AI 功能。

今年来,AI 重建系统已成为手机制造商的重点,但重建系统已成为手机制造商的重点 AI 重构系统的差异化和门槛在哪里?

针对这个问题,张军说,OPPO 通过 SenseNow 框架实现了“边看边说”的功能。从表面上看,这只是一个微妙的体验改进,但背后的技术路径却完全不同。传统 AI 交互通常是单一的 —— 要么“看”,要么“说”,但我们的一键问屏功能可以边看边说,实现同步多模态交互。这意味着用户可以在浏览内容时立即询问或发出指令,AI 不再需要用户在不同模式之间来回切换操作,可以实时响应。

在实现这一点的背后,有复杂的分流决策和信息集成理解技术。系统需要同时处理视觉信息和语音指令等多种输入源,然后协同处理。我们的目标是让 AI 像真人助理一样,助理可以“边看边说,边做”,这种无缝体验涉及到相当高的技术门槛。

计算机系统网了解到,在这次开发者大会上,OPPO 全新推出 SenseNow 实现多模态直觉交互体验的智能框架。该框架集成了自主研发的语音多级唤醒和个性化识别技术,实现了语音唤醒和识别准确性 97% 以上。多模态理解技术让 AI 有能力看,有支持 1000 各种主题识别,并实现图文混合检索。生成式语音合成框架 AI 能够模拟真人的语气和节奏,支持超过 20 个性化音色。SenseNow 智能框架还集成了不同类型的信息源,理解了复杂的意图,完成了跨应用操作。

陈希补充说,OPPO 提出了一个 AI 概念,被称为“直觉、整合、专属、安全”四大核心要素。其中,今天我们特别强调“直觉”和“整合”。直觉是指系统越来越像人类,具有类似人类的感知能力,使互动自然拟人化。整合是指将每个模式的信息和交互集成在一起,而不是在一个模式完成后简单地切换到另一个模式。例如,在今天的新闻发布会上显示的“一键问屏”,用户似乎只说了一句话,但背后 AI 为了完成用户的意图,系统需要进行许多隐含的前提理解和推理。

整合是我们强调的核心困难之一。机器不像人类那样自然地理解场景和意图。它需要大量的条件来定义和判断。我们做了大量的投资,使这些多模态交互和集成最终能够展现在用户面前 AI 重构系统的重要组成部分。

广告声明:文本中包含的外部跳转链接(包括不限于超链接、二维码、密码等形式)用于传递更多信息,节省选择时间。结果仅供参考。计算机系统网络上的所有文章都包含了本声明。

相关信息