今天,讲讲“千里眼”和“顺风耳”的故事

来源:互联网 时间:2022-05-30

为跟客户开半小时的会议,一整天都耗在路上;一个紧急电话,立即驱车数十公里赶往偏远的下辖矿区;月总、季总一到,分布在全国各地的同事就得定期飞回来,不仅鞍马劳顿,还要花费大量的差旅费……这些经历,应该是许多人的共同记忆。

视频会议的普及,给上述种种情况带来不少“福音”,但远程终究不是现场,视听和互动的感受,都会有所影响,在设备不达标的情况下,还会出现音画不同步、声音断断续续等一系列问题,沟通效率大打折扣。

让远程协作的用户体验和效率,尽可能和现场的一模一样,这是MAXHUB研发团队在开发V6系列会议平板时,所肩负的一大使命。

今天,一起探究这背后的故事。

像面对面一样交流,是音视频设备的本位价值

“让屏幕两端的交流感更真切,拥有接近于面对面讨论的逼真效果,我们认为音视频设备理应为用户带来这样的本位价值。”MAXHUB视觉研究负责人腾哥如此说道。

但当腾哥带领技术团队走访企业、深入调研的时候,看到的却是另外一番景象。

他们了解到很多中小型企业正在使用的视频会议工具,居然是“电脑+云视频会议软件”这样的组合,存在看不清、听不清和交互弱等一系列问题,很大程度上影响着沟通的效率和员工的积极性。而原因就是,一套专业级音视频设备的价格动辄几十万,他们没有这么多的预算用于部署。

腾哥也发现,就算是在MAXHUB所专注的会议平板行业,大部分产品的音视频功能还有所欠缺,视频会议的流畅性和清晰度,未能达到用户预期的效果。

“所以,我们想去改变这个现状,让大家用会议平板就能进行专业的视频会议。”腾哥补充道。

MAXHUB研发团队的期盼中,这不仅是能够解决视频会议现状的产品,更希望可以在行业中产生“鲶鱼效应”,激励上下游的厂商,共同来优化用户体验。

我们花费一年半时间,造出了这颗双摄

“看到这颗双摄了不,它是4800万像素广角与800万像素长焦双轴机械云台组合而成的一体化双摄,我们花了一年半的时间折腾出来的。单个镜头的时候,四五米远的人像放大后效果不太理想,所以我们加了一个长焦镜头,可以在人像特写的情况下,保证画面清晰度。”腾哥指了指位于MAXHUB V6科技版顶部的摄像机,自豪地介绍道。

可是,一体化双摄的研发过程,远远不像描述中的那么轻松。

腾哥带领的视觉研发团队要攻克的第一个难关,是如何把两颗镜头、精密的磁编码云台和众多零部件,高度集成在顶部边框中。最先采用的是潜望式结构,但得到的镜头组体积较大,显得有些突兀,影响整体的美观性。经过数十次推倒重来后,MAXHUB研发团队参考专业云台摄像机的架构进行重新设计,实现了如今兼顾美感和小体积的双摄方案。

随之而来的,是小体积导致的温升、转动精度问题。

该双摄采用4K级传输码率,且内部空间小,故此容易发热。为此,MAXHUB视觉研发团队自己搭建了全新的风道设计,并进行1000多次热学仿真实验,不断改进风道结构,让散热的效果实现最优化。

受整体体积影响,内置的微型电机较难把控转动的精度,基于此,研发团队自行设计电机的传动架构,以及采用高精度磁编码器,使得微型电机可以精准转动,让摄像头准确捕捉到相应的人像。

接下来的难点,便是如何让两颗镜头默契配合,达到1+1>2的成像效果。

“最大的挑战是,要让一颗ISP芯片操控双摄的图像处理能力,跟单摄是一样的,简单来说,就是当你的工作量变成双倍的时候,你要把它做得跟之前一样好。大家可能会有一个疑问,我们为什么不用两颗芯片?事实上,芯片增多后,它们之间的任务划分、数据交换和数据通信,都会损耗时间并产生热量,结果可能会适得其反。”腾哥这种化繁为简的解释,哪怕是视觉领域的技术小白,也能够快速理解到其中的关键所在。

为此,MAXHUB视觉研发团队设计了多套技术流方案来优化ISP芯片的系统架构和功能单元的运作流程,并进行大量的仿真计算,让ISP芯片的性能充分发挥出来,在工作量翻倍的情况下,依旧游刃有余。

“再分享一个小细节,我们主摄像头的可视角是92°,这是一个畸变、透视和解析力都极为均衡的黄金角。为了得到这个数值,我们基于微软Teams的标准,在82°到110°这个角度范围内反复进行了1500多场模拟测试,并邀请一些真实用户来现场对比成像效果。”

在腾哥看来,92°超广角镜头带来的实际体验感还是非常令人满意的,“镜头可视角调整后,视野范围比以前扩大了37.3%,成像的效果非常清晰,这样一来,我们在很小的会议室也能够进行多人视频,而大型讲厅更是可以轻松拍齐整个会场。”

小而美的外观结构、别出心裁的92°黄金角……这些背后藏着的,是MAXHUB视觉研发人员对用户的洞察及用心。

有了“千里眼”,就得有“顺风耳”来配

在视觉研发团队埋头攻克双摄技术难关的同时,以郑工为主导的声学研发团队,则在跟如何提升会议平板的音频处理能力较着劲。

“视频会议的时候,大家应该都体会过,对方会场讲的话传到你耳边掺杂着键盘声、关门声、咳嗽声等等噪音,而且有时候声音还会时大时小……这很影响效率。”解决这样的用户痛点,是郑工和他的团队在坚持的事情。

MAXHUB声学研发团队很早前就自研了AI降噪技术,让麦克风在收音的时候,可把常见的噪音都过滤掉。在开发新的麦克风模组时,为了再度优化AI降噪技术,他们旁听了超过600多场会议,收集了1000多个小时的录音,丰富了原有的音源数据库和声学模型体系。如今,MAXHUB的AI降噪技术可以过滤掉打字声、开关门声、空调低频振动声等各类噪音。

“其实,我们的AI降噪技术还有一个小缺点,它会把歌声也过滤掉,我们在这边唱歌的时候,对方能看到口型,但听不到歌声,这是因为当时没考虑到大家可能会在会议室唱歌。看,我们后续的研究课题又多了一个,期待大家以后用MAXHUB会议平板,来一次远程歌唱比赛。”郑工这句幽默的话语中,诠释的正是MAXHUB人不断发现问题、不断改善、不断探索的精神共识。

为了进一步打造极致音频体验,MAXHUB声学研发团队还引入了腾讯天籁实验室的领先技术,在MAXHUB V6音视频专业版上内置腾讯天籁inside音频模组,采用全新升级8阵列麦克风,从而实现180度广角、12米超清拾音,并基于深度学习模型智能消除超过300种噪声,确保多人讲话时每一个声音都能听得清、听得真。

“如果把我们的一体化双摄比作‘千里眼’的话,那我们的麦克风模组就是跟它绝配的‘顺风耳’。它们俩配合工作的原理也挺有趣的,讲话人在走动的情况下,摄像头和麦克风会联合定位说话人的位置,麦克风波束就能自动对准讲话人,拾音口就能一直正向收音,确保拾音效果是最好的,我们把这叫做声随影动。”郑工骄傲地讲解着研发团队带来的最新成果,当然,这不是因为技术有多么领先、多么独特,而是这些技术真的能为用户提供更好的产品体验和更高效的办公助力。

“千里眼”和“顺风耳”默契无间,再搭配上MAXHUB所擅长的云视频会议软件系统,一幅宛如同地的视频会议画面,就展示在眼前:双方的动作、表情和声音都清晰传递给彼此,ppt、设计稿等等会议文件,也能通过软件实时展示给对方,如果有哪个画面讲不清,我们就可以借助同步批注的功能,在这张图上圈圈画画,让对方快速锁定疑问的出处。

对用户来说,MAXHUB带来价值,是让组织间的远程协作也能同步沟通,就像现场交流一样高效,帮助减少出差的频率。对会议平板行业而言,希望MAXHUB的视频会议新技术能起到“灯塔效应”,为各大厂商带来新的探索方向和技术原型。

垂髫年华的MAXHUB,才刚刚出发,还很稚嫩,但这里有许许多多像上述两位工程师一样的满怀热忱和追逐梦想的人,用行动书写着MAXHUB的未来和诗歌。

相关文章

标签:

A5创业网 版权所有