产品中心
m6米乐网页版:用抖音同款视频能力这一些行业找到了新的增长密码
产品名称:

用抖音同款视频能力这一些行业找到了新的增长密码

来源:m6米乐网页版    发布时间:2024-04-30 13:58:51

看 2022 年的卡塔尔世界杯,抖音的超低延时转播让人印象深刻。老球迷应该都有印象,之前观看世界

  看 2022 年的卡塔尔世界杯,抖音的超低延时转播让人印象深刻。老球迷应该都有印象,之前观看世界杯直播,网络和电视之间会有数秒甚至十多秒的延时——有些时候网络直播里球员还在传球,电视机前的朋友就慢慢的开始欢呼进球。

  2022 年卡塔尔世界杯上,抖音首次在体育赛事中引入了 RTM(Real Time Media,低延时直播)技术。这是一种新型的直播解决方案,其网络传输层是基于 WebRTC 技术(RTP/RTCP 协议),相比传统的直播技术,能轻松实现端到端延时达到 1 秒级别,卡顿也更小。

  从「5 秒+」到「1 秒内」,熬夜看球的体验有了明显的提升,比如发社交平台、微博的速度,手机上看球的球迷再也不会永远「慢人一拍」。

  人类的娱乐需求推动技术进步,技术进步反过来又会推动别的行业的发展,视频技术也不会例外。近两年,字节跳动将这些为视频直播构建的技术能力,通过旗下的火山引擎视频云开放给视频传媒以外的其他行业。

  「1 秒内」的超低延时直播技术、抖音的超高清直播、PICO 的 VR 看球——这些世界杯上用到的更高清、更交互、更沉浸的视频技术,在更多赛道找到了自己的用武之地。

  近两年智能驾驶发展迅速,但要用人工智能替代人工驾驶,始终有几个要解决的痛点。

  运人和运物是智能驾驶的两大主要场景,其中运人出于安全性的考虑,无人驾驶的落地相对谨慎。相比之下,运物场景下的无人驾驶发展更快,美团、京东等线上零售平台和物流公司,已经在探索用无人车解决物流配送最后一公里的难题。

  但物流无人车要投入商用,必须要解决远程监控和平行驾驶的问题。让运营人员或云端系统能随时监控车辆状态,并在有必要的时候快速远程介入,避免造成交通事故。这就需要引入实时图像传输技术,但过去的技术存在几个痛点。

  延时。传统的视频传输存在数秒的延时,这在大多数直播场景中影响有限,但在分秒必争的车辆行驶过程中是致命伤。

  成本。流视频的实时传输是一笔不小的带宽成本,物流是低毛利行业,无法负担高额的网络传输成本。

  可靠性。车辆驾驶过程中,一个不留神就会导致事故的发生,不论是视频传输到中控还是将指令下达车端,卡顿丢包都可能会酿成严重的后果。

  火山引擎视频云将技术能力开放后,他们找到了无人驾驶 AI 公司毫末智行,一起探索将视频云的技术能力应用到远程车辆运营平台。

  双方通过在车机场景引入采集编码传输优化、多网卡传输策略、车牌人脸脱敏 AI 算法等技术,为远程监控和平行驾驶场景的音视频和信令传输提供超低延时、稳定可靠、安全合规的解决方案,应用于远程监控(哨兵模式)、远程辅助泊车、远程应急接管等场景。

  视频平台的兴起,加上编解码、视频制作等技术的发展,构建视频能力的技术门槛已经大为降低。依托抖音平台多年来积累的音视频技术能力构建的火山引擎视频云,其给行业用户最大的价值,是帮助各行各业打造面向使用者真实的体验的视频能力,提升使用者真实的体验进而提升业务效率,从而促成业务增长。

  金融也是一个典型的行业场景。金融是一个高度依赖营销的行业,近年来随视频这种新媒体形式的加快速度进行发展,金融从业者需要快速适应时代变化并转移自己的营销阵地。

  但金融行业在利用直播、短视频营销时,遇到了两个痛点。第一是内容供给上,相比过去的文字、图文的宣传媒介,视频和直播的制作门槛更高;第二是审核层面,由于金融营销存在各种合规性问题,发出的内容需要经过合规性的审核,但相比文字审核视频审核的工作量提升了数十倍,几乎没办法通过人工或者过去的机器审核技术来完成。

  对此,火山引擎视频云结合智能创作云,帮助国信证券打造了一系列面向最终客户的视频产品。内容供给上,引入智能创作云的文生视频工具,只需输入一段简单的文字新闻就能生成视频内容;金融审核上,火山引擎视频云基于直播平台,结合 AI 图像识别、语义检测等能力输出了完整的全链路金融审核方案。

  除了汽车和金融,火山引擎视频还将技术引入云游戏、VR/AR、语音房等泛娱乐场景,比如将弹幕技术与云游戏结合,开发出「弹幕互动」的游戏直播新玩法,为直播平台创造出新的内容增量。此外,视频云还将技术能力运用到了教育、营销、办公等 B 端场景,帮助这些不一样的行业的用户打造了各种不同的应用解决方案。

  字节跳动从 2013 年开始做视频技术的积累和沉淀,最初是用于今日头条。2016 年抖音开始孵化,加上同样需要视频技术的飞书、西瓜和头条等产品,为了服务不同的业务线,字节跳动加大了视频技术的研发投入,并以中台的形式组织和调度。这是火山引擎视频云的前身。

  2020 年火山引擎开始孵化。视频云作为第一批商业化拓展的产品线,第一个客户是懂球帝,后者当时正在尝试社区的视频化转型和升级。这也让刚刚走出字节体系的火山引擎视频云技术团队,一起打磨和完成了覆盖直播、点播和图片处理的全链路音视频解决方案。

  2021 年和 2022 年,视频云开始规模化的拓展市场,咪咕、移动视频、虎牙、央视频等先后成为视频云的客户。2021 年底视频云支持罗振宇的《时间的朋友》跨年演讲直播,在提供了高稳定性、高处理性能的视频点直播服务的同时,超大规模的观看量也让视频云完成了一次重要的「压力测试」。

  之后就是 2022 年的世界杯,火山引擎视频云累计支持了 106 亿人次直播观看的技术上的支持,还抗住了世界杯决赛 2.3 亿观看人次这样的峰值压力。同时世界杯期间引入的 RTM 超低延时等新技术,和边看边聊等场景创新,这些规模化的服务能力被沉淀到视频云产品里。

  2023 年,视频云开始了新的尝试,将客户从流媒体行业向更多行业开拓,上文提到的汽车、金融案例就是这种新尝试的部分成果。火山引擎视频云透露,目前其行业客户已超越千家。根据 2023 年 4 月 IDC 发布的视频云行业追踪报告,火山引擎视频云在解决方案领域进入 Top 5。

  依托过去 10 年的实践和沉淀,今天火山引擎视频云已经构建出了一个完整的音视频产品服务矩阵。

  如上图所示,整个产品矩阵的底座基石是其自研异构算力平台,包括基于 AI 大模型的智能生产和解决能力,以及全球部署的传输网络和在抖音沉淀的亿级多媒体处理框架。

  在这之上,打造了集视频直播、视频点播&智能处理、实时音视频、图片处理、企业直播、云游戏、云手机、慢直播等一站式音视频产品服务,能够在一定程度上帮助企业快速集成端到端的视频服务能力。

  最后面对各行各业的多样性,在解决方案层面,不仅推出了通用的云端一体解决方案 veVOS;还基于行业实践,把视频能力与业务形态、场景需求融合,在营销、知识传递、商业链接和拓展等企业的业务场景进行体验创新,沉淀了一系列的行业场景化方案。

  火山引擎不是第一个做端到端视频解决方案的云服务商,对于火山引擎视频云的优势,火山引擎视频云负责人 Yongyuan 告诉极客公园,是抖音等亿级 DAU 产品的大规模应用实践,沉淀给火山引擎的技术和产品资产。

  「我们内部大规模的视频应用场景,给我们的技术和产品提供了练兵场,这些在内部是验证过,只要标准化应用到客户场景里,会比其他视频云做产品和技术孵化的过程中更有优势。」

  大规模应用还带来了规模化优势。每天庞大的视频内容消费量,使视频云更有动力研究降本方法,包括自研编解码芯片、投入几百个博士做编解码、研究算力调度方案、AI 算法、传输协议、视频标准的制订等,今天视频云已经应用了多种技术降本方案,其中大多数都是小规模的应用团队需要但无力投入自研的技术能力,而通过火山引擎视频云对外提供,后者也是希望借此推动行业的视频化进程。

  此外,抖音对于技术指标和业务的理解,以及其内部实践积累的方法论,也是视频云的重要优势。在抖音内部的业务实践中,会将技术指标和业务指标做一一对应,比如分析视频明亮度和用户留存的关系、主播口播时长与带货转化率的关联……

  抖音在打造用户粘性上的成功,靠的是实验而不是经验,视频云也将这些多年积累的数据分析经验和方法论沉淀到了客户解决方案当中,帮助客户打造更好的面向最终使用者真实的体验的视频解决方案。

  日活达到 6 亿的抖音,还在继续探索音视频技术的可能性,并通过火山引擎视频云这个出口,将新的技术不断外溢到千行百业。

  目前,视频云有三个较为重要的视频技术方向:异构算力、3D 视频(VR/AR)和 AI。

  前面提到,为了服务内外部客户,火山引擎已经建立起了一个庞大的异构算力平台,其中既有通用的 CPU、GPU,也有自研的视频编解码专用芯片、ARM 服务器集群等自研产品。

  通用芯片足以满足大多数普通人甚至小规模的视频应用平台的算力需求。但对需要支持抖音和外部客户的火山引擎视频云来说,自研芯片从而用软硬结合的方式来完成视频处理等计算工作,为更多大算力要求的场景来提供支持。所以从三四年前,字节跳动的视频中台团队就开始研究将抖音的视频编解码能力硬件化。

  最初,视频云尝试将算法能力固化到 FPGA,从而验证了这种思路的可行性。但 FPGA 的成本依然高昂,所以在思路验证完后,视频云技术团队开始自研芯片,于 2022 年底完成初代芯片的成功流片,并计划会在未来 12 个月到 18 个月迭代一次,从而满足字节跳动内部和外部的处理用量需求。

  据悉,这款自研的视频编码处理芯片,能支持 HDR 和 8K 转码。相对于 x265 medium 档位,具有 35%-50% 的编码效率提升。由于其超高的算力密度和低成本,能对大量/甚至全量的点播/直播视频使用高质量的转码以此来降低业务带宽成本并提升使用者真实的体验和业务指标(使用时长、留存等);另外在实时的场景,ASIC 方案有更低的转码延时,以此来降低端到端延时,提升用户体验。

  除了视频编码芯片,火山引擎视频云还自研了一款高密度 ARM 阵列服务器。在转码场景相比 x86 资源能节约超过 40% 的成本,在云游戏、云手机、云测试等场景,也都能提供高性价比的算力。

  自研芯片更多是对已有的视频场景降本增效,VR/AR 和 AI则代表了火山引擎视频对新技术的探索方向。

  2021 年以后,火山引擎视频云加快了对 3D 和 VR/AR 视频技术的探索。其中 8K 360° VR 直播全链路解决方案,去年至今大范围的应用于字节内外部的应用场景,落地案例包括企业新品发布会、文旅项目、Asoul 虚拟偶像演唱会、世界杯赛事直播、PICO VR 直播间等

  AI 则是另一个重要的技术方向。事实上,在这波大模型热开始前,视频云一直在探索利用 AI 和模型来处理视频,探索方向包括 AI 视频修复、编解码等场景。抖音庞大的业务体量决定了其一定要使用技术方案来处理各类视频需求,而不能靠人工解决。

  结合火山引擎智能创作云的 AIGC 能力,火山引擎视频云在商品营销、互动娱乐、在线教育、数字金融、智能驾驶等场景引入了数字人、虚拟直播间等 AIGC 能力,助力企业降本增效、提升使用者真实的体验。近期,火山引擎视频云还首次将自研的 AIGC 视觉模型应用于老片修复场景,对经典老片做全面的画质提升。

  火山引擎智能创作云负责人廖谦介绍,智能创作云已经为近千家公司可以提供了从脚本创意、视频制作、内容发布和数据回馈的完整 AI 能力,大幅度降低了企业和商家的视频使用门槛。未来,智能创作云还将持续探索 AIGC 脚本撰写、文生图、批量海报制作、数字人分身等多项能力。

  AIGC 这波热潮,对年轻的云服务商火山引擎来说,也是一场十年难得一遇的机遇。左手是中国最大最优质视频资源的抖音、右手是过去数年积累的 AI 视频场景实践,火山引擎有了「钉子」,也有了做出「好锤子」的养料,俨然是这场视频 AI 竞赛的「种子选手」。