用ChatGPT做直播技术选型

企业该如何选型2B的即时通讯/直播产品?

摘要

近两年即时通讯/直播产品炙手可热,市场上针对ToB的产品日益增多,企业该如何去选型呢?本文分享了笔者对于直播产品的思考,将从直播SDK实例功能特性、常见业务场景、注意事项及最佳实践等方面介绍如何进行实例选型,旨在帮助您了解应如何结合实际业务场景选购音视频产品。

前言

近期,ChatGPT火遍全球,作为冲浪第一线的开发者可不能错过。刚好在做“音视频技术选型”的调研,不如找ChatGPT来聊聊,看看它怎么回答?

broken image

 

在同质化竞争如此激烈的今天,虽然各厂商都有自己的差异化优势,但开发者在选型时并没有识别或对比出差异,要想实现直播产品稳定使用的目的,在直播选型的时候有个好的开始是非常必要的。相信很多企业或团队在选型时面临过以下问题

  • 各家厂商直播SDK差异都有哪些?
  • 什么样的直播SDK才适合自己的企业或团队?
  • 直播SDK接入之后的落地情况怎么样?

下面结合企业立场来推导直播SDK产品选型的核心要素,以市面上几家厂商为例便于大家更全面的对比权衡,希望对面临选型的开发者有所帮助。

实例选型分析过程如下图所示:

broken image

一、自研还是第三方服务?

对于开发者来说,开发一款产品首先面临的第一个选择就是:自研还是使用第三方音视频服务?目前大部分专注于业务的公司都会使用第三方音视频服务,少部分大厂后期会选择自主研发。特别一些技术门槛高、行业专业度高的模块还是会采购第三方音视频服务,例:强互动性的多人实时连麦。

自主研发与使用第三方音视频服务优缺点如下:

broken image

 

综上,若处于业务早期初创开发团队,要求快速上线、专注业务、同时业务方向不稳定,同时业务方向为社交娱乐、远程办公、在线教育等常规类应用,建议选择第三方音视频SDK快速集成。

第三方直播SDK服务的价值在于:为开发者提供实现音视频能力的一站式技术方案,目的在于可以降低 App 开发的技术门槛、人力和研发成本、提升开发效率。

下面我将针对“如何选型一款好的直播SDK”展开聊聊,分享选型的方法和避坑经验。

二、如何选型?

音视频技术可以赋能上百种应用场景,开发者该如何选择最友好的音视频厂商成为一大课题,开发者需要了解实时音视频技术选型中的坑,以便提高开发集成效率。可从以下6个方向进行综合考虑。

选大厂还是垂直领域的音视频厂商?

云计算大厂一般都提供laas到paas、saas的整体服务,在销售laas服务时搭配音视频服务。产品生态较丰富,不仅音视频能力,还有CDN、推送、测试等服务,提供一整套从laas到paas的服务,开发者可一站式采购较为省事。

垂直厂商因经验积累、技术专注、研发实力全部all in在音视频赛道。故优势在于:更聚焦通讯和视频云,更注重PaaS平台本身的服务,提供更专业的一体化产品与服务。比如:垂直厂商即构去年发布了Express SDK3.0&星图,由实时通讯RTC全面升级成实时互动RTI,实现了能力与服务的新跨越。画质、音质增益更显著,终端客户体验全面升级、场景适用更多元丰富...

RTI代表一切实时互动场景下所需的产品和技术能力综合,包含RTC+IM+直播+Avatar+AI+状态同步等,更强调互动。适用于元宇宙、社交娱乐、办公会议、电商直播、游戏竞技等场景,满足开发者快速搭建对应场景的音视频应用,实现业务快速增长。

云计算大厂跟垂直音视频厂商各有优势,开发者可结合实际业务需求从技术、产品、服务等多个维度综合考虑。

三、好的SDK的衡量标准?

基于多年的音视频开发经验以及结合身边开发者的反馈,音视频SDK的产品核心功能是选型的关键,以下有一份功能自检清单。

一个好的 SDK 的衡量标准有以下几点:产品功能生态完整性,技术指标相对强弱,解决方案成熟度,成功案例/合作客户数等。

四、产品功能生态的完整性

第一步开发者需明确:需应用在什么业务场景?核心实现什么能力?

音视频在各行各业的应用越来越广泛,成为互联网产品的标配。有大家熟知的消费互联网领域,近几年疫情带来的远程交流协作的需求,使实时音视频在产业互联网场景加速渗透。比如:远程交流、协作,企业数字化与工业数字化场景...

随着音视频技术迅速发展,除基础音视频能力外各大厂商推出多种新颖玩法。下面列举主流场景中所需的音视频能力要求,按基础、进阶、特色三个维度进行分类,便于开发者查阅。

社交娱乐场景

消费互联网领域是音视频技术渗透最广泛的场景,音视频功能成为社交娱乐产品的标配。

社交娱乐领域的场景含:语聊房、在线KTV、秀场直播、社交小游戏等,将社交娱乐所需功能分为:基础功能、进阶功能、特色功能。市面上的SDK基本都覆盖了基础功能,随着社交娱乐场景的发展,对互动/玩法上衍生了更多要求。如在线K歌场景需正版曲库,秀场直播场景更看重主播与用户之间的互动,实时消息,送礼物,VIP用户权益等。

broken image

在线教育场景

在线教育领域的场景含:职业教育、K12教育、素质教育、学历考试等,在线教育场景因比较成熟,各细分场景的功能要求也比较相似,围绕着老师与学生在教学过程中的互动,丰富课堂内容提升教学质量。如屏幕共享、超级白板等功能。

broken image

元宇宙场景

随着互动技术矩阵逐渐完善,沉浸式体验升级,音视频向元宇宙进阶。

虚拟形象、虚拟直播、虚拟语聊等元宇宙新场景,对实时音视频互动也提出了更高要求,要求更低的延迟和音视频交互质量,为用户提供更沉浸式的使用体验。

broken image

五、技术指标强弱

技术指标的强弱直接影响后续的开发成本和用户体验,所以在做音视频选型时需关注三类特性指标,体验指标、底层技术指标、其他指标。

不同应用场景对核心特性指标的要求不同,主要体现在用户对实时性、互动性两大消费习惯。培训直播要求双向互动,延时秒级即可。互动直播PK连麦则超过两个用户间的互动,时延要求更严格毫秒级别。

图例:音视频应用场景对实时性和互动性的要求

broken image

核心特性指标:

  • 体验指标:端到端延迟、流畅度、音画质量、首帧耗时
  • 底层技术指标:抗丢包率、3A处理、网络传输、CPU内存占有率
  • 其他指标:包体积大小、单房间容量

以音视频厂商声网、即构为例,指标数值来自各厂家官网链接

broken image

通过调研发现,用户最不能接受实时音视频的三个质量问题是延迟大、卡顿明显、画质差。我们测评了即构、声网的端到端延迟、流畅度和清晰度,对比分析如下:

流畅度、清晰度: 在同一网络和同一设备下测试,在视频画质方面,个人主观感知清晰度是差不多的,延时层面均感受不到明显延迟,而在和wifi隔一段距离的弱网情况下,受限网络各服务商的清晰度流畅度都略有下降,在整体感观上即构表现好一些。

六、解决方案成熟度

技术选型的关键点还在于:解决方案的成熟度,方案越成熟后续开发越省力,对开发者越友好。成熟度主要从以下三个方向:方案拓展性、场景覆盖、头部客户。

  • 方案易用性和拓展性:接入流程是否简单?拓展性是否够强?生态化是否好?是否提供全面友好的第三方开发者支持?
  • 场景覆盖:是否可以全场景覆盖,是否按场景提供核心功能,音视频质量是否根据不同场景进行优化
  • 头部客户:是否有行业头部大客户?是否有企业级APP接入实战经验?是否提供全流程服务?

6.1 方案易用性和拓展性

方案接入流程的快慢决定着业务是否可快速上线抢占市场,这就要求SDK的模块设计简洁清晰、有完备的注释、和不同规格的说明。市面上的音视频SDK接入流程通常有以下3步,1.获取APP ID,2.集成SDK,3.实现音视频功能。如下图:

厂商通用接入流程:

broken image

即构和声网的详细接入流程

broken image

声网&即构音视频通话时序图如下

PS:图片来自各厂商官网

broken image
broken image

通过实战接入了即构跟声网sdk,两家厂商接入流程差异不大各有优势,总结如下:

  • 证书鉴权方面: agroa在加入频道时,必须要携带token进行验证;而zego如果需要token校验的话,在ZegoRoomConfig进行配置即可,这样的处理更加人性化,方便开发者快速集成和测试
  • 音视频流概念上: zego和agroa本身其实都具有流的概念,只是zego会把流的概念也抛给客户,而agroa是将流的概念以一种隐式的概念存在于API中,不直接向用户抛出流的概念,概念上agroa的SDK会比较人性化,比较好理解。而清楚了即构流概念后,对音视频场景的搭建在技术架构的理解上更加透彻。
  • 推拉流概念上: agroa加入频道时默认自动推拉流,因为没有抛出流的概念,在同一个频道的其他用户都会被以uid作为唯一标识拉流,而zego登陆房间后进行手动拉流,抛出流的概念直接对单条流进行控制;在逻辑上扩展性更高,在完成复杂业务逻辑时也更加方便。

厂商的产品架构决定了其方案的拓展性,拓展性强的方案可以提升开发效率,节约开发成本。开发者在选型需关注厂商的产品架构,上下游生态链。目前领先的实时互动云服务厂商声网和即构有都有较完整的产品架构和健全的上下游生态链,通过提供丰富的实时互动API、功能组件及插件等,帮助开发者及企业客户轻松搭建各类实时互动场景应用。

如以下产品架构图看,声网和即构以RTC Paas为核心业务,并逐步拓展构建音视频产品矩阵。第三方生态建设上看,即构提供:AI 视觉、内容审核、第三方云厂商、语音转文字、正版版权音乐等服务,声网通过云市场提供:视频特效、语音转文字、内容审核等插件。

即构和声网的产品架构图

broken image
broken image

6.2 场景覆盖和头部用户

解决方案成熟度还需考虑应用场景拓展和头部客户覆盖,随着音视频的迅猛发展,实时音视频已在各行各业有所应用。同时也对音视频厂商提出了更高的要求,如何降低搭建场景化应用的门槛,助力开发者快速搭建实时互动场景的应用。

以即构为例,即构提供灵活、即接即用的模块化产品组合,以及快速、可视化、低代码的接入方案,开发者/企业可根据实际业务场景需求进行灵活组合。正因如此,即构赋能泛娱乐、在线教育、视频会议、游戏竞技、远程医疗、物联网IOT、线上金融、政企服务等二十余行业赛道的100多种场景。

声网行业场景覆盖

broken image

即构行业场景覆盖

broken image
broken image

 

社交娱乐场景

broken image

在线教育场景

broken image

随着实时音视频的发展,人们对于实时互动的要求越来越高,不再满足于基本的交流通讯。音视频技术的发展演变使得实时互动在实时性、沉浸式上的表现不断提升,为元宇宙带来了更多想象空间。

元宇宙 虚拟世界场景

通过官网对比各厂商的元宇宙解决方案,即构的元宇宙布局更深入,投入大量技术资源自研Avatar虚拟形象、Meta World虚拟世界两大虚拟产品,结合即构强大的音视频技术,可帮助开发者快速落地多人元宇宙场景。

broken image

即构元宇宙解决方案(来自即构官网https://www.zego.im/

broken image

 

broken image

七、使用成本

因各大厂商直播SDK计费模式较多且差异不大,下边列举部分直播SDK厂商的报价供参考,大家可根据业务需求进行选择。同时提供厂商官方地址,有任何价格相关疑问可直接咨询官方。

阿里云

CDN直播

1、按量后付费模式

1.1 按使用流量计费

按不同区域使用的流量阶梯价格计费,当月分别超额累进(以自然月为一个累计周期,下个月自动清零重新累积)。定价受区域和带宽阶梯影响。

broken image

1.2 按峰值带宽计费

以当日您直播观看区域所在节点,直播加速服务分别产生的带宽最高值(单位Mbps)为结算标准。定价受区域和带宽阶梯影响。

broken image

即构 科技

官网网址:<https://www.zego.im/>

免费额度:每月免费使用10000分钟,不超过完全免费,超过部分单独计算:

优惠活动:常规优惠为官网报价的5%-15%,赶上大促部分产品折扣力度非常大低至1折起,亲测购买音视频产品组合套餐包更划算。 即构七周年大促

值得一提的是,即构的官网自助服务流程体验最好,也是目前唯一开通自助服务全流程的音视频厂商,实现了开发者SDK集成闭环流程,从服务配置到账户充值以及账号查询,皆可在即构官网在线自助完成,大大提升开发者开发效率。比如服务配置环节,自助开通秒级生效。账户充值支持使用微信、支付宝、网银等在线充值。合同签署可线上完成。

1.实时音视频 RTC

用量统计方式:按照用户实际拉取音视频流的时长来统计实时音视频服务的用量。

broken image

为便于开发者更好的理解计费模式,即构官网贴上对应产品的计费示例:

计费示例: 即构实时音视频RTC

以多路视频互动房间为例 https://doc-zh.zego.im/article/8666

2.CDN直播

用量统计方式:CDN 目前默认为后付费按量计费,并提供两种计费类型:带宽计费和流量计费,您可根据自身业务形态,选择适合的计费模式。

broken image

计费示例

音视频产品根据延迟性分为实时音视频RTC、低延迟直播和CDN直播,直播场景中直播连麦/PK玩法对互动同步性要求高,一般使用实时音视频RTC能力。音视频厂商实时音视频RTC长距离端对端传输时延平均 300ms~400ms左右,即构实时音视频RTC做到了端到端时延最低79ms,媲美现实的音视频体验。

直播场景中观众大规模并发一般使用CDN直播,格子各厂商CDN直播延迟较大在3S左右、抗弱网能力差容易卡顿。

基于此,即构推出超低延迟直播产品,延续了实时音视频的质量优势,复用了即构的海量数据分发网络和自研传输协议,最高可抗80%丢包,并实现了600ms的延迟,适用于电商直播、网络较差的出海音视频等场景。

3.超低延迟直播

用量统计方式:目前默认为后付费按量计费,按照用户实际拉取音视频流的时长来统计超低延迟直播服务的用量。

服务定价

broken image

计费示例:

即构超低延迟直播 https://doc-zh.zego.im/article/14712

声网

官网网址:https://www.agora.io/

1.融合CDN直播

流量阶梯单价:下表列出各个流量阶梯下每个地区的流量单价,价格单位:元/GB。

broken image

2.实时音视频

声网音视频时长用量的单价如下:

broken image

网易云信

官网地址:https://netease.im

直播服务计费项由两部分组成:日峰值带宽费+增值服务费(可选)

1.普通直播

broken image

2.实时音视频

计费单价根据单个用户订阅的集合分辨率来计算,集合分辨率指用户订阅的所有视频流的分辨率之和。更多计费单价相关介绍请参考资费说明

broken image

结语

用ChatGPT的回答来结束这篇文章吧。ChatGPT建议为了选型适合的实时音视频/直播SDK,开发者首先:需明确业务应用的需求,确定功能和性能指标的需求。其次调研市场上可用的直播SDK并进行功能、性能等特性的评估对比,最好能亲自使用测试用例进行验证确保所选音视频SDK满足其需求。

文中提到的厂商都有免费试用额度供开发者测试,感兴趣的可自行到官网咨询。

转自:我用ChatGPT做直播技术选型,卷死了同事,https://zhuanlan.zhihu.com/p/608070909