游览时,想在社交渠道发布一支精美的游览 vlog,摄影编排需求花费多长时间?

20 分钟?一小时?半天?

火山引擎算法工程师眼里,或许 1 分钟都用不了,因为会有 AI 替你完成。

没错,火山引擎近期推出了一款「构思互动 vlog」产品,你只需求在进入景区时注册授权,AI 就会帮你摄影玩耍中的精彩画面,主动编排成游览 vlog。

全程无需自己着手,无需操心挑选摄影地点,无需请他人帮忙摄影,甚至玩耍时不必掏出手机或相机,也不必纠结修图美颜,你只需仔细享受这段经历,还没出大门,就能取得一条能够直接颤栗音的视频。

「构思互动 vlog」前不久在 2023 春季火山引擎 FORCE 原动力大会正式发布,现在已在国内各地多个景区上线。

这款产品的背后,是一支奔着各大游览景区到处跑的字节内部创业团队。

不到1分钟,帮你剪完旅行vlog,火山引擎全新 AI「神器」真的这么绝?

拿着「锤子」的算法工程师,遇见找到「钉子」的产品

2022 年初,火山引擎算法工程师容荣研讨出了这样一项技能:

「在特定的场景里布置一些不同机位的摄影设备,用图像辨认找到场景里的人,配上专业视频编导规划的模版,就能够主动把这个人的影像剪成视频。」

那么,这个「特定的场景」应该是什么场景呢?

和一切的技能创业者一样,容荣拿着这个技能的「锤子」,开始寻找运用场景的「钉子」。

她先想到的是儿童兴趣班,比如一些练习组织提供的轮滑课、舞蹈课等场景,摄影孩子们高兴学习的视频。

但容荣很快发现,这类练习组织商场零星、没有规模化,很难找到合适的客户来落地。

不久之后,火山引擎 AI 产品解决方案同学孟兰发现:

「将抖音的 AI 技能和文游览业结合,合作抖音渠道的优势,用 AI 来做游览视频。」

而视频规划团队也期望有创新的视频生产办法。团队一拍即合,承认了这种 AI为景区游客摄影编排 vlog 的落地办法,随即组成了一个包括算法、研制、产品、规划、编导、出售等不同角色在内的跨部门内部创业团队。

为了锁定奔驰的滑雪者,算法工程师自己规划滑雪服

孟兰说,to B 项目的落地需求边做产品、边找早期客户,针对早期客户的场景做优化,不至于凭空捏造。「构思互动 vlog」产品的一个重要的早期客户是一家滑雪场。和这家滑雪场的磨合中,技能团队完成了大量迭代。

其中首要的技能问题是,当景区的摄影设备拍下了许多视频后,如何把同一个人的部分找出来?

容荣先想到的是用图像辨认结合 RFID 的方案。

RFID 全称 Radio Frequency Identification,译名射频辨认。就像门禁卡一样,在一个专门的 RFID 手环上绑定游客信息,那么无论他走到哪里,刷一下卡,体系就能认出他是谁。

不到1分钟,帮你剪完旅行vlog,火山引擎全新 AI「神器」真的这么绝?

但团队去景区出差之后才发现,这种方案实在太复杂了:景区作业人员需求先把手环发给游客,然后游客绑定自己的身份,玩耍完毕后还要统一收回手环。并且手环的成本比较高,这种办法又费事、又昂贵。

所以,容荣决议改方案,保留图像辨认的部分,删去 RFID 手环,而是在景区设置可交互的大屏幕,提示用户面向屏幕做一些比心、浅笑、竖起大拇指、叉腰之类的表情动作。这种方案既能够凭借用户姿势来承认身份,又能够添加特效、美颜等作用。

针对滑雪场景,容荣也做了许多优化。因为需求人物滑雪的相片作为模型练习的数据集,她拉着工位旁边的几位同学跑到字节跳动深圳湾作业楼下,穿着厚厚的滑雪服摄影相片;后来还有同学联系到了一家滑雪俱乐部,请专业人士用更标准的姿势来摄影。

不过,有了练习数据,想精确地辨识人物依然有困难。

一是滑雪自身便是高速运动,容易拍不清楚;二是滑雪场有时风大雪大、阳光欠好,视频会更含糊;三是雪道很长,摄影设备许多,想要在不同摄影设备摄影的视频中找到同一个人,是一个技能上很难的问题。

为此,容荣干脆自己规划了一款新的滑雪服:

在胸前、膀子等部位放置特定的编号,滑雪游客租借带有编号的滑雪服,算法只需辨认出编号,就能知道是哪位游客了。

不到1分钟,帮你剪完旅行vlog,火山引擎全新 AI「神器」真的这么绝?

这样,结合姿势特征与滑雪服上的编号,运用「多模态聚类算法」就能精确的找到特定的游客。

不到1分钟,帮你剪完旅行vlog,火山引擎全新 AI「神器」真的这么绝?

过山车跑的那么快,如何决议剪哪一段?

“其实咱们一开始不想做滑雪场景,因为蹭的一下就划过去了,速度太快,人群也很密布,算法欠好锁定人物。但到了景区才发现,滑雪游客十分喜欢这类 vlog 服务。”容荣说。

所以,后来团队作业的一大重点就放在了滑雪、过山车、蹦极这类极限场景下。

玩这类项目时,游客最期望视频记载的是整个进程中最刺激的时间,但这时游客表情十分激动,算法难以辨认。

算法工程师容荣再次灵光一现:图像欠好辨认的话,那辨认声音试试呢?

“风声代表速度,人声代表心境。玩这种刺激项目的时分,一个人嗓门越大,阐明他越激动;但也有人彻底不叫喊,那咱们就辨认风声,风声越大阐明速度越快、人的体会越刺激。”

极限场景惊险刺激的时间、美丽风景让人心境大好的时间、运动场景中体现优异的时间,都被项目团队界说为了「高光时间」,这是游客最深刻的记忆,也是最值得被视频记载的瞬间。

因而,项目算法团队与规划团队一起界说了一套「高光辨认算法」,集成了人体手势、动作辨认、人物关系检测等多种 AI 算法,能够根据场景动态捕捉游客的高光时间,景区运营者也能够根据时节、活动等自在定制。

不到1分钟,帮你剪完旅行vlog,火山引擎全新 AI「神器」真的这么绝?

深化一线,感受不同地区的风霜雨雪

无论是滑雪场、游乐园还是博物馆,探究每种新玩耍场景时,项目团队组团出差去现场,了解每个场景的细节特点。

线下能发现许多在作业室里凭空捏造发现不了的问题,技能同学则能够改技能方案,产品司理则能够了解景区运营状况、游客动线、景色最美的方位、游客集合的地点,了解景区管理者的经营计划。

有一次,大家组团去滑雪场出差时,正赶上了寒冬腊月,下着鹅毛大雪,连雪道都结冰了。构思互动 vlog 团队的产品、研制、规划们,和当地的装置师傅一起扛着摄影机和装置工具爬到雪坡上,寻找合适的装置方位。

不到1分钟,帮你剪完旅行vlog,火山引擎全新 AI「神器」真的这么绝?

作为项目的算法负责人,容荣需求做许多深化一线的作业。在装置摄像头的进程中,她需求当场根据图像质量、晨昏光线、人体在画面中的巨细来判断这个方位拍出来的图像能不能用,针对现场场景采集数据、当场优化这个场景的算法精确率。

但完成当天的现场作业之后,一群人站在雪坡顶上傻眼了:

除了 AI 产品解决方案同学孟兰之外,其他人都不会滑雪。

所以,一副奇特的景象发生了:大雪纷飞的滑雪场,一群人半夜十点坐在雪坡上慢慢往下滑,有人的睫毛上都冻上了冰晶,有人滑到山下后,站起来却发现裤子都被磨到反光。

不到1分钟,帮你剪完旅行vlog,火山引擎全新 AI「神器」真的这么绝?

就这样,一年多里,构思互动 vlog 团队的同学们一向在产品建设的路上。

他们探究滑雪场、游乐场、打卡地等各种不同类型的园区,一边优化产品,一边提高技能,一边跑通了商业落地。

AI 产品解决方案同学孟兰说,当每一类场景率先跑通一个标杆景区后,就能够方便地将不同场景的解决方案复用,低边际成本服务其他同类景区。

“咱们在滑雪这个场景的经验至少抢先商场 1.5 年,因为你需求满足漫长的冬季去探究这些经验。”

而火山引擎的技能同学们,也正在不同的 B 端业务场景下,继续探究创新,用技能赋能千行百业。


微信关注「字节跳动技能范儿」,了解字节跳动技能人的真实故事。