代码拆解发现谷歌Gemini计划支持上传1分钟视频内容 帮助用户在线分析视频内容
目前谷歌的 Gemini 人工智能应用已经支持上传多种格式的文件进行分析,不过支持上传的文件格式还不够丰富,所以现在谷歌计划扩展支持的文件格式帮助用户进行快速分析。
即将支持的是上传视频并且支持多种主流的视频格式,上传视频后 Gemini 可以根据用户需要给出生成字幕、给出总结、分析特定视频片段的内容,亦或者是提取视频中的内容,例如当视频中出现代码片段时可以直接将代码片段 OCR 出来。
上传视频和分析视频对 GPU 算力的消耗也不算小,所以谷歌计划对免费用户和付费用户可以上传的视频时长进行区分,简单来说就是 Gemini Advanced 付费订阅用户可以上传更长的视频。
但从目前的代码来看用户上传的视频可能只在 1 分钟以内,但用户或许可以同时上传多个视频进行分析,假设视频帧率为 30FPS,则 1 分钟的视频可以拆解为 1800 帧画面,谷歌需要对这 1800 帧画面进行分析,这或许也是谷歌暂时不能提供更长时间视频分析的原因,毕竟视频越长需要拆解的画面就越多、识别和分析消耗的算力也越多。
代码显示支持的视频格式包括:3GP、AVI、FLV、MOV、MP4、MPEG、MPG、WEBM,这已经覆盖所有主流视频格式,所以对用户来说日常使用肯定是没问题的。
当谷歌推出这个功能后 Gemini 将可以分析视频、图片、PDF 文件、电子表格、文档、网页、代码文件等,还可以与 Google 云端硬盘进行集成,例如直接从云端硬盘里上传文件。
除了支持媒体和文档外,Gemini 后续可能还会支持与 GitHub 存储库的集成,到时候开发者能够直接使用 Gemini 与 GitHub 中的项目代码进行交互,例如优化、修改、新增代码等。