sapiens，Meta开源的人体视觉模型，分析和理解图片或视频中的人和他们的动作-沃图社

让我们看看官方演示视频吧！

Sapiens 为以人为中心的视觉任务（例如 2D 姿势、零件分割、深度、法线等）提供了一套全面的套件。该模型系列在 3 亿张野外人类图像上进行了预训练，并显示出对不受约束条件的出色泛化。这些模型还设计用于提取高分辨率特征，以 1024 x 1024 图像分辨率和 16 像素的补丁大小进行本机训练。

项目地址：https://about.meta.com/realitylabs/codecavatars/sapiens/

Github地址：https://github.com/facebookresearch/sapiens

论文地址：https://arxiv.org/abs/2408.12569

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

sapiens，Meta开源的人体视觉模型，分析和理解图片或视频中的人和他们的动作

评论(0)

提示：请文明发言取消回复

每日推文

sapiens，Meta开源的人体视觉模型，分析和理解图片或视频中的人和他们的动作

相关文章

Llama 3.1正式发布，登上大模型王座！

Object Cutter，一键去除背景，且支持通过文字或框选来指定保留什么物体

微软发布 Phi 3.5 系列模型，包括Phi 3.5 Mini、Phi 3.5 MoE和Phi 3.5 Vision

OLMoE，完全开源的1B大小MoE模型，能力超过LLaMA 2 13B

评论(0)

提示：请文明发言 取消回复

标签云

每日推文

提示：请文明发言取消回复