最近AI太火了,国内外各大科技公司都在抢先发布自己的AI模型,以争取在这一竞争激烈的市场中占据一席之地,这些AI模型包括图像识别、自然语言处理、语音识别等多个领域,可以说,AI技术已经成为了各大公司竞相争夺的核心技术之一。
Meta(即facebook)近期推出了Segment Anything工具,可以准确识别图像中对象,且全部开源,被认为是视频领域的GPT-3时刻!
简单说,这是一个可以智能分割图片内容的AI工具,比如你可以把一张图片中的猫提取出来。
SAM可以分割图像中的一切对象,甚至包括训练数据中没有的内容,让人们对它的能力感到惊讶。此外,SAM还可以使用各种输入提示,如点击、框选、文字等,来指定要在图像中分割的内容,这一点和自然语言处理中的Prompt模式有些类似。
SAM还能准确识别并标记物品的种类、名字、大小,并自动用ID为这些物品进行记录和分类。
Meta的SA-1B数据集被称为有史以来最大的分割数据集,这个工具的推出在计算机视觉领域引起了很大的轰动。
英伟达人工智能科学家 Jim Fan 表示:
「对于 Meta 的这项研究,我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念,即使对于未知对象、不熟悉的场景(例如水下图像)和模棱两可的情况下也能进行很好的图像分割。最重要的是,模型和数据都是开源的。恕我直言,Segment-Anything 已经把所有事情(分割)都做得很好了。」
网友表示
NLP 领域的 Prompt 范式,已经开始延展到 CV 领域了,可以预想,今年这类范式在学术界将迎来一次爆发。
但根据网友体验,当下的实际表现差强人意,但语义和图像之间的紧密联系,给人无穷的想象力,在不久的将来,有望在图像识别领域发挥巨大的潜能。
花粉社群VIP加油站
猜你喜欢