本篇文章3691字,读完约9分钟

当我们还在为语音识别的普及而欢呼的时候,图像识别就像黑夜中的藤蔓一样,正在悄悄地伸展开来。

上周,当facebook告诉我们他们正在开发的功能可以让盲人“看”到照片时,摄影师们突然发现,哇,原来的图像识别离我们的生活如此之近,以至于盲人叔叔们也可以得到巴拉巴拉的信息,你在三里屯泡妞……但是没有标签的识别太多了,有什么极端的措施吗?你是在欺负我们不懂科学吗?

当然可以。黑色技术只能通过黑色技术来解决。

雷锋。com,真实的东西,带你去看看facebook发布的这项黑色技术——它可以自动描述图片的内容,这样盲人或有视觉障碍的人就可以“看到”图片。该工具可以自动处理照片的文字,让用户听到照片上的内容描述,如“有三个人面带微笑站在户外”。

在vpn的帮助下,翻墙到iphone的facebook后,我发现iphone的画外音功能可以读出已经用文字描述过的东西,这和facebook本身的图像识别功能没有关系,但真正重要的是它能够识别图片中的物体,而不需要任何标签。

实际体验效果,按下画外音后,雷锋。com暂时听到了“两个人在画面中,动作都可用”的效果。在尝试了其他图片(中国长城,非常沙漠和人)后,获得的反馈与这张没有太大不同,到目前为止,还没有听到特别连贯的描述。(是不是因为我是一个穿墙而过的用户,所以体验并不纯粹?我期待着中文版的发布!(

然而,就facebook承诺的目标而言,用户可以听到照片中的内容描述,比如“有三个人微笑着站在户外”。图普科技海洋直言不讳地说:这个困难主要在于准确性。对于单个标签图片(仅识别人或物体),识别精度可以训练得很高,但是对于组合,很难保证超高的识别精度。

关于imagenet,谷歌的图像识别技术在2014年9月仍遥遥领先,当时媒体给出的标题是“技术更好?最新的谷歌图像识别技术可以“识别”大多数项目

在那年的imagenet图像识别大赛中,隶属于谷歌的谷歌网团队刷新了“分类和检测”的记录。挑战主要遵循三个步骤:分类、分类和锁定以及检测。当时,它的准确度比前一年的记录提高了两倍。那时,从谷歌发布的照片中,我们可以看到这项技术可以识别我们共同的物体,比如宠物猫、鸡蛋、香蕉、橘子、电视、显示器、书架等等。

亲测:让盲人“看见”图片  我们离这项黑科技有多远

随后,在2015年12月,媒体给出的标题是“imagenet图像识别大赛,微软击败谷歌,赢得多项第一”,这意味着这一声誉在那一年移交给了微软。

当时,imagenet图像识别竞赛要求参赛者设计的图像系统能够准确定位flickr和搜索引擎中的100,000幅图像,并将这些图像分成1,000个对象类别(狼蛛、ipod、清真寺、玩具店、调制解调器等)。)。错误率越低越好。微软录入系统的分类错误率为3.5%,定位错误率为9%。在整个比赛中,微软击败了谷歌,赢得了许多第一。

但没人想到拥有14亿用户社交照片网站的facebook,在使用了这个功能后,让每个人都觉得自己是最“黑”的技术。老实说,facebook并不一定比谷歌更像图片库,但是用户对一张图片信息量的关注一定比谷歌在facebook上的关注更强烈,就像我们每天刷大量的朋友来看朋友的点滴一样,但是如果什么都没发生,我们不会把图片发送到搜索引擎...现在,盲人可以每天刷脸书来“看到”朋友们的点滴,所以我们可以马上到达这一点。

亲测:让盲人“看见”图片  我们离这项黑科技有多远

在实现了道路和经历了fb之后,雷锋。网站发现facebook实际上与iphone的voiceover功能一起使用。voiceover功能可以识别所有文本单词,然后将它们读出,因此这项技术的核心实际上是区分未标记图片的能力。

根据facebook自己的解释,未标记图片的识别能力主要通过三种途径解决:

文本可以自动替换。(过去,facebook将用户上传图片的可替换文本统一设置为“xxx照片”,但现在它会根据人工智能的照片内容自动替换,所以称之为自动可替换文本。(

使用深度学习(图像识别引擎的核心是包含数百万个可学习参数的深度卷积神经网络),facebook的计算机视觉平台可以简单地收集和分析数百万张照片,并在监督下学习和取得进展。(

进一步组织陈述。(经过多次实验室研究,他们决定将图片的内容分为三类:人、物体和场景,他们将按照这个顺序描述图片。(

说起来容易,但实现起来有多难?负责阿里图像识别和搜索产品的赵(现在是readface的创始人)说:

“从视觉识别的角度来看,深度学习出现后,其难度主要在于大规模可用的训练数据和算法。

从数据层面来说,有必要“教”计算机识别和描述图片的内容。一方面,有必要识别图片中出现的项目,另一方面,有必要描述这些项目之间的关联。

例如,对于“一个人坐在湖边钓鱼”的图片,要描述它,最基本的事情是识别:人,湖泊和钓鱼竿;在确定了项目之后,我们也应该能够确定三者之间的关系。

世界上的项目种类繁多,建立一个可靠的标注数据集是一个巨大的工作量,因此每种类型的项目都有足够的标注样本来指导学习算法获取项目类型的概念。然而,相似项目之间可能存在不同的关系。为这些可能的关系建立足够的样本数据需要更多的工作。

在计算机视觉的学术领域,(我记得)斯坦福大学在几年前引入了“图像网”,它手工标记出现在数百万张图片中的物体类型。在过去几年中,imagenet促进了参考胶片中通用对象识别技术的发展。为了进一步确定不同项目之间的关系,斯坦福大学去年推出了新的数据集“视觉基因组”,并致力于在imagenet的基础上描绘项目之间的关系。基因组数据集是针对图片的,它将结构化图像概念与语言联系起来。

亲测:让盲人“看见”图片  我们离这项黑科技有多远

从机器学习的角度来看,这些人工标注的数据为图片的文本描述奠定了基础。当然,在此基础上,如何实现更准确的识别取决于许多底层算法和数据处理方法。如果要实现工业应用,算法的准确性和效率对于大规模一般商品的识别来说都是非常具有挑战性的。

facebook推出的产品(我猜)可能会在很大程度上使用自己的类似“基因组”的数据库,然后使用机器学习技术来获取图片中的对象及其可能的关系。"

随后,雷将此图片(这是雷第一次在没有相关标签的情况下,将电影截图手工上传到facebook账号和百度图片平台)发送到百度图片检测库,暂时给出了“目前没有猜测词”,但只推荐了类似的图片。

当雷锋。搜索“雷锋”。com(公开号码)把这张照片上传到搜狗图片检测数据库,上面显示“婚礼,女孩”,然后给出了类似的图片推荐。

虽然这可能无法解释决定性的问题,但从这两个国内平台上对图片的小测试来看,就目前的图片识别技术而言,很难说在哪个场景中,什么物体与人有一定的关系。

你能告诉雷锋吗?这在目前是相当困难的。

主要是在准确性方面。对于单个标签图片(只识别人或只识别物体),识别精度可以训练得很高,但对于这种组合,很难保证识别精度。

我们有一个通用的物体识别界面,可以识别20,000多种物体。但是你会发现,在我们识别它之后,我们通常会根据相关性给出一些建议。相关性越高,机器就越可靠。

我们还有场景识别和字符类别识别,单界面识别有很高的准确率。结合起来,可以进行简单的语义分析。例如,教室里有三名年轻女性...但是很难通过添加对象和动作来分析那个人在做什么。例如,有一个老人在超市前吃面包,这在目前很难描述。我也对脸谱网是如何做的以及在多大程度上感兴趣...

上汤科技的约翰·杨对雷锋说,facebook声称它可以对特定类型的物体达到很高的识别率。如果你去掉画外音,从苹果公司“借用”的功能,facebook黑色技术的核心就是只识别图片中的物体,不加任何标签

这属于一般的目标检测,主要依靠高维信息特征识别。国际权威比赛imagenet有几个分赛,比这更好。然而,facebook这种黑色技术吸引了这么多人的注意力,它的综合识别率不是很高,但它可能是一些班级可以做得更好。

那么在中国可以实现吗?

(理论上)但是没有时间就没那么简单。

为此,facebook没有假装强迫我们,facebook自己也承认“为了确保可靠性,facebook花了10个月的时间在反复测试后才推出自动替换文本功能。”目前,facebook的识别引擎至少能保证80%的准确率。”

对盲人来说,意义远远超出了上述逻辑。如果国内公司想这么做,在深入学习的帮助下,他们应该能在过去10个月内做到。毕竟,每个人都有一点基础。例如,如果你悄悄地检查,你会发现百度图片和搜狗图片有相似的图像识别功能,一些非搜索引擎公司的第三方团队也有相似的图像识别功能,包括sensetime、Image++、Meitu、腾讯Youtu等。

亲测:让盲人“看见”图片  我们离这项黑科技有多远

但是有一个问题。这项技术的意义远非帮助盲人看图片。

一个非常简单的逻辑是,我们周围的盲人很少会用手机上网,更少会用手机上的微信。这一次,facebook使用助手来查看推广黑色技术的要点,只是为了让读者一目了然地感受到这项技术的精髓。如果投入实际应用,搜索引擎用它来识别黄图的上传,社交网站用它来识别罪犯的踪迹和朋友的生活足迹,并进一步推断出一些线索,而不是帮助盲人“看”

标题:亲测:让盲人“看见”图片 我们离这项黑科技有多远

地址:http://www.j4f2.com/ydbxw/11078.html