本篇文章2270字,读完约6分钟

在美国的中国创业团队有着天然的优势和巨大的中国市场。这些企业家说着流利的中文,运用美国思维,正在绞尽脑汁将他们的技术推向国内市场。

王晓宇在中国之行后刚刚回到北卡罗来纳州。2013年,他创立了大数据分析公司taste analytics。在此之前,他是北卡罗来纳大学夏洛特分校的助理教授,在美国五大视觉中心之一的夏洛特视觉中心工作。

简而言之,味觉分析的工作就是将非结构化数据以图像的形式输出,这样有一定文化基础的人就能理解这些数据在说什么。

味觉分析公司创始人兼首席执行官王晓宇博士

非结构化数据对应于结构化数据。在数据分析行业,一般统计数据显示,世界上大约80%的数据是非结构化数据。以前,大多数数据分析都集中在结构化数据上,如姓名、性别和年龄,这些数据可以用word和excel的形式表示。非结构化数据更加难以形容:它们通常隐藏在你的聊天记录、电子邮件、发布的图片、声音和视频中。数据分析师认为,研究它们可以让你对自己有更深的了解。

非结构化数据:被忽视的富矿

在中美科技界对未来技术的选择中,大数据分析通常是其中之一,而非结构化数据被认为是大数据产业的核心。

雅虎是这一领域的先驱,包括后来的谷歌。中国企业也在这方面做出了巨大努力,2012年,政府还成立了非结构化数据管理标准工作组。

目前,中国在这方面的数据积累相对较少,现有数据大多是结构化的,而美国的这一比例已经达到37%。汪小玉告诉记者。他认为,中国对非结构化数据的分析处于一种概念性的、无工具的状态。

然而,中关村大数据产业联盟副秘书长陈新和认为,非结构化数据分析在中国已经发展了多年,并不缺乏在这些子领域发展良好的工具,如舆情分析、广告应用和语音识别应用。

记者还从业内了解到,除了百度和阿里,一些初创企业和上市公司也在这方面做出了很大努力。

2014年,百度大数据部门的一位从业者表示,中国网民每年都会产生大量数据,而手机带来的爆炸性增长给大数据从业者带来了巨大挑战。这些数据中有许多是非结构化数据,如何分析和挖掘它们的价值是百度大数据面临的一个严重问题。

事实上,这在美国市场不是一项成熟的技术。大约在2005年,美国开始分析结构化数据,直到2010年才开始关注非结构化数据。

2013年,我们拜访了60多位美国企业的高管,发现当时这方面的技术比较落后,这证明在非结构化数据分析领域有一片巨大的蓝海。汪小玉说。

他开始朝着这个方向努力。此前,他曾接触过微软和富士通研究机构的大量文本分析技术,包括自然语言处理和机器学习。

在《两年后》中,味觉分析拥有一批来自美国金融机构和财富500强公司的用户,并在澳大利亚和荷兰开拓了市场。根据公司提供的业绩数据,2015年的收入比2014年增长了6倍,季度收入增长率保持在300%左右。

味觉分析回归中国的第一步是找到来自中国的投资者和合作伙伴。

最近,公司获得了正格基金和聚合数据的前期投资,融资金额为340万美元,前两者共投资220万美元。

聚合数据是一个在线数据交易平台,它为用户提供在线数据调用api服务。去年底,聚合数据从中国文化产业投资基金和京东获得了2.18亿元人民币的B系列融资,并宣布启动国内上市计划。

我们的技能是数据来源,但在数据分析和处理方面还存在一些不足。这种对品味的投资也希望弥补缺点。综合数据公司的创始人左磊告诉《中国商报》记者。该公司表示,将加大对数据分析和行业解决方案的投资。这一次,它在味觉分析上投资了100万美元,并将为味觉提供国内用户资源。目前,约有35万注册用户。

提高决策效率是每个企业决策者梦寐以求的,但他们永远不想每天面对成千上万的无聊数据,即使这些数据中隐藏着巨大的商业秘密。

在大数据初创企业中,这是一个机会,尤其是在垂直数据应用程序分析中。初创公司的机会主要在这里,基本上没有数据源和大数据基础设施的机会。左雷认为。

汪小玉正试图抓住这个机会。味觉分析对非结构化数据的分析过程分为三个步骤:第一步,味觉分析开发的信号平台帮助企业通过数据接口(这些接口包括亚马逊、天猫、推特、脸书、苹果商店等)收集数据。),或者用户将数据导入系统,通过深入学习小到每个单词的数据,系统快速分析各种结果信息,形成预测分析结果;第二步是输出简洁明了的图像分析结果;第三步,用户建立自己的分析模型。

非结构化数据:被忽视的富矿

预测分析的第一步和视觉结果的第二步是信号平台的核心。在商业决策者的眼里,图像可能比看单词的黑白字符和excel的硬表格有趣得多。

客服管理和电子商务数据处理是信号平台的两个主要应用场景。对于许多公司来说,客户服务的周期越来越长,这就需要很高的人工成本来处理大量的数据和跟踪各种奇妙的需求。王晓宇希望通过该平台快速浏览和规范客户服务数据,从而达到预判的目的。

电子商务的数据分析是信号的另一个应用方向。例如,深圳的一家音响制造商想知道国外竞争产品的市场状况,于是将亚马逊上该竞争产品的网站粘贴到信号平台上。信号可以自动分析这种竞争产品的评估和趋势。王晓宇说,信号有自己的爬虫和数据采集器,覆盖了美国几乎所有的电子商务公司,目前正在渗透到国内电子商务平台。

非结构化数据:被忽视的富矿

现在,经常往来于中美之间的王晓宇与京东联系上了。对于非结构化数据分析工具来说,电子商务平台上的海量业务数据和客户评论是一个丰富的矿藏,也将是他们拓展中国市场的突破口。然而,他也将面临许多问题,如对市场上非结构化数据的整体理解以及人们对这些难以形容的数据的信任程度;电子商务和社交平台是否愿意对外开放数据。此外,在中国市场,大数据用户百度和阿里设定的竞争门槛不容易跨越。

标题:非结构化数据:被忽视的富矿

地址:http://www.j4f2.com/ydbxw/5555.html