AI研究人员创意收集数据

发布时间:2018-11-06 作者:jason

以下是领先的自然语言处理年会专家使用的四种最具创意的数据收集方法。

们认为理所当然的进步:YouTube字幕,Spotify音乐推荐,以及在互联网上关注您的令人毛骨悚然的广告。

但是,在收集有用数据时,AI专家通常必须具有创造性。采用自然语言处理(NLP),这是人工智能的一个子领域,专注于教授计算机如何解析人类语言。在NLP实证方法年会上,专家们提出了一系列广泛的研究,这些研究以一些巧妙的方式收集了信息。我们总结了以下四个我们最喜欢的项目。

西班牙式

在今年关于多语言NLP的论文中,微软提出了一个专注于处理“代码混合语言”的文本或语音,它们在两种语言之间流畅地切换。考虑到世界上一半以上的人口都是多语言的,这个未充分考虑的领域很重要。

研究人员从Spanglish(西班牙语和英语)开始,但他们缺乏足够的Spanglish文本来训练机器。与多语言对话中的代码混合一样常见,它很少在文本中找到。为了克服这一挑战,研究人员编写了一个程序,将英语流行到Microsoft Bing翻译器中,并将西班牙语翻译中的一些短语编织回原始文本。该程序确保交换的单词和短语具有相同的含义。就这样,他们能够根据需要创建尽可能多的Spanglish。

由此产生的NLP模型优于之前仅使用西班牙语和英语进行训练的模型。研究人员希望他们的工作最终能够帮助开发能够以混合代码语言自然发声的多语言聊天机器人。

食谱

食谱非常适合制作食物,但它们也可以为机器提供营养。它们都遵循类似的逐步模式,它们通常包括与文本相对应的图片 - 这是教学机器同时理解文本和图像的结构化数据的极好来源。这就是为什么土耳其Hacettepe大学的研究人员编制了一个大约20,000个插图烹饪食谱的巨大数据集。他们希望它将成为一种新的资源,用于对联合图像文本理解的性能进行基准测试。

他们所谓的“RecipeQA”将建立在之前的研究基础上,该研究分别侧重于机器阅读理解和视觉理解。在前者中,机器必须理解问题和相关段落才能找到答案; 在后者中,它会在相关照片中搜索答案。并排显示文本和照片会增加任务的复杂性,因为照片和文本可能共享互补或冗余的信息。

SHORTER SENTENCES

谷歌希望AI能够修饰你的散文。为此,那里的研究人员创建了有史以来最大的数据集,用于将长句子分解为具有相同含义的较小句子。你会在哪里找到大量的编辑数据?维基百科,当然。

根据维基百科丰富的编辑历史,研究团队提取了人们分割长句的实例。结果:与此前任务的基准数据集中找到的词汇分割示例相比,语句分割示例多60倍,词汇量多90倍。该数据集还涵盖多种语言。

当他们在新数据上训练机器学习模型时,它的准确率达到了91%。(这里,百分比反映了在重写后保留其含义和语法正确性的句子的比例。)相比之下,对先前数据训练的模型仅达到32%的准确度。当他们将两个数据集合并训练另一个模型时,它达到了95%的准确度。研究人员得出结论,未来的改进可以通过寻找更多的数据来源来实现。

社交媒体偏见

研究表明,我们生成的语言可以很好地预测我们的种族,性别和年龄,即使这些信息从未明确说明过。考虑到这一点,以色列Bar-Ilan大学和Allen人工智能研究所的研究人员尝试通过删除那些嵌入式指标来使用AI来消除文本偏差 。

为了获得可以代表不同人口统计数据的语言模式的足够数据,他们转向Twitter。他们从用户那里收集了大量推文,这些推文均匀分布在非西班牙裔白人和非西班牙裔黑人之间; 男女之间; 以及18-34岁及以上35岁年龄段的人群之间。

然后,他们使用对抗方法 - 将两个神经网络相互对抗 - 看看他们是否可以自动删除推文中固有的人口统计指标。一个神经网络试图预测人口统计数据,而另一个试图将文本调整为完全中立,目标是将第一个模型的预测准确度降低到50%(或几率)。该方法最终显着减轻了种族,性别和年龄指标,但并非完全缓解。


息息.AI生活.更简单 xixi生活

©2016-2018 成都轻雨科技有限公司 Made in chengdu

蜀ICP备 17039669号-1

更多ai生活 请关注息息公众号