温州英文网站建设,微信小程序组件库,提供域名申请的网站,建站软件免费试用数据采集仍是人工智能#xff08;AI#xff09;构建团队的主要瓶颈。原因各不相同#xff1a;用例数据可能不足#xff0c;深度学习等新机器学习#xff08;ML#xff09;技术需要更多数据#xff0c;或者团队并未建立获取所需数据的适当流程。但无论如何#xff0c;对…数据采集仍是人工智能AI构建团队的主要瓶颈。原因各不相同用例数据可能不足深度学习等新机器学习ML技术需要更多数据或者团队并未建立获取所需数据的适当流程。但无论如何对准确且可扩展数据解决方案的需求在不断增加。 高质量数据采集最佳方法
作为一名AI从业人员您需要在制定数据采集计划时提出一些正确的问题。
我需要怎样的数据
您选择解决的问题表明您所需的数据类型。例如对于语音识别模型您需要收集能够代表全部期望客户的语音数据。也就是说语音数据涵盖目标客户的所有语言、口音、年龄和特征。
我可以从哪里获取数据
首先了解内部已有哪些可用数据以及这些数据能否用于解决现有问题。如需更多数据可以利用一些公开的在线数据集。您也可以与数据伙伴合作通过众包资源生成数据。还可以创建合成数据填补数据集中的空白。 但请谨记一点在模型投产后的很长一段时间内您需要稳定的数据来源以确保在模型投产后可以持续为模型优化提供数据。
我需要多少数据
数据量取决于您想要解决的问题和预算但通常而言数据越多越好。刚开始构建机器学习模型时通常不会有太多数据。您需要确保拥有足够的数据可以覆盖模型的所有潜在用例包括边缘用例。
如何确保我的数据是高质量的
在使用数据集训练模型前请先清理数据集。也就是说第一步是删除不相关或不完整的数据并检查确认您是否真的不需要这类数据。接着就是要准确标注数据。很多公司转向众包来获得大量的标注员数据标注员越多元化数据标注的包容性就越高。如果您的数据标注需要特定领域的知识需要找到该领域的专家来标注您的数据。 明确上述问题的答案后您可以开始构建数据管道使您能够高效地收集高质量、准确标注的数据。最后要确保数据管道的可重复性、一致性以帮助您进行扩展。
负责任AI的用武之地
您要坚持从负责任AI的视角来采集数据这是因为构建合乎伦理道德的AI要从数据开始。干净的数据来源应是重中之重这意味着您需要以合乎道德的方式获取数据。处理安全且机密信息例如医疗记录或财务状况时尤是如此。请遵守您所在地区和行业的数据保护法规并在选择数据合作伙伴时确认这些合作伙伴是否也遵守这些法规。您的数据合作伙伴应该和您一起制定安全协议以确保客户数据得到尊重和负责任的对待。
解决方案与高级研究组副总裁David Brudenell的专业洞察
包容优于偏见
在过去的18个月里澳鹏发现客户与澳鹏的互动方式发生了巨大转变。随着AI的不断发展及日益普遍它在构建方式上的差距也已明显显现。训练数据在减少AI中的偏见方面发挥着重要作用我们建议客户组织一批具有代表性、有包容性的标注员来采集数据构建更快、更好、更具经济效益的AI模型。由于几乎所有的训练数据均由人员采集所以我们建议客户在样品设计时首先注重包容性。这会增加工作量和实验设计次数但和简单的样品设计相比投资回报率会显著提高。简言之您会得到更多样化、更准确的机器学习/人工智能模型这些模型拥有更具体的人口统计数据而且从长远来看这比试图通过消除生产机器学习/人工智能模型中的偏见来“填补空白”要好得多。
优先考虑用户
精心设计的数据采集方案由多个部分组成。虽然一个包容性的样本框架是基础但是推动生产量和数据质量的关键是将以用户为中心的方法引入到整个参与过程中项目邀请、资格鉴定、新用户引导包括信任和安全实验体验。很多时候团队会忘记完成这些项目的人。如果您忘记这一点则会因为低于平均水平的书面实验和用户体验而导致项目的吸收率和数据不佳。 设计实验和用户流时问问如果是自己是否愿意进行这项工作。此外还要确保您始终亲自对实验进行端到端测试。如果您陷入困境或结果不尽如人意则需做出改进。
互锁配额——从六千到六万
如果您以美国人口普查为例围绕6个数据点进行实验年龄、性别、州、种族和手机拥有量您有超过6万个配额要管理吗 这是因为受到互锁配额的影响。互锁配额即实验中所需的访谈/参与者数量在要求多个特征的单元格中。以上述美国人口普查为例有一个单元需要n个用户具有以下特征男性55岁以上怀俄明州非裔美国人拥有2021年一代的Android智能手机。这是个极端的、低发生率的示例但通过在定价、编写实验或进入现场前创建自己的互锁矩阵您可以发现难以组合的特征或无意义的特征组合这些组合可能会影响项目的成功。
报酬比以往任何时候都重要
最后也是最重要的就是审查您为用户完成实验而付的报酬。在设计数据采集实验时衡量商业利益是很常见的事情但您不能因此削减对用户的激励。用户是团队中最重要的部分可以为您提供合适的、高质量的数据。如果您选择向用户支付更少报酬则会导致项目的吸收率较低且数据不佳从长远来看您不得不支付更多。 如果预算有限请寻求有关全球购买力平价PPP方面的建议您的资金能否在世界各地区获得更高的效益减少您的配额要求——您能把24-40岁的人分成一组而不是两组吗这些只是您可以采用一些方法以便为您的项目获得最大的商业价值。