b谷歌和微软押注于27岁的斯坦福校友,让人工智能为10亿用户服务-展商网

b谷歌和微软押注于27岁的斯坦福校友,让人工智能为10亿用户服务

核心提示:

普里埃蒂·p (Preethi P.)坐在缝纫机旁边的凳子上,家里只有一个房间,位于阿加拉(Agara)一条安静的街道上。阿加拉是一个小村庄,位于班加罗尔西南三小时车程的地方,周围是稻田和花生田。通常,她会花几个小时缝补衣服,平均每天不到1美元。然而,这一天,她正在用母语卡纳达语对着手机上的一个应用程序读一句话。她停顿了一下,又读了一篇。

普里埃希(Preethi)只有一个名字,这在该地区很常见。他是一家名为Karya的初创公司在阿加拉(Agara)和邻近村庄雇佣的70名工人之一,负责收集印度本土语言的文本、语音和图像数据。她是一个庞大的、看不见的全球劳动力队伍中的一员,他们在印度、肯尼亚和菲律宾等国家开展业务,收集和标记人工智能聊天机器人和虚拟助手所依赖的数据,以产生相关的回应。然而,与许多其他数据承包商不同的是,Preethi的付出得到了丰厚的报酬,至少以当地标准来看是这样。

和Karya一起工作三天后,Preethi赚了4500卢比(54美元),这是这位22岁的高中毕业生通常作为裁缝一个月收入的四倍多。她说,这笔钱足以支付当月的分期付款,这笔贷款是用来部分修复她家里摇摇欲坠的泥墙的,这些泥墙已经用五颜六色的纱丽仔细地修补好了。“我只需要一部手机和互联网。”

Karya成立于2021年,在ChatGPT兴起之前,但今年对生成式人工智能的狂热只会增加科技公司对数据的永不满足的需求。据印度科技行业贸易机构Nasscom称,预计到2030年,仅印度就将拥有近100万名数据注释工作者。Karya与其他数据供应商的不同之处在于,它向承包商(大多是女性,而且大多在农村社区)提供的工资是现行最低工资的20倍,并承诺提供质量更好的印度语数据,科技公司愿意支付更高的价格来获得这些数据。

“每年,大型科技公司花费数十亿美元为他们的人工智能和机器学习模型收集训练数据,”27岁的斯坦福大学毕业的计算机工程师Manu Chopra在接受彭博社采访时表示。“这种工作报酬低是行业的失败。”

如果低工资是一个行业的失败,那么硅谷也有责任创造这个失败。多年来,科技公司一直将数据标签和内容审核等任务外包给成本更低的海外承包商。但现在,硅谷一些最知名的公司正求助于Karya,以解决其人工智能产品面临的最大挑战之一:寻找高质量的数据,以构建能够更好地为数十亿潜在非英语用户服务的工具。这些合作伙伴关系可能代表着数据行业经济以及硅谷与数据提供商关系的重大转变。

微软公司(Microsoft Corp.)已经使用Karya为其人工智能产品获取本地语音数据。比尔及梅琳达·盖茨基金会(Bill & Melinda Gates Foundation)正在与Karya合作,减少输入大型语言模型的数据中的性别偏见,而大型语言模型是人工智能聊天机器人的基础技术。字母表公司(Alphabet Inc.)的b谷歌正在依靠Karya和其他当地合作伙伴收集85个印度地区的语音数据。谷歌计划扩展到每个地区,包括大多数语言或方言,并为125种印度语言建立一个生成式人工智能模型。

许多人工智能服务都是根据英语互联网数据开发的,比如文章、书籍和社交媒体帖子。因此,对于其他国家的互联网用户来说,这些人工智能模型很难代表语言的多样性,因为他们使用人工智能智能手机和应用程序的速度比学习英语的速度还要快。仅在印度就有近10亿这样的潜在用户,因为政府正在推动从医疗保健、教育到金融服务的各个领域推出人工智能工具。

谷歌研究公司在印度的负责人马尼什·古普塔(Manish Gupta)说:“印度是我们第一个在非西方国家开展这项业务的国家,我们正在用九种印度语言测试巴德。”“超过100万人使用的70多种印度语言都没有数字语料库。这个问题太明显了。”

古普塔列出了人工智能公司需要解决的一系列问题,以便为印度互联网用户提供服务:非英语数据集的质量低得令人沮丧;印地语和其他印度语言中几乎没有会话数据;印度语言的书籍和报纸的数字化内容非常有限。

当用于南亚语言时,人们发现一些大型语言模型在组成单词和基本语法方面存在困难。还有人担心,这些人工智能服务可能反映出对其他文化的更扭曲的看法。斯坦福大学计算机科学系教授Mehran Sahami说,训练数据的广泛代表性至关重要,包括非英语数据,因此人工智能系统“不会延续有害的刻板印象,产生仇恨言论,也不会产生错误信息”。

Karya是一家总部位于班加罗尔的社会影响力初创公司,由政府资助,它能够扩大语言的范围,部分原因是它专门针对农村地区的工人,否则这些工人可能不会被承包这些任务。Karya的应用程序可以在没有互联网的情况下工作,它为那些读写能力有限的人提供语音支持。在印度,超过3.2万名众包工人登录了该应用程序,完成了4000万项付费数字任务,如图像识别、轮廓对齐、视频注释和语音注释。

对Chopra来说,目标不仅仅是改善数据的供应,还要消除贫困。Karya的创始人在西德里一个叫Shakur Basti的贫困社区长大。他获得了一所精英学校的奖学金,在那里他被欺负,因为他的同学说他“闻起来很穷”。乔普拉来到斯坦福大学学习计算机科学,但他意识到他讨厌在那里遇到的“如何赚到10亿美元”的心态。

2017年毕业后,他开始从事自己长期以来的兴趣:利用技术解决贫困问题。乔普拉说:“印度人只要有1500美元的储蓄,就有资格进入中产阶级。”“但穷人可能需要200年才能达到这个水平。”

他了解到,微软一直在为收集语音数据(尽管质量很差)支付巨额费用,以支持其人工智能系统和研究。例如,2017年,尽管马拉地语(孟买及其西印度地区使用的一种语言)有100万小时的数字化语音数据,但只有165小时可供购买。此后,他的创业公司为微软的人工智能服务收集了1万小时的马拉地语语音数据,由来自五个不同地区的男性和女性朗读。

乔普拉说:“科技公司想要数据、口音等等。“你咳嗽,他们希望在讲话中出现这种声音——这代表了自然语言。”

微软印度研究院(Microsoft Research India)研究数据收集伦理的研究员赛卡特·古哈(Saikat Guha)说,他还利用Karya的内容开展了一个项目,帮助视力障碍者找工作。古哈说:“这些数据的质量远远好于我使用过的任何其他来源。”“如果你给员工公平的薪酬,他们会更投入到工作中,最终的结果是更好的数据。”

与此同时,超过3万名受过教育的年轻女性正在与Karya合作,帮助用六种印度语言为比尔和梅林达·盖茨基金会收集“性别意识”数据集——比如医生或老板并不总是男性。这是印度语言领域最大的此类努力,将作为构建数据集的语料库,以减少法学硕士中与性别相关的偏见。

卡里亚不会止步于印度。该公司表示,他们正在谈判将其平台作为服务出售给非洲和南美的组织,这些组织将从事类似的工作。

他了解到,微软一直在为收集语音数据(尽管质量很差)支付巨额费用,以支持其人工智能系统和研究。例如,2017年,尽管马拉地语(孟买及其西印度地区使用的一种语言)有100万小时的数字化语音数据,但只有165小时可供购买。此后,他的创业公司为微软的人工智能服务收集了1万小时的马拉地语语音数据,由来自五个不同地区的男性和女性朗读。

乔普拉说:“科技公司想要数据、口音等等。“你咳嗽,他们希望在讲话中出现这种声音——这代表了自然语言。”

微软印度研究院(Microsoft Research India)研究数据收集伦理的研究员赛卡特·古哈(Saikat Guha)说,他还利用Karya的内容开展了一个项目,帮助视力障碍者找工作。古哈说:“这些数据的质量远远好于我使用过的任何其他来源。”“如果你给员工公平的薪酬,他们会更投入到工作中,最终的结果是更好的数据。”

与此同时,超过3万名受过教育的年轻女性正在与Karya合作,帮助用六种印度语言为比尔和梅林达·盖茨基金会收集“性别意识”数据集——比如医生或老板并不总是男性。这是印度语言领域最大的此类努力,将作为构建数据集的语料库,以减少法学硕士中与性别相关的偏见。

卡里亚不会止步于印度。该公司表示,他们正在谈判将其平台作为服务出售给非洲和南美的组织,这些组织将从事类似的工作。

 
举报 0 收藏 0 打赏 0
 
更多>同类相关
相关推荐
最新的资讯
点击排行