新足迹

 找回密码
 注册

精华好帖回顾

· 乘坐VIVA MACAU回国全攻略 (2008-8-27) anitalx · 那些花儿 (2018-7-23) jamesadachi
· 胡砍摄影 (2008-11-4) dickson · 进入心情的低谷了(附加心情日记) (2005-9-14) Monica
Advertisement
Advertisement
查看: 784|回复: 16

印度的AI梦想正在语言转换中迷失 [复制链接]

2012年度奖章获得者 2013年度奖章获得者

发表于 2026-6-30 07:00 |显示全部楼层
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
彭博社:印度的AI梦想正在语言转换中迷失

今年早些时候,印度总理莫迪在新德里接待世界领导人和科技公司高管时宣称,AI必须被“民主化”,并成为“包容和赋权的媒介,尤其是在全球南方”。

这对硅谷来说是一个方便的愿景。硅谷正处于一场持续争夺这一高利润市场的竞赛中。印度人口年轻、熟悉科技,而且以移动端优先,已成为AI最重要的增长地区之一。在OpenAI的ChatGPT和Anthropic的Claude使用量上,印度都仅次于美国。

但无论是“包容”梦想,还是科技扩散带来的商业梦想,关键都在于克服语言障碍。印度有近20多种官方语言和100多种方言。如果AI无法弥合这一差距,它只会变成另一种把讲英语的精英与其他人分隔开的技术。真正的本地化将取决于模型能否理解孟加拉语语音留言、古吉拉特语支付查询,以及印地语和英语混杂的商务电话,这些混乱却真实的日常口语,正推动着日常商业和公共生活。

超过10亿人使用印度语系语言。然而,一项研究发现,GPT 5在一项由人工整理的基准测试中,对其中11种语言的准确率仅约45%,其中包括莫迪的母语古吉拉特语。

第一代AI工具是在互联网文本上训练的,而其中大多数是英语。技术改进和更好的数据集,已帮助近来的模型改善非英语和所谓“低资源语言”的表现,也就是训练数据较少的语言。但语言鸿沟依然存在,尤其是在语音方面。语音预计将成为下一种大众化模型交互方式。

由Andreessen Horowitz支持的数据基础设施初创公司Poseidon联合创始人钦查利(Sandeep Chinchali)对我说:“语音是人类最直观的界面,尤其是在较不发达地区。”他补充说,南亚“什么都用语音”,企业通过电话、WhatsApp语音备忘录、语音支付以及越来越多的语音编程工具来运营。无法理解这些互动的AI系统,在自动化这类工作时将毫无用处,更不用说在公共服务中还可能存在危险。

一个问题是,非英语模型缺乏合适的基准测试。例如,领先模型甚至无法就正确的孟加拉语,一种有超过2.8亿人使用的语言,应该是什么样子达成一致。钦查利说,问题的核心仍然是数据,而且不只是数量问题,孟加拉语在网络文本中占比不到0.1%,也包括质量问题。

印度语系口语又增加了一层难度:地区变体、背景噪音,以及技术和金融对话中频繁出现的语码转换。用于AI训练的语音数据,需要准确转录、更长音频片段、多样化的声学环境、人口和地区变体,以及细致的人工审核,才能真正改善AI模型。用较窄数据集训练的系统,往往会在现实世界中失败,因为真实对话会在不同场景中混合地方俚语和借用的英语词汇。

印度企业界明白其中利害。破解语言挑战,已成为该国更广泛主权AI推进的核心。印度本土AI希望之星Sarvam AI联合创始人库马尔(Pratyush Kumar)本月在宣布新一轮融资时发表声明称,打造能够“以印度规模”运作的AI带来巨大机会。这意味着模型要能“理解我们的声音”和“阅读我们的文件”。4月,这家被许多人寄予厚望、希望帮助印度在美中AI竞赛中追赶的初创公司,推出了一项新的印度语系语音识别评估,认为标准指标并不是为这些语言设计的,可能会扭曲对这类系统的判断。

美国科技巨头也在关注。OpenAI去年推出了一套评估AI系统对印度文化和语言理解能力的框架。莫迪政府也推出了一个翻译平台,同时收集语音数据,以改进多语言模型。

但众包并非万能药。高标准和人工整理仍然至关重要。斯坦福大学一个团队去年在一篇论文中警告说,在试图扩大这类项目规模时,质量已成为关键挑战。该论文也提出了伦理问题,因为这一行业长期存在低薪和剥削历史。

Poseidon的钦查利说,该公司曾与印度一家供应商合作,而这家供应商承诺提供公平薪酬,并正在探索区块链工具,让贡献者对其数据如何被使用拥有更大发言权。例如,他们的数据是被本国公司使用,还是被泄露出去用于训练外国AI工具。这些都是好的步骤,也应该成为基线,而不是例外。

印度政府已经强制高中生学习3种语言,其中包括2种本土语言。如果莫迪认真想让印度成为AI超级大国,他就应该对模型开发者提出类似要求,并制定政策,确保系统真正能够理解印度的语言多样性。

这也涉及安全问题。随着AI进入学校、医院、法院和公共服务,语言失败会带来后果。研究人员发现,当人们用低资源语言与AI互动时,安全对齐往往会恶化。这意味着最可能被技术革命甩在后面的人,也可能最缺乏对其风险的保护。

弥合语言鸿沟,是硅谷打开下一个增长市场的关键。如果这项技术甚至无法理解它声称要赋权的人,那么莫迪所承诺的“人人幸福、人人福利”将显得空洞。





来源:

https://www.bloomberg.com/opinio ... ?srnd=homepage-asia

June 29, 2026 at 5:00 AM GMT+10

By Catherine Thorbecke
Advertisement
Advertisement

2012年度奖章获得者 2013年度奖章获得者

发表于 2026-6-30 07:01 |显示全部楼层
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本文要点:

1. 印度已成为全球AI增长最重要的市场之一,但多语言和方言环境让AI普及面临巨大挑战。

2. 印度有超过10亿人使用印度语系语言,但现有AI模型在孟加拉语、古吉拉特语等低资源语言上的准确率仍然有限,尤其是语音理解方面。

3. 真实印度语音场景包含地区口音、噪音、方言和印地语英语混杂,对AI训练数据质量和评估标准提出更高要求。

4. 印度本土AI公司、OpenAI和莫迪政府都在推动本地语言模型、语音数据收集和评估体系,但众包数据仍需高标准人工审核和公平薪酬机制。

5. 文章认为,如果AI无法真正理解印度语言多样性,它不仅会削弱硅谷在印度的商业机会,也会让莫迪关于AI包容和赋权的承诺落空。

2012年度奖章获得者 2013年度奖章获得者

发表于 2026-6-30 07:01 |显示全部楼层
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整

车同轨,书同文

发表于 2026-6-30 07:24 |显示全部楼层
此文章由 hipete 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hipete 所有!转贴必须注明作者、出处和本声明,并保持内容完整
亲测ChatGPT对粤语支持极度差

发表于 2026-6-30 07:44 来自手机 |显示全部楼层
此文章由 dinglongdong 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dinglongdong 所有!转贴必须注明作者、出处和本声明,并保持内容完整
资本逐利,这么早就看上了印度人市场了?现在每天亏几十亿,我反正不信

发表于 2026-6-30 08:04 来自手机 |显示全部楼层
此文章由 kanweng 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 kanweng 所有!转贴必须注明作者、出处和本声明,并保持内容完整
印度迟早毁了世界
Advertisement
Advertisement

发表于 2026-6-30 08:12 来自手机 |显示全部楼层
此文章由 figtree1 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 figtree1 所有!转贴必须注明作者、出处和本声明,并保持内容完整
印度一直存在语言文字的种姓制度,古代婆罗门用梵文,现代婆罗门用英语

发表于 2026-6-30 08:46 |显示全部楼层
此文章由 臭脚 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 臭脚 所有!转贴必须注明作者、出处和本声明,并保持内容完整
第六感告诉我AI长久不了

发表于 2026-6-30 08:57 来自手机 |显示全部楼层
此文章由 cwb1000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cwb1000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
现在是要花钱搞赢和中国的军备竞赛
花钱去学习印度语言 完了之后客户还不愿意花钱买服务还得免费送 真是脑洞大开

发表于 2026-6-30 09:12 |显示全部楼层
此文章由 xxzhbhy 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 xxzhbhy 所有!转贴必须注明作者、出处和本声明,并保持内容完整
臭脚 发表于 2026-6-30 08:46
第六感告诉我AI长久不了

目前看来就是泡沫,肯定会崩

发表于 2026-6-30 09:40 |显示全部楼层
此文章由 hgaox 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hgaox 所有!转贴必须注明作者、出处和本声明,并保持内容完整
【以及技术和金融对话中频繁出现的语码转换】

什么是语码转换?
Advertisement
Advertisement

发表于 2026-6-30 09:42 来自手机 |显示全部楼层
此文章由 Evo 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Evo 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 Evo 于 2026-6-30 10:43 编辑
dootbear 发表于 2026-6-30 08:01
车同轨,书同文



这个典故不能让韩婶知道了

另外支持印度语言和文化的多元化。


如果我不回你贴,可能是懒,也可能是不屑。如果是前者,请不要放在心上。如果是后者,请务必放在心上

发表于 2026-6-30 09:57 |显示全部楼层
此文章由 hankz 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hankz 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我們要支持印度的多元性,尊重印度人民的選擇就是對印度民主制度最高的致敬。

发表于 2026-6-30 10:57 来自手机 |显示全部楼层
此文章由 ittgx 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ittgx 所有!转贴必须注明作者、出处和本声明,并保持内容完整
印度会毁了又一个行业

发表于 2026-6-30 11:13 |显示全部楼层
此文章由 hustshane 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hustshane 所有!转贴必须注明作者、出处和本声明,并保持内容完整
分久必合 合久...

穆迪可能是担心如果AI不能助其黏合各民族/语系/部落 这个被大英帝国造出来的大儿子 恐难维系

发表于 2026-6-30 11:16 |显示全部楼层
此文章由 happyheros 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 happyheros 所有!转贴必须注明作者、出处和本声明,并保持内容完整
India has never been unified in the first place
Advertisement
Advertisement

发表于 2026-6-30 11:44 |显示全部楼层
此文章由 APSTNDP 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 APSTNDP 所有!转贴必须注明作者、出处和本声明,并保持内容完整
注音文字系统 vs 象形文字系统

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部