|
|
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
彭博社:印度的AI梦想正在语言转换中迷失
今年早些时候,印度总理莫迪在新德里接待世界领导人和科技公司高管时宣称,AI必须被“民主化”,并成为“包容和赋权的媒介,尤其是在全球南方”。
这对硅谷来说是一个方便的愿景。硅谷正处于一场持续争夺这一高利润市场的竞赛中。印度人口年轻、熟悉科技,而且以移动端优先,已成为AI最重要的增长地区之一。在OpenAI的ChatGPT和Anthropic的Claude使用量上,印度都仅次于美国。
但无论是“包容”梦想,还是科技扩散带来的商业梦想,关键都在于克服语言障碍。印度有近20多种官方语言和100多种方言。如果AI无法弥合这一差距,它只会变成另一种把讲英语的精英与其他人分隔开的技术。真正的本地化将取决于模型能否理解孟加拉语语音留言、古吉拉特语支付查询,以及印地语和英语混杂的商务电话,这些混乱却真实的日常口语,正推动着日常商业和公共生活。
超过10亿人使用印度语系语言。然而,一项研究发现,GPT 5在一项由人工整理的基准测试中,对其中11种语言的准确率仅约45%,其中包括莫迪的母语古吉拉特语。
第一代AI工具是在互联网文本上训练的,而其中大多数是英语。技术改进和更好的数据集,已帮助近来的模型改善非英语和所谓“低资源语言”的表现,也就是训练数据较少的语言。但语言鸿沟依然存在,尤其是在语音方面。语音预计将成为下一种大众化模型交互方式。
由Andreessen Horowitz支持的数据基础设施初创公司Poseidon联合创始人钦查利(Sandeep Chinchali)对我说:“语音是人类最直观的界面,尤其是在较不发达地区。”他补充说,南亚“什么都用语音”,企业通过电话、WhatsApp语音备忘录、语音支付以及越来越多的语音编程工具来运营。无法理解这些互动的AI系统,在自动化这类工作时将毫无用处,更不用说在公共服务中还可能存在危险。
一个问题是,非英语模型缺乏合适的基准测试。例如,领先模型甚至无法就正确的孟加拉语,一种有超过2.8亿人使用的语言,应该是什么样子达成一致。钦查利说,问题的核心仍然是数据,而且不只是数量问题,孟加拉语在网络文本中占比不到0.1%,也包括质量问题。
印度语系口语又增加了一层难度:地区变体、背景噪音,以及技术和金融对话中频繁出现的语码转换。用于AI训练的语音数据,需要准确转录、更长音频片段、多样化的声学环境、人口和地区变体,以及细致的人工审核,才能真正改善AI模型。用较窄数据集训练的系统,往往会在现实世界中失败,因为真实对话会在不同场景中混合地方俚语和借用的英语词汇。
印度企业界明白其中利害。破解语言挑战,已成为该国更广泛主权AI推进的核心。印度本土AI希望之星Sarvam AI联合创始人库马尔(Pratyush Kumar)本月在宣布新一轮融资时发表声明称,打造能够“以印度规模”运作的AI带来巨大机会。这意味着模型要能“理解我们的声音”和“阅读我们的文件”。4月,这家被许多人寄予厚望、希望帮助印度在美中AI竞赛中追赶的初创公司,推出了一项新的印度语系语音识别评估,认为标准指标并不是为这些语言设计的,可能会扭曲对这类系统的判断。
美国科技巨头也在关注。OpenAI去年推出了一套评估AI系统对印度文化和语言理解能力的框架。莫迪政府也推出了一个翻译平台,同时收集语音数据,以改进多语言模型。
但众包并非万能药。高标准和人工整理仍然至关重要。斯坦福大学一个团队去年在一篇论文中警告说,在试图扩大这类项目规模时,质量已成为关键挑战。该论文也提出了伦理问题,因为这一行业长期存在低薪和剥削历史。
Poseidon的钦查利说,该公司曾与印度一家供应商合作,而这家供应商承诺提供公平薪酬,并正在探索区块链工具,让贡献者对其数据如何被使用拥有更大发言权。例如,他们的数据是被本国公司使用,还是被泄露出去用于训练外国AI工具。这些都是好的步骤,也应该成为基线,而不是例外。
印度政府已经强制高中生学习3种语言,其中包括2种本土语言。如果莫迪认真想让印度成为AI超级大国,他就应该对模型开发者提出类似要求,并制定政策,确保系统真正能够理解印度的语言多样性。
这也涉及安全问题。随着AI进入学校、医院、法院和公共服务,语言失败会带来后果。研究人员发现,当人们用低资源语言与AI互动时,安全对齐往往会恶化。这意味着最可能被技术革命甩在后面的人,也可能最缺乏对其风险的保护。
弥合语言鸿沟,是硅谷打开下一个增长市场的关键。如果这项技术甚至无法理解它声称要赋权的人,那么莫迪所承诺的“人人幸福、人人福利”将显得空洞。


来源:
https://www.bloomberg.com/opinio ... ?srnd=homepage-asia
June 29, 2026 at 5:00 AM GMT+10
By Catherine Thorbecke |
|