新足迹 › 论坛 › 兴趣爱好区 › IT与科技 › AI 相关 › 印度的AI梦想正在语言转换中迷失

精华好帖回顾
· 乘坐VIVA MACAU回国全攻略 (2008-8-27) anitalx	· 那些花儿 (2018-7-23) jamesadachi
· 胡砍摄影 (2008-11-4) dickson	· 进入心情的低谷了（附加心情日记） (2005-9-14) Monica

查看: 784|回复: 16

印度的AI梦想正在语言转换中迷失 [复制链接]

dootbear

版主

发表于 2026-6-30 07:00 |显示全部楼层

此文章由 dootbear 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 dootbear 所有！转贴必须注明作者、出处和本声明，并保持内容完整

彭博社：印度的AI梦想正在语言转换中迷失

今年早些时候，印度总理莫迪在新德里接待世界领导人和科技公司高管时宣称，AI必须被“民主化”，并成为“包容和赋权的媒介，尤其是在全球南方”。

这对硅谷来说是一个方便的愿景。硅谷正处于一场持续争夺这一高利润市场的竞赛中。印度人口年轻、熟悉科技，而且以移动端优先，已成为AI最重要的增长地区之一。在OpenAI的ChatGPT和Anthropic的Claude使用量上，印度都仅次于美国。

但无论是“包容”梦想，还是科技扩散带来的商业梦想，关键都在于克服语言障碍。印度有近20多种官方语言和100多种方言。如果AI无法弥合这一差距，它只会变成另一种把讲英语的精英与其他人分隔开的技术。真正的本地化将取决于模型能否理解孟加拉语语音留言、古吉拉特语支付查询，以及印地语和英语混杂的商务电话，这些混乱却真实的日常口语，正推动着日常商业和公共生活。

超过10亿人使用印度语系语言。然而，一项研究发现，GPT 5在一项由人工整理的基准测试中，对其中11种语言的准确率仅约45%，其中包括莫迪的母语古吉拉特语。

第一代AI工具是在互联网文本上训练的，而其中大多数是英语。技术改进和更好的数据集，已帮助近来的模型改善非英语和所谓“低资源语言”的表现，也就是训练数据较少的语言。但语言鸿沟依然存在，尤其是在语音方面。语音预计将成为下一种大众化模型交互方式。

由Andreessen Horowitz支持的数据基础设施初创公司Poseidon联合创始人钦查利（Sandeep Chinchali）对我说：“语音是人类最直观的界面，尤其是在较不发达地区。”他补充说，南亚“什么都用语音”，企业通过电话、WhatsApp语音备忘录、语音支付以及越来越多的语音编程工具来运营。无法理解这些互动的AI系统，在自动化这类工作时将毫无用处，更不用说在公共服务中还可能存在危险。

一个问题是，非英语模型缺乏合适的基准测试。例如，领先模型甚至无法就正确的孟加拉语，一种有超过2.8亿人使用的语言，应该是什么样子达成一致。钦查利说，问题的核心仍然是数据，而且不只是数量问题，孟加拉语在网络文本中占比不到0.1%，也包括质量问题。

印度语系口语又增加了一层难度：地区变体、背景噪音，以及技术和金融对话中频繁出现的语码转换。用于AI训练的语音数据，需要准确转录、更长音频片段、多样化的声学环境、人口和地区变体，以及细致的人工审核，才能真正改善AI模型。用较窄数据集训练的系统，往往会在现实世界中失败，因为真实对话会在不同场景中混合地方俚语和借用的英语词汇。

印度企业界明白其中利害。破解语言挑战，已成为该国更广泛主权AI推进的核心。印度本土AI希望之星Sarvam AI联合创始人库马尔（Pratyush Kumar）本月在宣布新一轮融资时发表声明称，打造能够“以印度规模”运作的AI带来巨大机会。这意味着模型要能“理解我们的声音”和“阅读我们的文件”。4月，这家被许多人寄予厚望、希望帮助印度在美中AI竞赛中追赶的初创公司，推出了一项新的印度语系语音识别评估，认为标准指标并不是为这些语言设计的，可能会扭曲对这类系统的判断。

美国科技巨头也在关注。OpenAI去年推出了一套评估AI系统对印度文化和语言理解能力的框架。莫迪政府也推出了一个翻译平台，同时收集语音数据，以改进多语言模型。

但众包并非万能药。高标准和人工整理仍然至关重要。斯坦福大学一个团队去年在一篇论文中警告说，在试图扩大这类项目规模时，质量已成为关键挑战。该论文也提出了伦理问题，因为这一行业长期存在低薪和剥削历史。

Poseidon的钦查利说，该公司曾与印度一家供应商合作，而这家供应商承诺提供公平薪酬，并正在探索区块链工具，让贡献者对其数据如何被使用拥有更大发言权。例如，他们的数据是被本国公司使用，还是被泄露出去用于训练外国AI工具。这些都是好的步骤，也应该成为基线，而不是例外。

印度政府已经强制高中生学习3种语言，其中包括2种本土语言。如果莫迪认真想让印度成为AI超级大国，他就应该对模型开发者提出类似要求，并制定政策，确保系统真正能够理解印度的语言多样性。

这也涉及安全问题。随着AI进入学校、医院、法院和公共服务，语言失败会带来后果。研究人员发现，当人们用低资源语言与AI互动时，安全对齐往往会恶化。这意味着最可能被技术革命甩在后面的人，也可能最缺乏对其风险的保护。

弥合语言鸿沟，是硅谷打开下一个增长市场的关键。如果这项技术甚至无法理解它声称要赋权的人，那么莫迪所承诺的“人人幸福、人人福利”将显得空洞。

来源：

https://www.bloomberg.com/opinio ... ?srnd=homepage-asia

June 29, 2026 at 5:00 AM GMT+10

By Catherine Thorbecke

人工智能, 语言, 翻译

相关帖子

我的：Foxess的家庭太阳能-储蓄电池观察网页

dootbear

版主

发表于 2026-6-30 07:01 |显示全部楼层

此文章由 dootbear 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 dootbear 所有！转贴必须注明作者、出处和本声明，并保持内容完整

本文要点:

1. 印度已成为全球AI增长最重要的市场之一，但多语言和方言环境让AI普及面临巨大挑战。

2. 印度有超过10亿人使用印度语系语言，但现有AI模型在孟加拉语、古吉拉特语等低资源语言上的准确率仍然有限，尤其是语音理解方面。

3. 真实印度语音场景包含地区口音、噪音、方言和印地语英语混杂，对AI训练数据质量和评估标准提出更高要求。

4. 印度本土AI公司、OpenAI和莫迪政府都在推动本地语言模型、语音数据收集和评估体系，但众包数据仍需高标准人工审核和公平薪酬机制。

5. 文章认为，如果AI无法真正理解印度语言多样性，它不仅会削弱硅谷在印度的商业机会，也会让莫迪关于AI包容和赋权的承诺落空。

我的：Foxess的家庭太阳能-储蓄电池观察网页