Google 已用 75 种主要语言训练「MUM」语言模型 要让搜寻更加精準

「MUM」运作时有三个流程:了解语言背后含意、透过多路分析判断,深入了解资讯,最后做出比对结果,但是光是第一个步骤就会面临极大挑战,比方目前对应新型冠状病毒的17款疫苗,至少就透过50种语言以超过800种名称称呼,其中辉瑞疫苗或莫德纳疫苗均

「MUM」运作时有三个流程:了解语言背后含意、透过多路分析判断,深入了解资讯,最后做出比对结果,但是光是第一个步骤就会面临极大挑战,比方目前对应新型冠状病毒的17款疫苗,至少就透过50种语言以超过800种名称称呼,其中辉瑞疫苗或莫德纳疫苗均有不同称呼方式,但是都是指相同疫苗,因此要在短时间理解判断使用者所指内容细节,并且能让使用者快速找到正确内容,势必要改善现行Google Search背后使用语言模型。

让Google Search搜寻结果更加精準

今年在Google I/O 2021期间,Google分别宣布两种语言模型「LaMDA」 (Language Model for Dialogue Applications),以及「MUM」 (Multitask Unified Model),藉此诠释未来在人机互动上的想像。而Google搜寻研究员暨副总裁Pandu Nayak在线上访谈中,更具体解释「MUM」背后运作原理,以及未来预计应用发展方向。

让系统以更全面形式判断使用者提问内容

按照字面上解释,「MUM」是由「Multitask Unified Models」三个字缩减为称,主要会分析字句中的关键内容进行比对,而不是仅作全面比对,因此与现行应用在Google Search的BERT、GPT-3模型採不同运算模式。

以先前在Google I/O 2021举例内容来看,当使用者说明先前已经完成在亚当斯山的徒步旅行,接下来希望尝试挑战富士山,若是以往的语言模型判断结果,可能就会直接显示富士山相关资讯,让使用者自行检视相关搜寻内容。

Google 已用 75 种主要语言训练「MUM」语言模型 要让搜寻更加精準▲「MUM」会针对语句中关键内容进行判断,并且找出主要字句作为判断依据,例如以亚当斯山与富士山作为主要比较条件

但在「MUM」语言模型运作下,系统会从使用者的描述中抓出关键比较条件,例如使用者已经去过亚当斯山,并且是以徒步旅行方式完成,因此会以此条件作为基础,进而与场景换成富士山,同在相同徒步旅行的条件下作比较,不会出现相同场景却有比较条件基础不一样的情况。

另外,由于「MUM」会进一步让系统了解人类语言结构与文字在不同情况下所代表意义,而非只是进行文字上的条件理解判断,因此在互动过程中会记下先前提问内容,让系统能在符合前因后果情况下正确回答问题。

因此当使用者在后续互动中提到计画秋天时启程,同时也透过拍摄登山靴照片询问是否适合穿着使用时,系统就会透过畔对先前提及计画前往富士山的条件,进而查询富士山过去在秋天时的气候状况,并且透过影像识别判断使用者所拍摄的登山靴,是否适合在富士山徒步旅行使用,避免出现错误判断情况。

Google 已用 75 种主要语言训练「MUM」语言模型 要让搜寻更加精準▲透过多工方式了解语言背后含意,例如提问内容包含适合富士山爬山的季节时,系统会自动透过资料比对得知适合爬山时间为7-9月,并且以此作为搜寻比对条件之一 Google 已用 75 种主要语言训练「MUM」语言模型 要让搜寻更加精準▲透过多路分析比对找到合适解答 Google 已用 75 种主要语言训练「MUM」语言模型 要让搜寻更加精準▲比对不同资讯内容,藉此判断使用者提问爬过亚当斯山的情况下,换成爬富士山是否会有困难

让机器了解人类语言是相当大的挑战,将以「MUM」精进Google Search搜寻结果

目前Google已经累积训练75种主要语言,藉此建立「MUM」语言模型,并且透过多路流程让系统分析判断使用者藉由文字、影像或语音等方式搜寻需求,进而找出最佳解答。在过程中,分别会透过第一个步骤了解语言背后含意,进而在第二步骤中透过东路流程进行判断,最后一个步骤则是深入了解使用者希望查找内容,并且提供合适答案。

Google 已用 75 种主要语言训练「MUM」语言模型 要让搜寻更加精準▲「MUM」运作时的三个流程:了解语言背后含意、透过多路分析判断,深入了解资讯,最后做出比对结果

不过,光是第一个步骤就会面临极大挑战,比方目前对应新型冠状病毒的17款疫苗,至少就透过50种语言以超过800种名称称呼,其中辉瑞疫苗或莫德纳疫苗均有不同称呼方式,但是都是指相同疫苗,因此要在短时间理解判断使用者所指内容细节,并且能让使用者快速找到正确内容,势必要改善现行Google Search背后使用语言模型。

而透过「MUM」语言模型支援跨语言移转知识能力,即可让系统快速对应不同语言,并且寻找相同内容结果,就像使用者同时精通多国语言,可以透过不同语言诠释相同内容,不会因为使用语言差异让诠释结果截然不同。同时,在系统学习全新语言之后,可直接与已经学习知识建立连结,无需重新学习,更凸显「MUM」语言模型持续扩充弹性。

Google 已用 75 种主要语言训练「MUM」语言模型 要让搜寻更加精準▲目前全球以50种语言称呼的新型冠状病毒疫苗名称,目前已经超过800种

「MUM」不会取代现行使用语言模型,亦可学习无文字语言

Pandu Nayak强调「MUM」不会取代目前使用的BERT、GPT-3语言模型 (至少目前不会),而是会以强化形式让Google Search更能理解使用者在搜寻过程所指内容。

而对于无法透过文字传递的语言,Pandu Nayak则说明目前建构语言模型所使用数据,其实不仅是文字内容,同时也包含影像、影片及声音等内容,透过大量数据关联之下,同样也能让「MUM」顺利建构语言模型。

与「LaMDA」锁定不同应用形式,但都会改变现有人机互动

至于跟先前同样在Google I/O 2021期间提出,同样也是让系统了解人类语言的模型「LaMDA」,则是会更聚焦在对话式的互动,例如让纸飞机或冥王星能以拟人形式与人「对话」。但相比「MUM」确定会应用在Google Search,「LaMDA」目前仍处于试验阶段,因此暂时未有明确应用规划。

从Google今年提出两种语言模型来看,其实可以更明确看见Google希望让使用者更容易透过Google Search找到正确解答的发展方向,并且能创造全新人机互动体验。

不过,目前包含「MUM」在内语言模型仅会用在Google Search,暂时没有对外开放使用计画。

Google 已用 75 种主要语言训练「MUM」语言模型 要让搜寻更加精準▲强化「MUM」反应效率将是未来持续发展重点

原创文章,作者:阿浩,如若转载,请注明出处:https://www.53moban.com/6673.html

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息