我的位置:首页>文章详情

知乎上线“AI搜索”功能 中文语料资源短缺有待破解

3月20日,知乎正式发布了全新AI功能“发现·AI搜索”。这也是继去年发布“知海图AI”大模型后,知乎在人工智能方面的又一重要进展。

据知乎创始人、董事长兼CEO周源介绍,知乎的AI搜索集搜索、实时问答和追问功能于一体,而且与其他大模型提供的内容不同,知乎AI搜索的内容均来自社区专业创作者的可信赖内容。

上图为记者测试知乎AI搜索

记者测试发现,在知乎AI搜索中提问“如何使用大模型”,除了其他语言大模型都有的文字回答外,知乎AI搜索还在结果上面列入了内容来源,比如记者测试的问题答案,就有6位答主参与了贡献,并且可以通过点击直接跳转至这些回答页面。

知乎COO、高级副总裁、社区业务负责人张宁在接受21世纪经济报道记者采访时表示,知乎的AI产品一定是建立在社区生态上面的。“我们一直在思考的是,AI搜索搜出的结果,如何再反哺给创作者,让创作者感觉到内容是被更多人看到的”。

所以在内容呈现上,知乎有别于其他模型,会在回答内容中标注内容来源,这样既提升了内容的可溯源性,加大了对创作者的曝光,同时也大大增强了用户对内容的信任度。

记者了解到,知乎的AI搜索功能是以AI创业公司面壁智能的大模型产品为基础。面壁智能成立于2022年8月,创始成员全部来自清华大学NLP实验室。2023年3月,知乎作为领投方参与了面壁智能的天使轮融资,同年4月,知乎联合面壁智能发布了“知海图AI”中文大模型。

周源此前曾向21世纪经济报道记者表示,在AI时代,生产力的三要素分别是应用场景、专有数据和基础模型。其中,知乎在应用场景和专有数据方面,占据独特优势。而在基础模型方面,投资面壁智能并与其进行模型共建,是知乎构建基础模型层能力时,选择的一条捷径。

而这次“AI搜索”功能上线,算是知乎在大模型技术应用上的一个阶段性成果。张宁告诉21世纪经济报道,知乎针对AIGC的布局,在ToC产品上会聚焦于“AI搜索”。

“因为AI搜索跟知乎用户的心智是高度对齐的,用户希望在知乎解决问题,希望获得专业可信赖的优质解答,而正是AI搜索所提供的能力”。张宁说。

所以接下来,知乎也会在AI搜索方面投入更多精力,包括在特定的专业领域上进行更多的数据标注,以提高生成内容的可信度。

目前,市面上做AI搜索的公司已经不少,对知乎而言,其拥有的一大优势就是高质量的中文语料。公开数据显示,截至2022年底,知乎累计拥有6310万名内容创作者,他们贡献了约5.06亿条问答内容,覆盖超过1000个垂直领域。

在大模型训练过程中,训练预料质量将直接影响大模型输出内容质量。各个厂商为了提升模型质量,往往会投入大量资源对数据进行标注。但张宁向记者表示,知乎在数据标注上的投入,远低于其他厂商。

张宁进一步表示,知乎AI搜索的第一个版本在春节前一周就已经上线,后面经过一个多月的灰度测试,“我们收到的整体反馈是,回答质量要高于预期”。

在张宁看来,这个结果也印证了知乎中文语料的优质。“说实话,这么短的时间内我们不太可能做特别大规模的数据标注,但取得这样的结果,说明我们的数据底子好。过去大家一直说知乎的内容质量高,这次也通过AI训练的方式进行了验证”。

不过,按照大模型的发展速度,知乎储备的中文语料数据未来或也将捉襟见肘。今年年初,周源在接受记者采访时也曾提到中文语料短缺的问题。他说,中文优质数据的稀缺,导致国内许多从事大模型开发的研究机构和企业在进行模型训练时,不得不依赖于外文标注数据集、开源数据集,或是爬取网络数据。

在他看来,解决中文语料资源短缺的问题,实际上应该是先构建“水库”,然后再去合理使用的过程。但是现在,行业对构建“水库”的工作重视不够,反而都比较看重怎么去“打水”,所以未来几年,中文语料资源短缺都将是一个特别严重的问题。(记者 白杨)

来源:21世纪经济报道

责任编辑:王海山

评论一下
评论 0人参与,0条评论
还没有评论,快来抢沙发吧!
最热评论
最新评论
已有0人参与,点击查看更多精彩评论