皆大欢喜!维基百科使用AI符号网络歹意谈论 键盘侠请好自为之

前瞻网 / 2018年08月21日 18:13

品牌

维基百科社区是一个免费的百科全书,它是建立在一个揭露可修正内容的形式之上的,但因其歹意谈论而声名大降。这个问题十分严峻,导致活泼投稿人或修正者——那些每月奉献一篇修正文稿的人士——在8年的时间里下降了40%。支撑维基百科的维基媒体基金会(Wikimedia Foundation,非营利安排)决议运用人工智能来更多地了解这个问题,并考虑怎么处理这个问题。

与维基媒体基金会和Jigsaw协作以阻挠歹意谈论

为了阻挠这些歹意进犯,维基媒体基金会与Jigsaw(科技孵化公司,前称为Google Ideas)协作展开了一项名为“排毒”的研讨项目,该项目运用机器学习技能来符号可能形成人身进犯的谈论。这个项目是Jigsaw创立开源人工智能东西用来协助对立交际媒体渠道和网络论坛上的打扰的方案的一部分。

该项意图第一步是运用来自维基百科说话页面的10万条歹意谈论进行练习机器学习算法,这些谈论由一支4000人的团队辨认,每个谈论都由10个不同的人类评定员进行。这个带注释的数据集是有史以来最大的一个关于网络乱用的数据集。这不只包含直接的人身进犯,还包含第三方和直接的人身进犯(“你很可怕”、“鲍勃是可怕的”、“莎莉说鲍勃很可怕”)。经过练习后,这些机器能够断定一条谈论是否是一条触及人身进犯的谈论。

然后,项目组在2001年至2015年的14年间,对维基百科上6300万条英文谈论进行了算法检查,以找出歹意谈论的形式。他们的发现概述刊载在《 Ex Machina》论文名《个人进犯大规模呈现》中:

1. 在一切被定性为歹意的谈论中,超越80%的谈论是由9000多人宣布的,他们在一年内只宣布了不到5条谩骂性谈论。

2. 近10%的进犯性言辞都是由34个用户宣布的。

3. 匿名用户占维基百科一切谈论的34%。

4. 超越一半的个人言辞进犯是由注册用户施行的,虽然匿名用户建议个人进犯的可能性是注册用户的六倍。(注册用户是匿名用户的20倍。)

方针修订点评效劳(ORES体系)

维基百科修正人数大幅下降的另一个原因被认为是该安排杂乱的官僚机构以及严苛的修正战略。关于初度投稿者/修正者来说,在没有任何解说的状况下,一项完结的作业被销毁是很常见的。他们期望运用ORES体系来对立这种状况:这台机器就像一个修正体系,由一种练习有素的算法供给支撑,用来对修正和修正的质量打分。维基百科的修正们运用一个在线东西来符号曩昔修正的比如,这就是这个算法怎么被教训辨认过错的严峻性。ORES体系能够辅导人类审理最具破坏性的修正,并断定过错的严峻程度——新手的过错会被更恰当地视为无辜之举。

AI写维基百科文章

Google Brain中的一个团队教软件总结网页上的信息,并写一篇维基百科式的文章。事实证明,文本摘要比咱们大多数人幻想的要难。Google Brain让机器对内容进行的总结比之前的测验略好一些,但在机器能够像人类那样有节奏、有才调地写作之前,还有许多作业要做。事实证明,咱们还没有准备好让机器主动生成维基百科条目,但咱们正在努力实现这一点。

虽然维基百科运营中的人工智能用例仍在优化中,但机器无疑能够协助安排剖析它们每天生成的很多数据。更好的信息和剖析能够协助维基百科创立成功的战略,以扫除来自其社区的负面影响,并为其奉献者处理招聘问题。

1. 中国品牌新闻网遵循行业规范,任何转载的稿件都会明确标注作者和来源;2. 中国品牌新闻网的原创文章,请转载时务必注明文章作者和"来源: 中国品牌新闻网",不尊重原创的行为 中国品牌新闻网或将追究责任;3.作者投稿可能会经 中国品牌新闻网编辑修改或补充。