今日头条副总编辑李彤:我们为什么需要专家监

2018-03-31

  过去的两年里,公司取得了很多成绩,作为其中一份子,我与有荣焉。但同时,在这段时间里,公司也在内外受到了一些质疑和批评,其中不少是针对内容领域的,作为一个编辑,我倍感压力。

  前不久公司组建了今日头条专家团,邀请社会各界的专家学者来对我们的内容进行监督,征求意见。在我看来这是件好事,引入权威意见能够帮助我们改善内容和服务质量。

  同事的看法一直以来都存在,技术同事觉得应该减少人工对于系统的干预,原因在于,人工的判断在准确度和可靠性上都不如海量数据集合后的结果。

  一个人一天能够处理的文章数量大概是1000篇,相比之下,机器一秒钟就能处理100篇文章。今日头条每天新增发布50万条内容,全部交由人工来筛的线天才能看完,机器则只需要90分钟。今日头条目前搭建色情、低俗、标题党、虚假信息、低质模型180多个,都可以有效提升内容审核的效率。

  以色情内容为例,机器对于裸露的识别是有局限性的。一个经典的案例是,Facebook曾经因为“裸露”,误伤了一张著名的越战新闻照片,照片里一位小女孩遭到汽油弹炸伤、浑身赤裸奔跑。今日头条也有过类似的情况。此前,我们下架了一张关于吴哥窟塑像的图片,塑像虽然“露点”,但其实是名胜古迹。这是基于我们的审核标准,造成了机器的“误伤”。

  一般来说,机器识别是需要大量的数据积累,再对于算法模型进行训练。这需要满足两个要求,一定的数据量和一定的学习时间。

  比如平台上的泛低质识别涉及的情况非常多,像假新闻、黑稿、题文不符、标题党、内容质量低等等,这部分内容由机器理解是非常难的,需要大量反馈信息,包括其他样本信息比对。

  再比如,一些专业化领域的知识,由于缺乏数据积累机器难以识别,普通人也很难做出判断。在机器能够充分识别这些冷门信息之前,会有一个积累数据和学习的时间窗口。

  这些过往实践中所遇到的问题,都可以通过专家意见来获得有效的改善。专家可以在发现低质量、不准确内容的第一时间做出反馈,从而大大缩短机器学习的时间。在后续模型优化的过程中,专家的意见可以作为重要的参考要素。

  说这些显然不是否定公司的技术。恰恰相反,从传统媒体人转变为今日头条的编辑,我见证了人工智能技术能够为信息的传播带来的全新变化。优质的资讯、信息,通过今日头条强大技术精准地分发到每个用户的手机上。

  我们甚至把过去的寻人启示,利用人工智能技术改造,创造出了头条寻人这样帮助寻找走失人员的项目,对我来说,在过去是难以想象的。

  也正是如此,我由衷的希望,在不断地提升机器的能力,用更好、更精确地算法模型来对内容进行审核推荐的同时,能够有更正确价值观指导平台内容。

  我真诚地欢迎专家团的组建,也希望在未来的日子里,能够有更多各行各业的专家、学者、媒体人、研究人士能够参与进来,对平台内容和服务进行监督,更好地提升内容质量。