本篇文章1293字,读完约3分钟
七夕将至,你有没有收到过电商商店推出的打折促销信息?你经常收到财务管理、贷款和购房等信息吗?如果你是苹果用户,你有没有收到过我在半夜推销赌场、假货、股票和色情信息的信息?
商家需要通过中国移动和中国联通等运营商向安卓用户推送广告信息,这将截获一些非法信息。对于苹果用户来说,商家甚至罪犯都可以通过即时消息渠道,通过互联网直接向用户推送垃圾信息。目前,苹果还没有采取有效的屏蔽和拦截措施。
最近,苹果官员终于表示,他们正在探索更先进的机器学习模式识别和过滤垃圾邮件。机器学习模型如何过滤垃圾邮件?技术难点是什么?《科技日报》记者采访了相关专家。
机器学习作为人工智能的核心技术,是计算机模拟人类思维的一种学习行为,它使计算机变得智能。基于机器学习的垃圾邮件过滤技术实际上是一个二元分类过程,机器学习模型需要回答& lsquo是或& lsquo不,是为了从大量信息中分离出垃圾短信。北京语言大学大数据与语言教育研究所所长荀恩东教授在接受《科技日报》采访时表示,首先要准备好人工标注的数据,然后构建机器学习的参数模型。最后,它应该被训练和测试,直到模型被应用于解决实际问题。
目前,市场上大多数用于识别垃圾邮件和短消息的机器学习模型都使用文本显式特征的分析和提取。荀恩东解释说,所谓显性特征是指垃圾邮件的关键词、表现形式、特殊符号、变体文字和敏感表达等外部特征。通过总结这些多元和离散的特征元素,可以形成一个明确的特征列表,然后可以构建一个模型来区分垃圾邮件。
这种分类方法效率高、成本低、数据量少,但也存在适应性差、识别准确率低等缺点。荀恩东指出,如果垃圾邮件发送者掌握了用户拦截系统的显式特征列表,就可以调整垃圾邮件的敏感词汇,改变表达形式,从而有效地规避拦截系统。因此,分类器需要实时动态更新显式特征列表。尽管如此,列表中的元素数量非常有限,导致过滤效果差,分类器的准确率低。
基于显性特征的分类方法有其固有的缺陷,因此苹果可能会将注意力转向隐性特征分类,即深度学习模型。荀恩东说,深度学习模型可以深度挖掘海量数据中的信息,从信息的语义和内容上区分垃圾邮件。也就是说,对于相同的销售信息,深度学习模型是基于一个巨大的数据库,可以分析其各种表达方式,从而做出更准确的判断。只有通过改变文本形式,我们才能逃脱深度学习模式的眼睛。深度学习模型省去了早期建立大量显示特征列表的工作,只需要标记垃圾和非垃圾信息,不仅提高了效率,而且大大提高了识别准确率。
基于深度学习的垃圾邮件过滤技术也面临许多技术难题。复旦大学计算机科学与技术学院的张俊平教授说,尽管有大数据的支持,深度学习模式在很多方面不能像人一样有效地分析和理解信息的内容。例如,单个汉字的逆序可能不会影响阅读,但深层学习模式没有人脑聪明。此外,组合爆炸也是难点之一。垃圾邮件涉及广泛的领域和形式。大数据深度学习模型可以有效地对现有的垃圾邮件进行分类,但它可能被新的垃圾邮件所包围。
这需要借助一些技术,如短期记忆网络或更新,定期更新深度学习模型。张俊平认为,自然语言处理中的一些句子之间的关系也可以考虑进一步改进深度学习算法,从而提高其预测和分类能力。
标题:借助机器学习,对垃圾信息说“不”
地址:http://www.ictaa.cn/hlwxw/5701.html