麻省理工学院称第三方Twitter机器人检测工具“不准确”:数据集过于简
,美国麻省理工学院的研究团队近日发表论文指出,现有的第三方推特(Twitter)机器人账户自动检测工具并不准确,因为其数据集过于简单,缺乏泛用性。
此前有消息称,机器人账户过多是阻止马斯克收购推特的原因之一。推特当时声称其日活跃用户中有 5% 是机器人账户,但马斯克表示这个数字要比 5% 高得多。
推特有自己的机器人账户识别系统,但并未公开。因此,对于普通公众而言,第三方工具是较为可行的检测方法。这些第三方工具使用从推特收集的数据集和机器学习模型来检测机器人的可疑迹象,许多工具和模型已被用于研究社交媒体上的机器人活动,相关论文甚至已达数千篇。
这些论文中的大多数基准数据集都是在不同推文中收集的数据集合,其中许多都是在特定推文中收集的,每条都由人类手动标记为机器人或人类。然而这种经过专门训练的机器人检测模型在该专业领域表现出色,却并没有涵盖全部领域,并且严重依赖于特定数据,而不是机器人和人类之间的根本差异。
当这些模型在其他领域的数据集上进行测试时,它们的准确性很差,几乎与随机预测水平相当。同时,在许多数据集上,即使是相对简单的模型也与最先进的机器学习模型准确率相当。
换言之,在一个数据集上训练的模型不能推广到其他数据集,现有的机器人检测数据集由于数据收集简单而通用性较低。
最后,研究人员警告说,当使用现有的机器人检测数据集时,用户应该仔细考虑可能存在哪些类型的偏差。研究人员认为,一个根本的解决方案是推特等社交媒体本身就应该为研究人员提供丰富、可靠的数据以及高质量的真实标签。
IT之家附上论文地址:点此前往
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
- 证通电子002197.SZ:已成功完成KS8123、ZT86
- 武铁管内三条国家Ⅰ级客货共线铁路启动集中整修
- 恒大汽车00708.HK:有意愿与纽顿集团针对拟议交易的方案
- 海昌海洋公园:十一黄金周8天接待游客近80万,“中原之海”出
- 2023年10月8日进口DDGS内外价差走势
- 华泰紫金稳健养老目标一年持有发行:新生代基金经理方宇翔“试水
- 齐评公共卫生“四大中心”,为何齐聚淄博新区?
- 海信品质之家璀璨西安引领家电消费新时代
- 追踪白酒产量下降:前八月还在降,什么才是2023年真相?
- 长假楼市|上海新房成交同比大幅增长,二手房想快速成交仍需“主
- 假期卖房数据出炉!万万没想到,卖得最好的城市是......
- 铭科精技001319.SZ:与赛力斯在问界系列车型的零部件供
- 福建口岸“双节”假期出入境客流量同比增近7倍东南亚成热门目的
- 面膜含防腐剂的敷尔佳上市不足两月,迎来业绩下滑、董秘辞职
- 俄媒:NASA可能加入中俄牵头主办的国际月球科研站项目
- 东方日升三季度业绩预喜净利润最高达17亿增长121%
- 天图投资港交所上市:首日下跌25%公司市值34亿港元
- 美债息压力有望趋缓金价呈现出探底回升格局