首页 畅享游戏,快乐生活!
手机版
扫描查看手机站

无线乱码A区B区C区D(无线乱码a区b区c区五月天)

时间:2023-10-26 06:15:17 编辑:

大家好,今天小编来为大家解答无线乱码A区B区C区D这个问题,无线乱码a区b区c区五月天很多人还不知道,现在让我们一起来看看吧!

背景说明:

有些作弊用户用模拟器生成的ssid会是乱码,对ssid中的乱码进行检测不仅可以为作弊检测提供依据,其核心方法也可以进一步泛化到邮箱、imei等字符串数据的乱码检测,具有重要意义。

数据

正常的ssid:一方面通过正常用户的ssid获得;另一方面收集网络上常用的用户名;总共50万

乱码的ssid:通过程序自己生成随机的ssid,长度分布与正常ssid的分布相同

举个例子:

|正常的ssid|乱码的ssid|

|MERCURY_FB1A|ZMPQm8DVCHWH|

|FAST_1986|idOsErHEmg7|

|TP-LINK_887178|72Ue07lDtr5wu2|

特征

根据观察到的数据,可以做一个进一步的定一下特征:字符串的熵,长度,大写字符长度,数字个数,大小写字符个数,元音字母个数,重复字母个数,字符串n-gram的相关数据(占已有的统计结果,类似方差,均值,排名等),还有其他的一些潜在特征比如(常用词汇的bagofwords,是否包含手机名称,是否包含中文姓名,是否包含中等长度的英文词汇,是否包含常用缩写)等。

训练

使用的模型是lr和randomforest(100颗树,10深度)。

训练时注意的两点:

a)做好归一化,其实lr需要做详细的特征处理,但是rf其实是不需要的;

b)是否包含特殊字符串这个特征,尽量选用一些比较有代表性较长的字符串,选的太多太短则会失去判别性。

结果

在测试集上的precison-recall曲线如下,上面两个时LR的,下面两个时RandomForest的:

LR可以达到95%recall,95%precison

RandomForest可以达到97%recall,97%precision

总结&TODO

目前预计在scene15上的日命中量约300条;

在线上数据上精度估计约95%左右(可通过调节阈值提高精度,但降低召回率);

有继续提高的空间

下一步要:

a)统计一下rf模型的重要特征,观察一下哪些特征起到作用。

b)加入bagofwords做第二版

c)泛化到其他字段的乱码识别上

d)现在的gibberishdetection是在英文样本上训练的,需要改成中文拼音和英文结合的。

e)使用gbdt做一下预测,与rf做一下对比

参考文献

[1]http://bobao.360.cn/learning/detail/418.html

[2]MaJ,SaulLK,SavageS,etal.Beyondblacklists:learningtodetectmaliciouswebsitesfromsuspiciousURLs[C]//Proceedingsofthe15thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.ACM,2009:1245-1254.

[3]YadavS,ReddyAKK,ReddyAL,etal.Detectingalgorithmicallygeneratedmaliciousdomainnames[C]//Proceedingsofthe10thACMSIGCOMMconferenceonInternetmeasurement.ACM,2010:48-61.

[4]WangW,ShirleyKE.BreakingBad:Detectingmaliciousdomainsusingwordsegmentation[C].IEEEWeb2.0SecurityandPrivacyWorkshop}},2015.

好了,文章到此结束,希望可以帮助到大家。

热门文章

推荐专题

更多>>

游戏推荐

更多>>