火箭下载站 > 新闻 > 游戏新闻 > 正文

无线乱码A区B区C区D(无线乱码a区b区c区五月天)

时间：2023-10-26 06:15:17 编辑：

大家好，今天小编来为大家解答无线乱码A区B区C区D这个问题，无线乱码a区b区c区五月天很多人还不知道，现在让我们一起来看看吧！

背景说明：

有些作弊用户用模拟器生成的ssid会是乱码，对ssid中的乱码进行检测不仅可以为作弊检测提供依据，其核心方法也可以进一步泛化到邮箱、imei等字符串数据的乱码检测，具有重要意义。

数据

正常的ssid：一方面通过正常用户的ssid获得；另一方面收集网络上常用的用户名；总共50万

乱码的ssid：通过程序自己生成随机的ssid，长度分布与正常ssid的分布相同

举个例子：

|正常的ssid|乱码的ssid|

|MERCURY_FB1A|ZMPQm8DVCHWH|

|FAST_1986|idOsErHEmg7|

|TP-LINK_887178|72Ue07lDtr5wu2|

特征

根据观察到的数据，可以做一个进一步的定一下特征：字符串的熵，长度，大写字符长度，数字个数，大小写字符个数，元音字母个数，重复字母个数，字符串n-gram的相关数据（占已有的统计结果，类似方差，均值，排名等），还有其他的一些潜在特征比如（常用词汇的bagofwords，是否包含手机名称，是否包含中文姓名，是否包含中等长度的英文词汇，是否包含常用缩写）等。

训练

使用的模型是lr和randomforest（100颗树，10深度）。

训练时注意的两点：

a)做好归一化，其实lr需要做详细的特征处理，但是rf其实是不需要的；

b)是否包含特殊字符串这个特征，尽量选用一些比较有代表性较长的字符串，选的太多太短则会失去判别性。

结果

在测试集上的precison－recall曲线如下，上面两个时LR的，下面两个时RandomForest的：

LR可以达到95%recall，95%precison

RandomForest可以达到97%recall，97%precision

总结&TODO

目前预计在scene15上的日命中量约300条；

在线上数据上精度估计约95%左右（可通过调节阈值提高精度，但降低召回率）；

有继续提高的空间

下一步要:

a)统计一下rf模型的重要特征，观察一下哪些特征起到作用。

b)加入bagofwords做第二版

c)泛化到其他字段的乱码识别上

d)现在的gibberishdetection是在英文样本上训练的，需要改成中文拼音和英文结合的。

e)使用gbdt做一下预测，与rf做一下对比

参考文献

［1］http://bobao.360.cn/learning/detail/418.html

［2］MaJ,SaulLK,SavageS,etal.Beyondblacklists:learningtodetectmaliciouswebsitesfromsuspiciousURLs[C]//Proceedingsofthe15thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.ACM,2009:1245-1254.

［3］YadavS,ReddyAKK,ReddyAL,etal.Detectingalgorithmicallygeneratedmaliciousdomainnames[C]//Proceedingsofthe10thACMSIGCOMMconferenceonInternetmeasurement.ACM,2010:48-61.

［4］WangW,ShirleyKE.BreakingBad:Detectingmaliciousdomainsusingwordsegmentation[C].IEEEWeb2.0SecurityandPrivacyWorkshop}},2015.

好了，文章到此结束，希望可以帮助到大家。