开启成长之旅!这是我参与「日新计划 2 月更文挑战」的第 14 天,点击检查活动概况
前言
美赛补全计划第二篇了属实是,正好今天是周五下班晚上通宵研究美滋滋,想当年上一次参与美赛的时分还有两个学妹在给我加油打劲,现在现已孤身一人社畜995,韶光一去不复返啊。(要是有学妹给我评论加油,我直接状态拉满哈哈)
还是老样子,思路和模型代码都是免费的,纯爱好。博主参与过十余次数学建模大赛,三次美赛取得过二次M奖一次H奖,国赛二等奖。建模的部分后续将会写出,想要了解更多的欢迎联系博主,免费获取代码和更多细化思路,只希望各位以后遇到建模竞赛能够艾特认识一下我,我能够供给免费的思路和部分源码,以后的数模竞赛只需我还有时间肯定会第一时间写出免费开源思路,你们的重视和点赞便是我写作的动力!!!大家能够参考。
一、标题理解
首要做MCM要从布景下手了解要做的工作,标题布景:
布景
Wordle是《纽约时报》目前每天供给的一个盛行的谜题。玩家试图经过不超过六次的时间猜 测一个五个字母的单词来处理谜题,每次猜想都会得到反馈。关于这个版别,每个猜想都必 须是一个真实的英语单词。不允许猜想不被竞赛认定为单词的成果。
《纽约时报》网站上的Wordle阐明指出,在你提交文字后,瓷砖的色彩将会改动。黄色 平贴表明该贴中的字母在单词中,但它在过错的位置。绿色的贴表明该贴中的字母在单 词中并且在正确的位置。
图1是一个示例处理方案,在三次尝试中都找到了正确的成果。
玩家能够在惯例形式或困难形式下玩。Wordle的困难形式让玩家的游戏更加困难,因为 一旦玩家找到了一个单词中正确的字母 (平铺是黄色或绿色的) ,这些字母必须在随后 的猜想中运用。
解析
首要咱们能够得到该游戏的根本规矩,也便是能够在26个字母之类,挑选出五个字母。困难形式下,如果第一次猜中了某个字母,该字母是绿的话那么不必移动,若该字母为黄的,那么接下来五个位置中必定得填上该字母,当然字母和单词之间也有一定的逻辑关系。那么咱们再去看数据集和数据集的解说:
字段意义:
Data:日期
Contest number:竞赛编号
Word:竞赛单词
Number of reported results:提交人数
Number in hard mode:hrad模型下提交人数
提交次数:
Percent in | ||||||
---|---|---|---|---|---|---|
1 try | 2 tries | 3 tries | 4 tries | 5 tries | 6 tries | 7 or more tries (X) |
因为每天的单词是固定的,依据题意说例如,在图2中,2022年7月20日的单词是“TRITE”,成果是经过挖掘Twitter取得。尽管图2中的百分比总和为100%,但在某些情况下因为四舍五入,这或许不是真的。上一句信息不重要,或许便是解说一下为什么概率是整数而已。
建模要求
- 1.陈述成果的数量每天都在改变。建立一个模型来解说这种改变,运用该模型能为2023年3月1日陈述的成果数量创立一个猜测概率区间序列,单词的任何特点是否会影响在hard形式下游戏人数?解说这种情况。
- 2.关于给定的未来处理方案,在未来的某个日期,开发一个模型猜测陈述成果的分布。换句话说,猜测未来日期的百分比(1、2、3、4、5、6、X)。挖掘出模型的猜测成果究竟存在哪些影响猜测准确性的要素,举一个你对这个词的猜测的具体例子‘EERIE’于2023年3月1日发布。去校验模型的准确性。
- 3.开发和总结一个模型,按难度分类处理方案词,并辨认与每个分类相关的给定单词 的特点。基于你的模型,ERNIE这个词有多难?评论你的分类模型的准确性。
-
- 列出并描绘此数据集的其他一些特性。
二、建模思路
首要对Number of reported results提出来调查时序序列数据波动:
能够看出游戏一开端推出的时分是一个很明显的上升曲线,直到四月达到峰值之后,玩耍人数开端逐渐下降,也便是过了游戏的招引时期。后面的数据相关于比较陡峭,咱们仅取最近三个月的数据调查,其中有单个很明显的噪音咱们将它用均值添补:
很明显的一个下降趋势,这儿直接运用灰色时序猜测最好了,当然你也能够选择用其他的时序猜测模型:
[灰色猜测]:
二次[指数平滑法]):
这儿我主张还是用二次指数平滑法,不然灰色猜测级比校验过不了:
该数据未经过级比检验
灰参数a: 0.00318897487491340454746069354996507172472774982452392578125 ,灰参数u: 30374.0096777603102964349091053009033203125
原数据样本标准差: 2104.8922894686443
残差样本标准差: 1804.1606900649451
后验差比: 0.8571273214746702
小差错概率p: 0.7142857142857143
对Word这行数据处理,首要我把我考虑到的要素列出:
单词难度-参考元音以及子音差异划分,将该word直接切分,并且每个单词都是独一无二的,359天一个单词都没重复:
person相关性
从而去对元音和子音计数划分单词每个不同的意义,并且再对hard进行相关剖析,这儿还是老样子运用person剖析即可:
有数据做这题属实简略啊,接着咱们下一步再对整个猜测区间做一个模型即可: