主题:【原创】关于使用数学模型对NCP(新冠肺炎)疫情进行评估的一些设想

浏览 |回复11 电梯直达
仗剑少年游
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
该帖子已被新官人设置为精华; 奖励积分记录: 仗剑少年游(30分)
首先必须说明,本人不是相关专业的人士,仅提供一些思路供大家探讨。
早在SARS初期,我就想过这个问题,当初一些阶段性的预判和实际走向比较吻合,应该说应用数学模型模拟传染病的发展进程应该是可行的。
根据最新的数据,确诊人数已经超过4万,样本数量完全适合做数理统计。


根据权威统计数据(数据来源:丁香医生,下同)可以看出,湖北的病死率自1月27日起基本上是一条直线(全国的病死率也接近一条直线,但是考虑到湖北权重太大,可以不具体分析)。
我猜,这个病死率可能与患者年龄构成正相关。


上图是新增确诊及疑似病例的趋势图,对于这两个数据,我一直有疑虑。我对原图做了一些处理,把疑似病例的数据和确诊病例的数据相加,其中蓝点是相加值,绿点是趋势点。2月5日时,两者相加的值在原图中溢出(红点表示),棕色点是2月10日的新增预测值,估计合计在6000左右。从1月21日开始起势,到2月5日达到顶峰,这个时间间隔差不多正好14天。
为此我请教过相关专业的同事,他说多数急性传染病的周期是14天(统计规律得出的经验),这也是为什么检疫隔离周期是十四天的原因。
啰嗦半天就一句话——数学模型模拟,应该靠谱。

【统计基数】
我认为统计基数应该考虑疑似病例,疑似病例应该有一定概率转换成确证病例。
T=n·S+C
T是统计基数的总数(染毒者),n是概率,S是疑似,C是确诊。
现在手头没有excel版的每日数据,否则n应该已经可以算出来了。

【传染指数】
俗话说得了灰指甲,一个传染俩,这里传染指数就是2,产生的传染人数变化趋势就是1,3,7……子子孙孙无穷尽。
这个数值在传染病领域有定义——R0,也叫基本传染数,或者基本再生数,英文为Basic reproduction number.什么意思呢?就是一个人得病,可以传染给多少个人。这显然是一个指数。
【再传概率】
感染病毒的我分了四种情况:染毒不发病不再传、染毒不发病再传、染毒发病不再传,染毒发病再传。请教同事,感染的过程是这样的:
1.病毒需要先跟人体免疫系统干一仗,干不过就不发病,而且干不过的话也没力气再让别人感染病发;
2.第一关过了,聪明的智商占领高地了,人体开始发病,调动第二级的免疫系统对抗,这个时候传染性最强,传染的威力更大。其中传染性最强说的是一个概率问题,传染威力最大说的是强度问题。
3.免疫系统(有可能借助医疗辅助)干赢了病毒,治愈或自愈,病毒彻底败退(现在来看,大概是14天);
4.没干赢……
大家可以脑补一下非洲大草原一些动物族群的发展兴衰,对于病毒也是一样优胜劣汰,打赢硬仗的族群能发展壮大,需要足够的密度(种群数量)和强度(种群质量)。
具体到武汉和湖北,无疑是密度足够了。
我想这能解释为什么湖北省外疫情相对乐观,死亡病例较少。
第一阶段从统计角度来说,应该有一个时间,例如T0。
再整理一下思路。
假设只有一个染毒者,传染指数是2,那么第一阶段的总染毒人数是可以计算出来的(等比数列求和)。
过了这个阶段(所谓潜伏期),有一部分人开始发病,概率是P1。这一部分人成为毒源,而第一阶段未能成功让患者发病的病毒族群偃旗息鼓黯然退出。
发病者携带的病毒族群能力强,可能让更多的人感染并发病,概率是P2。而且自己终于坚持不住,要去看病了。这个时间是T1,根据咱们日常的经验,这个T1通常是两三天。
他们把医生感染了,并进而感染了其他已经在医院的病人和家属。这时候第二阶段被感染的人开始发病……
爆发疫情。
隔离措施开始,传染指数削减到接近零。
要做的事情就是,通过疑似、确诊、病死的单日数据拿出来,选取合适的时间段(周期14天),把n、T0、T1、R0、P1、P2等大致的拟合出来。
武汉的病死率离群严重,估计存在大量的染毒未发病人员(居家隔离,这个数据应该很大而且无法追溯),真正决胜的日子应该是2月5日+14-T0。
能想到的就是这些了,期待数学高手!
为您推荐
仗剑少年游
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
算了一下,疑似后期转确诊的比例大概是70%,主要2月4日数据离群太厉害了,多个数出现在0.62附近。
所以N大概是0.62~0.7。
仗剑少年游
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
通过腾讯健康,提取了疑似和确诊数据。

做以下假设:

一定比例的疑似在第二天被确诊,进入确诊病例。

确诊                    头天疑似

259        444        257
444        259        680
688        444        1118
769        688        1309
1771        769        3806
1459        1771        2077
1737        1459        3248
1982        1737        4148
2102        1982        4812
2590        2102        5019
2829        2590        4562
3235        2829        5173
3887        3235        5072
3694        3887        3971
3151        3694        5328
3399        3151        4833
2653        3399        4214
3073        --        3916



正相关无疑了,可以视作线性。

可以进一步模拟:

新增确诊=基数(与疑似增量无关)+N1*昨天疑似增量+N2*前天疑似增量。

由于origin我用得不熟,还请大师根据上面原始数据拟合。
检测老菜鸟
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
传染指数这个不好说。现在很多地方复工,而且很多发病之后没有发热现象
仗剑少年游
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
仗剑少年游
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 仗剑少年游(yue_qiu) 发表:算了一下,疑似后期转确诊的比例大概是70%,主要2月4日数据离群太厉害了,多个数出现在0.62附近。所以N大概是0.62~0.7。
期待高手完善模拟。
仗剑少年游
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 检测老菜鸟(v3295053) 发表:传染指数这个不好说。现在很多地方复工,而且很多发病之后没有发热现象
这个指数是学界给出的估算值,当然也有可能通过数据拟合出来。
仗剑少年游
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
目前已知几点:

一、增加的确诊及疑似病例是时间的因变量;

二、疑似病例和确诊病例正相关(相当部分的疑似病例会转变成之后的确诊病例);

三、为了简便计算,我把每天的确诊病例增量和疑似病例增量的总量用于统计分析。

下图是二次函数(不表征其数学含义,只为观察趋势,下同)

下图是三次函数



下图是四次函数



嗯,看起来四次函数的这个拟合得最好,按照这个估算,明天新增的疑似+确诊数量大概是4500左右(肉眼看的)。

附件为从腾讯健康上手工提取的自1月22日以来(含)的新增疑似、确诊数量。

有两个离群数据点需要解释一下,一个是使用了新的确诊手段、一个是2月4日达到顶峰,而2月4日回溯封城日,正好14天。
附件:
langyabeilei
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 仗剑少年游(yue_qiu) 发表:
目前已知几点:

一、增加的确诊及疑似病例是时间的因变量;

二、疑似病例和确诊病例正相关(相当部分的疑似病例会转变成之后的确诊病例);

三、为了简便计算,我把每天的确诊病例增量和疑似病例增量的总量用于统计分析。

下图是二次函数(不表征其数学含义,只为观察趋势,下同)

下图是三次函数



下图是四次函数



嗯,看起来四次函数的这个拟合得最好,按照这个估算,明天新增的疑似+确诊数量大概是4500左右(肉眼看的)。

附件为从腾讯健康上手工提取的自1月22日以来(含)的新增疑似、确诊数量。

有两个离群数据点需要解释一下,一个是使用了新的确诊手段、一个是2月4日达到顶峰,而2月4日回溯封城日,正好14天。

目前来看,有无新的发现?2月19日如何?

仗剑少年游
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
这两天没弄,因为突增了一万多确诊,打算把这个当做离群数据处理。
仗剑少年游
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵