tiankonguse blog

leetcode 第 423 场算法比赛（数位DP）

2024-11-10T12:13:00+08:00

零、背景

这次比赛第二题开始难度就上来了，后三道题都很有意思。

A: 暴力
B: 分段
C: 计数DP
D: 数位DP

排名： 145
代码地址： https://github.com/tiankonguse/leetcode-solutions/tree/master/contest/4/423

一、检测相邻递增子数组 I

题意：给一个数组，问是否存在两个相邻的长度为K的严格递增子数组。

思路：暴力。

首先可以确定一个结论：一个递增的区间内，任何子数组都是递增的。
根据这个结论，可以对数组划分为几个递增的最大区间。
区间内，第一个元素的最大递增数组为区间大小，之后的依次递减，最后一个长度为1。

按上面的理论，预处理所有位置向后的最长递增数组。
然后枚举每个位置当做起始位置，判断是否存在相邻的长度为 k 的递增子数组。

预处理复杂度：O(n)
枚举复杂度：O(n)

二、检测相邻递增子数组 II

题意：给一个数组，问相邻的等长的最大递增子数组是多少。

思路：分段。

根据第一题的力量，可以知道一个递增的区间内，任何子数组都是递增的。
故可以根据最大的递增区间，对数组划分为几段。

答案分两种情况：
情况1：在一个递增区间内划分两个相邻的子数组。
情况2：相邻的两个递增区间组成两个相邻的子数组。

情况1中，每个区间大小除2就是区间内的临时答案。
情况2中，相邻的区间较小的为临时答案。

两种情况所有的临时答案取最大值即可。

复杂度：O(n)

PS：第一题也可以这样做，找到最大值后，判断是否大于等于k即可。

三、好子序列的元素之和

题意：给一个数组，求所有的好子序列的元素之和。
好子序列：相邻元素的绝对差恰好为1。

思路：计数动态规划。

通过分析可以发现，一个好子序列后面追加一个数字，依旧可以组成好子序列。
故，每个位置为结尾的好子序列可以通过前面的好子序列转移计算得到。

状态1定义: N(i)
含义：以第 i 个元素为结尾的所有好子序列的个数。

状态2定义：S(i)
含义：以第 i 个元素为结尾的所有好子序列的和。

状态转移方程：

v = nums[i];
N(i) = 1 + N(v+1) + N(v-1)  
S(i) = S(v+1) + S(v-1) + N(i)*v

新的好子序列分为三种情况：自身、前一个值大于v，前一个值小于v。
根据这三种情况计算出新的个数和子序列和。

复杂度：O(n)

四、统计小于 N 的 K 可约简整数

题意：给一个值为 n 的二进制字符串，求小于 n 的 k 次约简后值为1 的数字个数。

思路：数位DP。

虽然二进制有800多位，代表数字有 2^800 多个。
但是进行第一轮约简后，二进制的值就会缩减为 log(n)=800。
第二轮约简后，二进制会缩减为log(800)=8
第三轮约简后，二进制会缩减为log(8)=3
第四轮第五轮，全部都会变成 1 个。

对于第二轮到第五轮，可以直接暴力模拟，复杂度为log(n) + log(log(n)) + ...，约等于log(n)=800
故关键是第一轮，如何把 800 位二进制进行第一轮约简。

假设要约简的二进制是完整的[0,2^n)
最高位分为 0 和 1 两种情况。

假设最高位为0，则答案与数字 [0, 2^(n-1))一致。
假设最高位为1，则答案是数字 [0,2^(n-1)) 偏移一位。
偏移一位的含义是如果 [0,2^(n-1)) 有 x 个 1, 则最高位为1时有x+1个1。

状态定义： f(n,i)
含义： n 位二进制在[0, 2^(n-1)) 内，有 i 个 1 的数字个数。

状态转移方程：

f(n,i) = f(n-1,i) + f(n-1, i-1)

方程解释：最高位取0，则与n-1一致；最高位取1，则与i-1一致。

上面的方程只能解决完整区间各个1的统计。

对于非完整区间的部分，则需要特殊处理。

假设对于数字 11011，分为 [0,10000) 和 [10000, 11011)。
[0,10000) 可以按上面的状态方程计算出来。
[10000, 11011) 可以可以转化为区间[0,1011)的个数偏移1位。

可以发现，这个过程也是递归的，递归即可求出答案。

五、最后

这次比赛最后三题都比较有难度。

第二题需要找到关键点：多段独立的递增区间。
第三题是经典的计数DP。
第四题是经典的数位DP。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

leetcode 第 422 场算法比赛（差分DP）

2024-11-03T12:13:00+08:00

零、背景

昨晚英雄联盟总决赛值班到两三点，睡得比较晚，今天打比赛时头昏沉沉的。

因此这次没状态，第二题和第三题都敲了半天，还WA一次。
第四题一开始DP想错了，想到正确的DP后发现空间很大爆栈了，随后比赛结束了。
吃完饭又看了最后一题，发现可以使用差分来优化空间，从而可以通过第四题。

A: 统计。
B: BFS + 优先队列。
C: BFS + 优先队列（与B题没区别）。
D: 差分DP。

排名：236
代码地址： https://github.com/tiankonguse/leetcode-solutions/tree/master/contest/4/422

一、检查平衡字符串

题意：问数字奇偶位数字分别相加，是否相等。

思路：按题意循环相加，判断即可。
复杂度：O(n)

二、到达最后一个房间的最少时间 I

题意：给一个矩阵，从左上角走到右下角，每走一步消耗1秒时间。
每个位置有一个最早进入时间，问最少什么时候到达右下角。

思路: BFS 搜索。
如果下个位置时间没到，则最早到达时间是允许进入时间加1。

优化：同一个节点为了避免重复搜索，可以使用优先队列优化。
复杂度：O(n^2)

三、到达最后一个房间的最少时间 II

题意：给一个矩阵，从左上角走到右下角，奇数步消耗1秒，偶数步消耗2秒。
每个位置有一个最早进入时间，问最少什么时候到达右下角。

思路：BFS 搜索。

对于矩阵，每一个位置的步数的奇偶性是固定的，故根据坐标即可计算出加1还是加2.
除了加1与加2的不同，其他的其实与第二题没区别。

复杂度：O(n^2)

四、统计平衡排列的数目

题意：给一个数组，问存在多少个排列，使得奇偶位数字之和相等。

思路：差分DP。

由于是求所有排列，所以需要先统计[0-9]所有数字出现的次数。

朴素的思路：

状态定义：f(v,sum1,sum2,n1,n2)
含义：v 之后数字已经选择，奇数位选择 n1个，和为 sum1，偶数为选择 n2个，和为sum2 时，前 v 个数字可以得到的最优答案。

状态转移方程：

f(v,sum1,sum2,n1,n2) =
   C(nv1, i) 
 * C(nv2, j) 
 * f(v-1,sum1+i*v,sum2+j*v,n1+i,n2+j)

方程解释：数字 v 有 nv 个，枚举奇数选择 i 个，偶数则选择 j 个时的排列数。
由于奇数已经选择了 n1 个，所以剩余 nv1 个位置，选择 i 个的方案数是 C(nv1, i)。
同理，偶数的方案数是 C(nv2, j)。
剩余的递归即可。

空间复杂度：O(10 * 360 * 360 * 40 * 40)
空间复杂度差不多是 72000 * 72000，显然储存不下。

优化1：差分DP

分析 sum1 与 sum2 关系，当 v 固定时， sum1 与 sum2 的和是固定的。
同理，n1 和 n2 的和也是固定的。

故可以通过储存 sum1-sum2 以及 n1-n2 来压缩状态。
由于有负数，整体进行偏移即可。

状态：f(v, sum12, n12)
状态状态方程与上面的一样。
复杂度：O(10 * 720 * 80)

优化2：对半DP。

与差分 DP 类似，不过不需要储存差分状态，储存一半的状态，例如只储存奇数的状态。

状态定义：f(v, sum1, n1)
根据奇数的状态，推导出偶数的状态，状态转移方程与朴素的状态转移方程一样。
复杂度：O(10 * 360 * 40)

五、最后

这次比赛最后一题动态规划很经典，所有状态储存不下，但是部分状态之间存在约束关系，通过其中一个可以推导出另外一个，这时候只需要储存一个状态即可。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

2024年打疫苗记录

2024-10-28T12:13:00+08:00

去年是 12 月打的疫苗，记录在《2023年第一次打流感疫苗》。

2024年原计划 9 月开学后就去打疫苗，结果8月29日，也就是开学的前几天，我意外头受伤了，记录在《2024年攀岩馆头受伤小记》。

9月14日，周六，依旧要上班，第二天就是中秋放假了。
结果第二天我感冒了，记录在《2024年第二次感冒》。

09月23日，感冒终于好了。
我本来打算周末去打疫苗的，结果接下里是国庆放假，我周六就提前休假回家了。

这段时间，不仅是打疫苗各种延迟，这期间也没怎么攀岩与运动了。

国庆回来的第一周10月12日只有1天休息时间，有事没去打疫苗。
第二个周末，10月19日到20日，准备打疫苗时，发现社康没号了。
于是我预约了 10月22日的疫苗。

去年同样的疫苗还需要 143元，今年只需要 98元，降价了 31%。

打疫苗时，医生问我是否吃早饭。
我回答：没有。
医生说：打完需要观察半个小时，饿了就喝点水吧。
我回答：好的。

看清单上，我是 08:16 缴费的，差不多 8 点半排到我打针的。
所以我等到 9 点左右，就离开社康，骑车去上班去了。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

leetcode 第 421 场算法比赛

2024-10-27T12:13:00+08:00

零、背景

这次比赛比较简单，最后一题卡了好久，做完排名 34.

A: 枚举。
B: 模拟。
C: 动态规划。
D: 矩阵幂。

排名：34 代码地址： https://github.com/tiankonguse/leetcode-solutions/tree/master/contest/4/421

一、数组的最大因子得分

题意：给一个数组，问最多移除一个元素，剩余元素最小公倍数与最大公约数的乘积。

思路：枚举不移除与移除一个，按题意计算。
复杂度：O(n^2)

优化：预处理前缀和后缀的最小公倍数与最大公约数。
复杂度： O(n)

二、字符串转换后的长度 I

题意：给一个字符串，每次操作时每个字符替换为其他字符串，问t次操作后字符个数。
替换规则：
1）字母z替换为字符串ab。
2）其他字母替换为下一个字母。

思路：模拟。

统计当前各字符个数，模拟计算出一轮操作后各字符的个数。
操作t次即可。
复杂度：O(26 t)

三、最大公约数相等的子序列数量

题意：给一个数组，问存在多少个非空子序列对，使得子序列对的 gcd 相等。

思路：数据范围很小，使用动态规划。

状态定义：f(n,v1,v2)
含义：两个子序列后缀分别为 v1 和 v2 时，前 n 个元素任意组合后的答案数。

状态转移方程：

v = nums[n]

f(n,v1,v2) = 
+ f(n-1,         v1,         v2)  // 不选择 
+ f(n-1, gcd(v, v1),         v2)  // 加入第一个序列
+ f(n-1,          v1, gcd(v, v2)) // 加入第二个序列

复杂度：O(n*v^2)

四、字符串转换后的长度 II

题意：给一个字符串，每次操作时每个字符替换为其他字符串，问t次操作后字符个数。
替换规则：字母 v 替换为 v 后面的 nums[v] 个字母。
如果字母超过z，循环从 a 开始。

思路：10^9次操作，典型的矩阵幂问题。

根据替换规则，构造出规则矩阵，然后进行矩阵幂运算即可。

什么是规则矩阵呢？
具体来说，我们需要根据规则，构造出一个矩阵，使得矩阵相乘一次之后，每个位置的值就是规则操作一次后的值。

举个栗子：
假设字母表只有3个字母abc，ab分别替换为后面一个字符，c替换为后面两个字母，输入也是 abc。

则当前结果数组为 1*n 的数组，值分别为 [1,1,1]。

规则转化一下如下

a -> b
b -> c
c -> a,b

站在统计的角度看结果，就是每个字母可以由哪些字母转换得到，则可以构造出下面的公式

next[a] = now[c] 
next[b] = now[a] + now[c]
next[c] = now[b]

上面的统计公式转换一下如下

next[a] = 0 * now[a] + 0 * now[b] + 1 * now[c] 
next[b] = 1 * now[a] + 0 * now[b] + 1 * now[c]
next[c] = 0 * now[a] + 1 * now[b] + 0 * now[c]

上面的公式恰好是[1*3]的矩阵与 [3*3] 矩阵相乘的结果。

[1*3]的矩阵就是 now 数组。
而[3*3]矩阵 Matrix，则提取出来如下

1 0
0 1
1 0

每操作一次就是乘一次矩阵，操作 t 次就是乘以 t 次矩阵。
矩阵满足结合律，故可以使用快速率优化乘法。

答案就是 now * Matrix ^ t。

至于矩阵的具体构造，则是 a 可以到达 b，则 Matrix[a][b] 就加1。

复杂度：26^3 log(t)

五、最后

这次比赛第三题其实很容易想歪，而直接套用动态规划，就简单多了。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

leetcode 第 420 场算法比赛

2024-10-20T12:13:00+08:00

零、背景

这次比赛第三题题目有很大的歧义，题目求使数组非递减，我理解只要一个大于就满足非递减，结果一直不通过，被卡了很久。

A: 模拟。
B: 枚举或二分或滑动窗口。
C: 枚举。
D: 字符串hash。

排名：169
代码地址： https://github.com/tiankonguse/leetcode-solutions/tree/master/contest/4/420

一、出现在屏幕上的字符串序列

题意：键盘只有两个操作：1）追加一个字符a，2）最后一个字符加1。
求最少操作得到目标字符串。

思路：如果一个位置字符不是a，只能不断加1，直到满足。
所以可以循环所有位置，第一次插入a，之后不断加一，直到与目标字符相等。

二、字符至少出现 K 次的子字符串 I

题意：给一个字符串，问存在多少个子串，存在至少一个字母至少出现K次。

思路1：前缀枚举。

枚举每个位置为起始点的所有前缀字符串。
显然，前面的都不满足，一旦某个位置满足之后，后面的都满足。
满足个数是含满足位置之后的字符个数。

复杂度：O(n^2)

思路2：二分

预处理每个字符出现的位置列表。

a: a0,a1,a2,...
b: b0,b1,b2,...
...
z: z0,z1,z2,...

还是枚举起始位置，目标是求最短的满足 K 的前缀。
可以枚举 26 个字符，二分找到每个字母满足 K 个时的位置，从而可以找到最靠前的位置。

怎么二分呢？

假设当前起始位置是 P，判断的字母是 a。
首先二分查到位置 P-1 为止，字母a出现的个数 L。
然后查找字母 a 出现 L+K 次的位置，即 a[L+k]。

数组是位置列表，二分位置，根据偏移量即可计算出个数。

upper_bound(a.begin(), a.end(), P-1);

复杂度：O(n log(n))

思路3：打表

思路2是记录每个字母的位置列表。
如果把每个位置每个字母出现的次数都储存下来，则不需要二分，直接查表即可得到前缀出现的个数。

复杂度：O(26 n)

思路4：滑动窗口

上一个位置找到了第一个满足要求的右边界。
下个位置的第一个满足要求的右边界肯定不会更小。
所以可以复用之前的结果。

删除上个位置后，怎么判断右边界之内是否满足答案呢？
统计数据时候，也统计满足要求的字母个数。
当删除上个位置后，个数由等于 K 个降低为 K-1个，则右边界肯定是不满足的，需要继续向后查找。

复杂度：O(n)

三、使数组非递减的最少除法操作次数

题意：给一个数组，每次操作，可以将一个位置的值修改为非1因子，问最少多少次操作可以将数组修改为非递减数组。

我理解的非递减数组是只要有一个位置后面的大于前面的，就算非递减。
结果这道题题的非递减指的是非递减有序。

另外，即使按非递减有序来做这道题，还有一个地方我看错题了。
题目说的是除以最大因子，而我看成除以任意一个因子了。
只是没想到比赛竟然也过了，尴尬。

先假设是除以任意因子，来看下怎么做吧。
显然需要动态规划。

对于一个位置的数字，不操作就是自身，操作是其中一个因子。
所以需要预处理求出所有因子。
求一个数字所有因子的复杂度为sqrt(n)。
求所有数字的复杂度就是 n sqrt(n)

之后可以使用动态规划来做这道题。

状态定义：

f(n,V) = F(n-1,V) 
f(n,v) = F(n-1,v) + 1
F(n,v) = min(f(n,i)), i<=v

f() 含义：如果第n个位置值为V，即是数字自身，则需要找到前一个位置值不大于 V 时的最优解。
如果第n个元素值小于V，即是数字的因子，则需要找到前一个位置不大于V时的最优解再加1。

F(v) 含义：所有不大于V的所有状态的最优解。

复杂度：O(n*V^2)

优化1：离散化
对于因数，只需要储存对应的位置偏移量。
一个数字的因数个数随着数字值的变大，个数与值的关系相差越大，大家可以按srqt(n)个来评估。

故这里就不需要枚举所有V，只需要枚举因子个数。
复杂度：O(n*V)

优化2：单调性
观察f(n,v)，可以发现随着 v 的增大，答案是递减的，即满足单调性。
故F(n,v)的答案是第一个不大于 v 的答案，可以二分来快速查找。
复杂度：O(n sqrt(V) log(sqrt(V)))

优化3：逆向递推
根据单调性的性质，最后一个数字必然选择自己，不会选择因数。
故可以倒推出，倒数第二个数字需要选择第一个不大于 v 的数字。
复杂度：O(n log(sqrt(V)))

再来看下正确的解法。

既然是除以最大因子，显然得到的就是最小非1因子，也就是最小素数因子。
所以预处理时，只需要保存最小素因子即可。

另外根据优化3，可以知道可以逆向递推的。
逆向递推时，就不需要二分查找了，直接判断即可。

预处理复杂度：O(n K)
递推复杂度：O(n)
K 为数据范围内素数的个数。

四、判断 DFS 字符串是否是回文串

题意：给一个有根树，按后序遍历得到一个路径，问每个子树的路径是否是一个回文串。

思路：字符串hash。

1）遍历得到路径时，顺便记录每个子树的路径区间。
2）求出每个子树路径区间的字符串 hash 值。
3）翻转路径，求出对应子树区间的字符串 hash 值，判断是否相等。

复杂度：O(n)

五、最后

这次比赛第三题看错题了，不然应该可以很快做出来。
第四题是字符串题，目前字符串题我都是字符串hash做的，其他算法我还不会。
后面有机会学习后，再单独出一篇文章介绍一下吧。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

leetcode 第 419 场算法比赛

2024-10-13T12:13:00+08:00

零、背景

这次比赛本来计划参加的，但是由于有点事情，就没参与。
赛后做了下，发现最后一题有两种做法，一种是手动维护区间的合并，很复杂，一种是线段树解决，很简单。

A: 暴力计算。
B: DFS+最小堆。
C: 动态规划。
D: 滑动窗口+模拟或者滑动窗口+离散化+二分+线段树。

排名：无
代码地址： https://github.com/tiankonguse/leetcode-solutions/tree/master/contest/4/419

一、计算子数组的 x-sum I

题意：给你一个数组，求子数组sum[i,i+k-1]的 x-sum。
x-sum 定义：选择 x 个频次最多的数字，求这些数字的累计和。
频次相同时，优先选择值大的数字。

思路：数组大小50，暴力枚举所有子数组，统计频次，排序，求和。
复杂度：O(n^2 log(n))

二、第 K 大的完美二叉子树的大小

题意：给一个二叉树，求第K大的完美二叉子树的节点个数。

思路：递归统计所有的完美二叉子树的节点个数，储存在最小堆里，堆大小最大为 K。

怎么判断一个子树是不是完美二叉树呢？
先判断左右子树，当左右子树都是完美二叉树且左右的节点个数相等时，当前子树才是完美二叉子树。

三、统计能获胜的出招序列数

题意：给一个字符串代表 A 的出牌顺序，问 B 有多少种出牌顺序，使得最终 B 的得分大于 A 的得分。
牌大小规则：F < W， W < E, E < F。
得分规则：谁大谁得分，等于都不得分。
要求：B 不能连续两次出相同的牌。

思路：动态规划。

状态定义：f[n,p,s]
含义：前 n 张牌，下一张使用 p 牌，得分至少为 s 时的方案数。

状态转移：
含义：当前位置不能选择 p，选择其他所有牌时的方案数。
选择其他牌时，如果PK相等，则分数 s 不变。
如果输了，就需要多赚一分。
如果赢了，就可以少赚一分。

f(n,p,s) = sum(f(n-1,i, s+PK(i))), i != p;

边界1：分数可能为负，所以需要统一加上 1000。
边界2：最后一个位置有三种选择，为了避免枚举三个位置，f(n,-1,1)

复杂度: O(3^2*n^2)

四、计算子数组的 x-sum II

题意：给你一个数组，求子数组sum[i,i+k-1]的 x-sum。
x-sum 定义：选择 x 个频次最多的数字，求这些数字的累计和。
频次相同时，优先选择值大的数字。

思路：题目与第一题一样，数据范围变大了，不能暴力计算了。

显然，n-k+1个子数组的答案需要使用滑动窗口来维护一些数据结构。
即第一个子数组求出答案后，通过减去一个数字，加上一个数字，就可以快速计算出答案。

第一种方法是自己维护一个平衡树、TOP K 游标，TOP K 累计和。

数据结构1：计数器 H[v]，统计每个值当前出现的次数。
数据结构2：key为 {count, value} 的平衡树 tree，一般使用 set 来储存。
数据结构3：平衡树游标，含义为大于等于游标的节点为出现频次最高的 X 个数字。
数据结构4：sum，代表当前的答案。

滑动窗口右移时，需要删除左边的数字，添加右边的数字。
删除和添加都需要根据 {count, value} 是否在 TOP X 来做更新，相当复杂。
这里就不多介绍了，相当于是一个很大的模拟题。

复杂度：O(n log(n))

第二个方法是使用线段树单点更新区间查询来做。

先预处理滑动窗口，储存下可能遇到的所有{count,value}，排序，分配唯一标号。
线段树的节点的含义为第几个 {count,value}。
线段树里储存2个数据：区间内非0节点的个数与节点的区间和。

对于一个数字，根据数字的频率，根据{count,value}找到线段树的节点。
插入数字，只需要将对应的节点增加 count*value, 并标记节点有值。
删除数字，则需要将对应的节点减去 count*value, 并标记节点无值。

查询 TOP X 时，二分找到最大的 [limit, maxCount]，使得这个区间内非0节点恰好 X 个。
之后再查询 [limit, maxCount] 的区间和。
复杂度：O(n log(n) log(n))

五、最后

这次比赛最后一题其实有点难，尤其是想要直接自己维护平衡树的游标和 sum 时，分支情况特别多。
而使用线段树来做，游标通过二分来快速查找，sum直接通过线段树来求和，简单多了。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

leetcode 第 418 场算法比赛

2024-10-06T12:13:00+08:00

零、背景

这次比赛我有事没参加，最后看了下题目，发现最后一题比较难，但不知为啥第三题过得人比较少。

A: 枚举。
B: 图论搜索。
C: 图论找规律。
D: 枚举计算，前缀和。

排名：无
代码地址： https://github.com/tiankonguse/leetcode-solutions/tree/master/contest/4/418

一、连接二进制表示可形成的最大数值

题意：给几个数字，问转化为二进制后连接起来，可以得到的最大数字。

思路：枚举数字的所有排列组合，计算出二进制连接后的数字，求最大值。
复杂度：O(n! * n log(n))

二、移除可疑的方法

题意：给一个有向图，有一个节点是异常节点，异常节点可以到达的节点也是异常节点。
只有当一组节点没有被这组之外的任何节点调用时，这组节点才能被移除。
求最终没有被移除的节点列表。

思路：题目比较难理解。

异常节点可以通过 BFS 搜索得到。

根据题目定义，正常节点是不能删除的。
另外，不能删除的节点的所有子孙节点是不能被删除的。
最后，不能删除的节点的所有祖先也是不能删除的。

所以，我们需要维护两个队列，一个是子孙搜索队列，一个是祖先搜索队列。
最终计算出哪些节点不可以被删除。

优化：可以证明，只要存在一个正常节点可以到达任何一个异常节点，则所有异常节点都无法删除。
证明：有向图即求子孙，又求祖先，等价于无向图求联通分支。

故，只需要判断是否存在正常节点到异常节点的边，存在答案就是所有节点，否则就是所有正常节点。

三、构造符合图结构的二维矩阵

题意：给一个无向图，求图映射到矩阵里，使得图的顶点就是矩阵的坐标，边代表矩阵相邻节点。

思路：找规律。

分析矩阵的特征，可以发现图中顶点的度数存在规律。

规律1：1*N 的矩阵，两个顶点度数为1，其他顶点度数为 2。
规律2：M*N 的矩阵，4个顶点度数为2，边的顶点度数为3，中间顶点度数为 4。

针对规律1，可以直接找到一个顶点，边搜索边映射到矩阵。

针对规律2，需要先根据边度数为3的特征，找到一条边，之后，通过已找到的边就可以唯一确定相邻边。

如下图，假设第一条边即第一列[8,7,1]已经找到并标记。
搜索顶点 8,只剩下顶点 6 未标记，所以顶点 6 需要放在顶点 8 的右边。
同理，顶点 4 需要放在顶点 7 的右边，顶点 0 需要放在顶点 1 的右边。
这样第二列的顶点就全部获取到。
按照同样的方法，循环获取矩阵所有列的顶点即可。

怎么获取第一列呢？
找到一个顶点后，随便选择一个相邻顶点，不断的搜索度数为 3 的顶点，直到搜到到度数为 2 的顶点结束。

不过需要对2*N 的矩阵做特殊处理，因为矩阵为 2*N的矩阵，搜索时，可以搜索到 2个度数为 3 的顶点。
特殊处理也很简单，随便找一个顶点，判断相邻的两个顶点是否存在度数为 2 的情况，存在了，就是 2*N的矩阵。

四、查询排序后的最大公约数

题意：给n个数字，两两组合求最大公约数，所有公约数排序，求第k个公约数。

思路：数学计算。

有 10^5个询问，每个询问必须在 log(n)的复杂度内计算出答案。
这就要求需要预先计算好答案。

逆向思考，n个数字最大值值为5*10^5，最大公约数也分布在 [1,5*10^5]内。
如果预先计算出每个最大公约数的组合个数，则可以通过前缀和，来快速找到第k个公约数的值。

map<ll, ll> sums; // 储存右边界
ll pre = 0;
for (int v = 1; v <= maxVal; v++) {
  if (gcdNums[v] == 0) continue;
  pre += gcdNums[v];
  sums[pre] = v;
}

for (auto q : queries) {
  ans.push_back(sums.lower_bound(q+1)->second);
}

怎么求出每个公约数的组合个数呢？
假设预处理出每个数字对应的约数，然后统计每个约数是几个数字的约数。
不妨设为 p 个，则可以推导出，这个约数的组合个数为 C(p,2)个。

vector<ll> gcdNums(maxVal + 1, 0);
for (ll v = 1; v <= maxVal; v++) {
    gcdNums[v] = factors[v] * (factors[v] - 1) / 2;
}

两个数字除了有最大公约数，还有很多其他公约数。
所以，上面的公式多计算了很多组合。
具体来说，除了最大公约数组合，其他公约数的组合都是无效的，都需要减去。

怎么求其他公约数呢？
枚举判断即可。

for (ll v = maxVal; v > 1; v--) {
  if (gcdNums[v] == 0) continue;
  // 有若干个数字，gcd() = v, 需要减去非最大公约数
  const ll sq = sqrt(v);
  for (ll a = 1; a <= sq; a++) {
    if (v % a != 0) continue;
    gcdNums[a] -= gcdNums[v];
    const ll b = v / a;
    if (a != b && b != v) {
      gcdNums[b] -= gcdNums[v];
    }
  }
}

复杂度：O(n sqrt(n))

五、最后

这次比赛所有题其实都挺有难度的。

第一题需要枚举所有排列。
第二题如果没发现规律，则需要维护子孙和祖先队列，或者维护一个无向图。
第三题先分析矩阵，会发现不难，我几分钟就想到过滤了。
第四题我感觉挺难的，我想了很多方法，比如二分、容斥，最后发现那些方法都行不通后，才一步步推导出行的通的方法。

总的来看，后三道题都挺有意思的，两个图论是找过滤，数学题则是思维题，想不到就很难通过了。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

2024年牛市之前，投资收益记录

2024-10-05T22:13:00+08:00

一、背景

我是 2018 年开户，开始投资理财的。
当时看了不少理财相关的资料，并写了一系列当时认知下的笔记。

这个我收录在《理财专题》里面。

现在是 2024年10月5日，国庆放假中。
国庆之前的一周，上证指数由 2748 点，上涨到 3336 点，一周时间上涨了 588 点。
由此，大家都说牛市来了。

牛市是否来我不知道，但是我看了下股票账户的投资，确实解套了。

二、基金

2018 年学习基金股票时，发现有一个投资知识叫做封闭基金。
于是我选择了一个招商3年的封闭基金。

你还别说，3年到的时候，恰好处于 2021 年的小牛市里。
总收益率是 16.69%，对比沪深300的收益率是 47.24%，还是相差不少。

封闭基金到期后会转为开放基金，我始终没有卖出。
随后股市就一路下行，在 2024年1月的时候，收益率为 -21.83%。

不过在这次国庆前的一周，我的收益率竟然又回正了。

三、转债

对于 A股，新股票有一个特点，开盘一般会涨停几天。

要想买这些股票，需要提前预定，称为打新。
而预定的数量与你账户里对应证券交易所的总资产有关系。

所以为了打新，我买入了一些沪深两地的股票，从而能够在两地打新一手股票。

不过由于大家都可以看到这一点，命中打新的概率是很低的。
所以我转向去打印可转债股，别说，中的所有转债都是盈利的，就是太浪费时间，且赚得钱很少，后面就没操作了。

四、股票

2021年股票一路下行之后，我始终都处于亏损状态。
没想到国庆前1周，一下就回本了，收益率3.76%, 超过了69.71%的用户。

对于股票投资，我分为三个阶段。

第一阶段是买优质股。
第二阶段分散投资，买很多指数ETF。
第三阶段资产均衡，集中投资几个指数ETF，也是当前的阶段。

第三阶段我是从 2023 年开始执行的，目前收益率 10.69%。

投资分为几类：标普500、恒生指数、沪深300、黄金、十年国债。

标普500对应海外优秀资产。
恒生指数对应国内科技公司的优秀资产。
沪深300对应国内其他公司的优秀资产。
黄金和国债用来避险，当前面三个需要资金均衡时，使用这两个来均衡。

五、最后

针对当前的投资状态，我的决策是卖掉封闭基金。
而对于牛市，我也看不懂，所以只做资产均衡操作。
具体来说是，调低黄金和国债的权重，调整为11%, 剩下3个股票资产按 26% 权重平分。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

CSP-J 2023 解题报告

2024-10-05T12:13:00+08:00

零、背景

有人问我一个算法，一看是最短路。
代码写完了找了一个OJ 来提交代码，然后发现这道题是 CSP-J 2023 的最后一道题。
干脆 CSP-J 2023 的四道题都做一下，写一个题解。

一、小苹果（apple）

题意：n个苹果，每一轮隔2个拿走一个，问多少轮可以拿完苹果，另外最后一个苹果是第几轮拿走的。

思路：每一轮苹果少三分之一，大概需要log(n)轮才能拿完，可以模拟即可。

对于每一轮，假设当前轮有 k 个苹果，则可以拿走 1 + (k - 1) / 3个苹果。
如果最后一个苹果还没拿走，且 k%3 等于 1，则最后一个苹果这一轮可以拿走。

如果还有苹果，轮数加一，继续上面的模拟即可。

复杂度：O(log(n))
代码: https://qoj.ac/submission/602156

二、公路（road）

题意：一条公路有 n 个价格独立标价的加油站，你有一个无限大的油箱，问走一遍公路，最低需要多少油钱。

思路：由于油箱无限大，如果要加油，肯定选择前面价格最便宜的加油站提前加油。

分析所有加油站的关系，最终选择的加油站是递减单调栈。

假设单调栈是 a0,a1,a2,...,ak。
性质1：a0>a1>a2>...>ak
性质2：[ai,ai+1) 之间的加油站价格都高于 ai，从 ai 开到 ai+1 如果缺油，需要从 ai 加油。

如何到单调栈呢？

算法1：二分+线段树。

起始位置在 a0，通过二分可以找到 a1，并计算出 a0 开到 a1 需要加的油。
之后不断的从上个选择的加油站二分找到下个加油站，计算油钱即可。
复杂度：O(n log(n))

算法2：循环判断。

直接循环比较，找到下个加油站即可。
复杂度：O(n)

算法3：逆向思考

有一个故事：前面有一个又大又美的稻田,你只要往前走,一路走不能回头,如何才能选到一个你觉得最大最美的稻穗。
由于无法回头，这个没有最优答案。

如果可以回头，你会怎么做呢？
分别看每一段路，如果要加油，回头看那个加油站最便宜，时光回退回去，提前加好油，是不是就行了？
解法：标记经过的价格最便宜的加油站价格。
复杂度：O(n)
代码: https://qoj.ac/submission/602176

三、一元二次方程（uqe）

题意：给一个一元二次方程ax^2 + bx + c = 0,(a != 0)，按要求输出最大的解。

要求如下：
1）无解时，输出 NO
2）有解时，输出最大的解。
2.1）解是有理数时，输出最简的有理数形式。
2.2）解是无理数时，根号内需要是最简的整数。

思路：按题意模拟即可。

第一步，先标准化方程。
即使得 a 大于0。
另外，求出 a,b,c 的最大公约数，使得 a,b,c 的最大公约数未1。

第二步，判断是否游街。
即求出 ∆=b2 − 4ac，判断是否小于0。

第三步，输出一个解的情况。

第三步，输出有理数解。
当有多个解时，较大的解为(−b+√∆)/(2a)。
先判断是否可以开根号是否可以得到有理数解。
有了，计算出分子和分母，求最大公约数，消除后，输出有理数解。

第四步，输出无理数解。
没有有理数解时，根号里拆分为 k*d*d, 并将 d 提取出来，得到 (−b+d√k)/(2a)。
进而可以拆分为 −b/(2a) + d√k/(2a) 如果 b 不为0，则可以输出 −b/(2a)。
对于 d√k/(2a),需要先求出 d 与 2a 的最大公约数来化简，之后输出即可。

复杂度：O(1)
代码地址: https://qoj.ac/submission/603877

四、旅游巴士（bus）

题意：一个旅游园区加上入口与出口共有 n 个地点，园区内有若干路径连接着这些地点，但是路径在指定时间之后才开放。
大巴车每隔k个单位时间路过入口与出口，问游客坐大巴车到达入口后，如何走，才能到达出口时恰好可以坐上大巴车。
如果可以，输出最早的时间。

思路：先看题目的限制与要求。

入口：每隔k个单位时间可以进入入口。
出口：必须在地k个单位时刻走出出口，不能提前出来停止等待。
路径：部分路径大于等于某个时刻才能走。
路径代价：1个单位时刻

针对上面的限制和要求，可以推导出一些结论。

结论1：不考虑任何限制，入口与出口是连通的时才有答案。

结论2：如果时刻 t 可以到达一个地点，则 t+bk 时刻都可以到达这个地点。
对于到达这个地点的所有时刻，可以分为 k 组，每组只需要保存最小的到达时刻 t 即可。

结论3：如果时刻 t 到达一个地点1，地点1到达地点2的路径的开放时间是 a，且 t<a，则此时无法通过这条路径。
根据结论2，每隔 k 个时间还可以到达当前地点，所以可以找到最小的T,使得 T=t+bk>=a。
这样T 时刻就可以通过这条路径，从而 T+1到达地点2。

有了上面的三个结论，就可以发现，这个是一个最短路题。
只是每个定点可以到达 k 次，对应的时刻分别为 [0, k) + bk，可以通过二维数组来标记到达的最小时刻。

最短路一般使用 bfs 来求解，只有时刻更优时才能入队列。

为了做到每次先计算最小时刻的点，需要使用优先队列来储存数据。
对于出队的重复的时刻点，有更优答案时，代表前面已经计算过，直接丢弃即可。

当然，直接使用队列也没问题。
这个时候，出队遇到重复的时刻点，更优答案可能在队里后面还没处理。
此时可以选择丢弃，或者修正时刻为当前最优时刻。

复杂度：O(max(m, nk))

代码地址：
队列：https://qoj.ac/submission/614551
优先队列: https://qoj.ac/submission/601659

五、最后

总的看来，这次比赛四道题题型分别为数学计算、单调栈、模拟、图论最短路。
难度都不大，大家把基本算法知识掌握之后，做出这几道题都没问题。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

协议该为批量模式，性能提升 3 倍

2024-09-30T12:13:00+08:00

零、背景

前文《减少磁盘IO与数据COPY，性能提升5倍》提到，团队的一个服务遇到一个读文件的 coredump 问题，但是 review 代码没发现 coredump 的原因，但是发现对应模块设计存在很大的性能问题。

我把代码提取出来，做了简单的优化，耗时从 23.5秒降低到了 4.6 毫秒，性能提升了 5 倍。

当时提到，其实还有两个设计可以优化。

现在来看看其中一个设计问题吧。

一、协议设计

前文提到，我们的数据储存在 COS 里。

对于 COS，大家可以理解为一个远程文件储存系统，即远程的磁盘。
与本地次磁盘区别是，远程磁盘只能通过一次 IO 操作来读取或写入完整的文件数据。

回到文件的协议，如下：

文件分为 N 个 Block。
每个 Block 分为两部分：
第一部分固定 20 字节，内容是数据的长度 len。
第二部分是 len 个字符，代表多个item 通过 protobuf 数组编码后的内容。

二、问题

先来 Block 的第二部分，即储存一个二进制内容，内容是多个 item 编码而成。

大家可以思考一个问题：

整体数据很大，拆分为多个文件，文件大小多大合适？。
每个文件拆分为多个 Block，每个 Block 储存多个 item。
那一个 Block 储存多少个 item 才合理呢?

实际上，需要进行压测，得到性能数据才能得到最合理的阈值。

即压测确定一个文件多大时性能最高，一个 Block 多大时性能最高。
然后根据文件性能确定单个文件大小，根据 Block 性能确定单个 Block 大小，进而计算出 Block 个数与 item 个数。

当然，这里我不记得当时设计时是否有压测。

看配置，最终设计的文件大小上限是 200M。
但是看线上数据，实际一个文件只有20~50M，核心集群一个文件在 30M 左右。

Block 大小，设计的是 10000 个 item 一个 Block，后来临时加了一个 1M大小的限制。
但是由于临时加的总大小逻辑有BUG，导致实际是一个 Item 对应一个 Block。

换句话说，前文提到的有几千万次 fread io，队列也会有几千万次转发，都是因为这个 BUG 被二次放大了。

三、优化

优化其实很简单，一个 Block 的 item 个数调大。

具体调多大合适呢？

由于清理编译环境，上次的文件不在了，我只好从线上COS重新下载一个文件，所以这次的数据和上次会有细微变化。

这里我先使用转换程序，将原始文件处理为指定 item 个数的目标文件，并使用倍增算法确定大致 item 的范围。

分别压测 item 拆分为 2 的 1~20 次方个，可以发现，最低的是 2048个一组，降到了 11.1秒。

原始个数是 1个，耗时 34秒，最优可以降低到 11秒，性能提升 3 倍。

上面文章提到，通过优化架构，性能可以提升 5 倍。
这里使用架构优化后的程序跑一下，可以发现，批量优化的效果就没那么明显了，仅仅从 6587ms 提升到 5124ms，提升 28%。

分析 item 合并后，可以发现文件大小降低了 23%，这说明性能提升的主要原因是文件大小的降低带来的。

四、最后

当前的代码，不优化架构，仅仅调整批处理的个数，耗时就可以由 34 秒降低到 11秒。
至于批次应该设置为多大，则需要根据自己的业务特性，进行压测分析，选择适合自己的批次。

而进行架构优化，则可以将耗时降低到 5.1秒，相比批次优化，依旧可以提升 1 倍性能。

回顾这个模块，还有两个地方可以优化。

第一个是 Block 的第一部分是固定 20字节。
未来优化为 4 字节，文件大小可以降低不少，性能应该又可以提升一部分。

第二个是 Block 的第二部分是一个列表 protobuf，列表的值有是一个 protobuf 序列化后的值。
这里就存在两次 protobuf 解包，即会复制两次内存。
如果合并为一个，则只需要复制一次内存，性能应该可以再次提升。

当然，这两个优化涉及到改动协议，短期内就暂时不动了，十一后先做一下代码优化，先提升 6~7 倍性能再说吧。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

leetcode 第 417 场算法比赛

2024-09-29T12:13:00+08:00

零、背景

这次比赛题目不难，但是我失误较多，比如排名靠后了。

A: 模拟。
B: 暴力枚举。
C: 滑动窗口。
D: 递推。

排名：137
代码地址： https://github.com/tiankonguse/leetcode-solutions/tree/master/contest/4/417

一、找出第 K 个字符 I

题意：原始字符串长度为1，每次操作将字符串的所有字符加一后追加到原始字符串上。
求当字符串长度不小于k时，第 k 个字符是多少。

思路：标准做法是递推，不过这里数据里比较少，可以按题意模拟构造出字符串，然后输出第k个位置的答案。

二、元音辅音字符串计数 I

题意：给一个字符串，求所有包含5个元音字母且辅音个数恰好是 k 个子字符串个数。

思路：标准做法是滑动窗口，不过这里数据里较少，可以暴力枚举子字符串判断是否满足要求。

三、元音辅音字符串计数 II

题意：给一个字符串，求所有包含5个元音字母且辅音个数恰好是 k 个子字符串个数。

思路：与第二题一样，不过数据范围变大，需要使用滑动窗口来做。

预处理：预处理出每个前缀的辅音个数posToNum以及所有辅音个数首次出现的位置numToPos。
所有辅音个数首次出现位置的含义是，第1次出现的位置，第2次出现的位置等等。

滑动窗口：确定左边界 l，先找到包含5个元音的第一个右边界 r。
上面这个边界信息[l,r)是可以使用滑动窗口来供下个左边界使用的。

元音的边界确定后，需要下面四步来找到答案的左右边界。

1、通过a=posToNum[l-1]得知上个位置的辅音个数。
2、通过 L=numToPos[a+k] 来找到第一个满足 k 个辅音的左边界。
3、通过 R=numToPos[a+k+1]-1 来找到最后一个满足 k 个辅音的右边界。
4、答案就是 [l,r) 与 [l,R]的交集。

注意实现：辅音的边界可能不存在，建议先通过整个后缀来判断是否存在边界来剪枝。

四、找出第 K 个字符 I

题意：原始字符串长度为1，有两个操作。
操作1：将字符串保持不变追加到原始字符串上。
操作2：将字符串的所有字符加一后追加到原始字符串上。
告诉你操作列表，问当字符串长度不小于k时，第 k 个字符是多少。

思路：逆向递推。

假设当前求第 kn 个字符的答案，先计算出此时，字符串的长度 N 和操作次数 n。
应该满足这个关系：N/2 < kn <= N，即 kn 在字符串的右半部。

首先需要递归求出第 kn-N/2个字符的答案。

如果第 n 次是复制保持不变，则第 kn 个字符与第 k-N/2 个字符的值相等。
如果第 n 次复制时加1，则第 k 个字符为第k-N/2个字符的值加1。

代码实现的时候，如果使用代码递归，就简单一些。
如果使用循环递推，则需要累计加一的次数，最终根据加一的次数，计算出答案。

五、最后

这次比赛其实算两道题，一道滑动窗口，一道递推，还都不错的，适合用来当做面试题。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

减少磁盘IO，减少数据COPY，性能提升5倍

2024-09-27T12:13:00+08:00

零、背景

最近团队的一个服务偶尔 coredump，都是 coredump 在固定的位置。

固定的位置出问题，显然是这块代码有 BUG。
相关同学说 review 了那块代码，没发现问题。

于是我就好奇起来，去看了下相关模块的代码。
看之后没找到原因，不过发现一个重大问题：代码的架构设计存在很大的性能问题。

当然，这块代码是多年前其他人写的，现在 review 后发现不合理，后面肯定需要进行优化的。

一、文件协议

根据 core 文件的堆栈，可以确定在读取文件数据时异常了。
具体来说，文件有一定的组织结构。
文件数据没问题，但是代码不知什么原因，没有正确的解析文件，错位了，导致解析出的数据是错误，从而导致 coredump。

文件的协议如下：

文件分为 N 个 Block。
每个 Block 分为两部分：第一部分固定 20 字节，内容是数据的长度 len。第二部分是 len 个字符，代表多个item 通过 protobuf 数组编码后的内容。

对于这个协议，其实我有两个疑问。

第一：为啥文件中没有储存 Block 的个数？
第二：为啥 Block 的第一部分是 20字节明文字符串，而不是4字节储存数字（21亿足够了）。

当然，这些设计问题，也不是那么致命，也不是本文的重点，这里就继续吧。

二、coredump 位置

针对这个文件协议结构，当前的代码是循环尝试读取 Bloick 信息。
具体是先 fread 读取 Block 的第一部分得到长度，然后 fread 读取 block 的第二部分数据，扔到队列中。

代码大概如下：

FILE* pFile = fopen(file_name.c_str(), "r+");
while (!feof(pFile)) {
    // 读当前DataBlock字节数
    int ret = fread(line, 1, headerSize, pFile);
    if ( ret < headerSize) break;
    int bufSize = atoi(line);

    int ret = fread(tmpBuf, 1, bufSize, pFile);
    if (ret == 0) break;

    // 将当前DataBlock(序列化后)放到队列
    std::string tmpLine(tmpBuf, bufSize);
    data_stream_.push(tmpLine);
    if (ret < bufSize) break;
}
fclose(pFile);
// 删除当前处理完的文件
remove(file_name.c_str());

针对上面的代码，读取 block 的第二部分数据时，返回码判断其实是有问题的。
理论上，应该判断返回值与 bufSize 是否相等，不等代表读取异常。

不过这个问题不会导致 coredump，顶多是向队列塞了一个脏数据。
毕竟这个判断放在了最后，即最后依旧会判断读取是否符合预期，不符合预期就会结束文件读取。

当前的问题是 coredump 在 tmpLine 的定义上。
原因是 bufSize 的值很大很大，导致申请内存失败。

为啥 bufSize 的值很大呢？
因为读取 Block 第一部分后， line 中的值不正确。

为啥 line 中的值不正确呢？
这就需要分析代码的架构设计了。

分析完架构后，发现架构有很大的性能问题，但是不应该导致 coredump。
所以，为啥 coredump 没有找到原因。

负责人提的建议是先对第二个 block 的返回值做正确的检查，这样至少不会 coredump 了。

我则提出直接一步到位的要求：架构明显不合理，不应该写文件的。
问题出在读文件上，直接把文件的逻辑都干掉，以及进行性能优化。

三、架构分析

分析这个模块的架构，发现要做的事情很简单，但是架构设计的有点奇怪。

根据架构图可以得到这个模块的功能：从 COS 中拉取到数据，解析后写入到共享内存。

架构图如下

流程也文本描述一下。

1）下载线程从 COS 下载文件数据
2）下载线程把下载的文件数据写入到磁盘
3）下载线程把磁盘文件名扔到文件名队列 4）加载数据线程从文件读取每一个Block，数据扔到数据队列。
5）写内存线程消费数据，解析出数据列表，然后列表的每个数据解析出业务数据，业务数据写入到共享内存。

四、架构问题

问题1：磁盘

这里的 COS 数据根本没有写文件的必要。

一般数据写磁盘用于备份数据，即服务重启时，加载磁盘快速恢复数据。

但是这里使用磁盘，仅仅是当做一个消息队列。
服务重启后，这份数据永远不会再使用了。

问题2：频繁IO

如果一个文件只写一次磁盘，读一次磁盘，勉强也可以接受。
但是这里是写一次磁盘，读 2N 次磁盘， N 是文件里的 block 个数。

我线上跑了下 Block 的个数，一共需要读取 12338880 个 Block，即一千万个 Block，即有两千万次 fread io 操作。

问题3：8次数据copy

0）从 COS 读取数据，一次数据 COPY.
1）数据写入磁盘至少算一次数据 COPY。
2）从磁盘读取数据，又是一次数据 COPY。
3）磁盘的数据读到临时 buf，会组装为一个 string 放入队列，又一次数据COPY。
4）消费 block 队列，又一次数据 copy。
5) block 对象解包，又一次数据 COPY。
6) block 对象是一个数组，数组的每个 item 都需要解包，又一次数据COPY。
7) 每个 item 对象写内存前，会转化为临时对象，又一次 COPY。
8) 临时对象写入共享内存，又一次 COPY。

五、优化

架构优化很简单，把磁盘去掉，只保留一个消息队列，消息队列使用智能指针来储存数据。

代码实现也很简单，拉取数据，组装智能指针，扔到队列里。

std::string content;
cosProxy->GetObject(ctx, content, cos_path);


std::shared_ptr<std::string> strPtr = std::make_shared<std::string>();
strPtr->swap(content); // 内存交换，zero copy
data_stream_.push(strPtr); // 放入队列

是的，文件的解析由写内存线程去理解。
这样的好处是全程都可以服用智能指针这一个字符串，只需要维护一个偏移量和长度即可，不需要进行频繁数据 COPY 了。

写内存线程消费到 COS 数据时，每解析出一个 Block 的位置，直接使用指针和长度去解包，得到具体的内容。
这样，就直接从第一步拉取的 COS 文件，解析出了 Block 对象，中间直接少了 4 次数据COPY。
Block 对象中是一批 item, 再次解包不可避免。
但是 item 的对象可以 swap 传递给下游，这样又减少一次COPY。

总的算下来，至少减少了 5 次数据COPY。

六、性能数据

相关代码抠出来，下载COS 临时使用数据复制代替，写共享内存也使用数据复制代替，使用线上 COS 数据跑了一下，时间竟然提升了 5 倍。

具体来说，共48个文件，每个文件1233个Block，单个文件24M。

根据图中的信息可以发现，优化前，总耗时 23.5秒。
读文件线程的耗时也是 23.5秒，说明磁盘IO操作，以及几次复制，很消耗性能。

而优化后，耗时降低到 4.6 毫秒，性能提升了 5 倍。

七、最后

一个 coredump 问题，意外发现模块设计不合理，优化后竟然可以提升 5 倍性能。
这么看来，后面有必要对核心链路代码进行代码走查，应该可以进一步提升不少性能。

对了，其实这里还可以进一步优化，后面有机会再单独介绍一下。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

2024年第二次感冒

2024-09-23T22:13:00+08:00

零、背景

2023年在《往年1年感冒1次，2023年感冒无数次》记录过，疫情之前，我一年恰好感冒一次。

2022 年，疫情放开，我感冒了两次。
2023年，我感冒了4~5次，差不多隔两个月就感冒一次。

2024年，第一次感冒是5月份，当时没有记录下来。
第二次感冒是最近的9月份。
现在赶紧记录一下，避免后面又忘记了。

一、5月感冒

五一国庆回家后，家里气温还比较冷。
晚上睡觉时又比较热，于是我就把一半身体露在外面了，就这样冻了几晚上。

5月8日，回深圳后就感冒了。

5月7日晚上睡觉的时候已经感觉不舒服了，当然喝了好多水，去了很多趟厕所。

感冒期间，我正常参加了5月10日的引体向上训练，第二天肌肉浑身酸痛。

期间还在考驾照，正在练习科目三。
练车时感冒到了最后一个阶段咳嗽。

为了避免频繁咳嗽打扰开车，我转了好几个药店，终于买到了固体的右美沙芬咳嗽药。
那晚练完车，去买了咳嗽药，随便还第一次在小摊上买了一个烤冷面。

其实来深圳在这十年期间，我一个人从来不去买这些小摊食品的。
当然不是怕不卫生，而是觉得这些分量太少，只能当做零食吃。

二、9月感冒

之前在文章《2024年攀岩馆头受伤小记》提到，我的头受伤了，一周期间不能运动和洗头。

9月6日晚上，周五，我终于可以洗头了。
之后的一周，我开始逐步恢复运动。

9月14日，周六，依旧要上班，不过第二天就是中秋放假了。
这一晚我感觉我的运动状态回来了，很有精神，很有状态。
于是这一晚在攀岩馆爬线爬到很晚，直到最后手磨出一个血泡而结束。

那时候还在追 EVA ，回家后还不困，便把 EVA 最终篇看了，看完时凌晨三点多了。

9月15日，周日，一大早7点多，收到两个电话，这就导致睡眠严重不足。
当天下午就感觉浑身无力，有点发低烧。

之后就是不吃药一周好，吃药7天好的感冒标准流程了。

16日和17日两天，喉咙不舒服。
18日和19日两天，轻微的流鼻涕。
20日和21日两天，轻微的咳嗦。

昨天22日和今天23日，偶尔还会咳嗽一下。

不知道是今年跑步的缘故，还是暑假碳水吃的多体脂率变高的缘故。
这次感冒症状都很轻微，发低烧半年，没怎么流鼻涕，咳嗽也比往年轻微多了。

三、最后

其实我本来计划9月开学后去打疫苗的。
结果头受伤了，就被耽误了。

现在感冒好的差不多了，这周找个时间去社康打一下流感疫苗吧。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

leetcode 第 416 场算法比赛

2024-09-22T12:13:00+08:00

零、背景

这次比赛比较简单，拼手速的时候到了。

A: 字符串统计。
B: 二分。
C: 滑动窗口。
D: 滑动窗口。

排名：200+
代码地址： https://github.com/tiankonguse/leetcode-solutions/tree/master/contest/4/416

一、举报垃圾信息

题意：给一个字符串数组，如果至少存在两个字符串在黑名单字符串中出现，则称为垃圾数组。
问是否是垃圾数组。

思路：黑名单储存为 hash 表，统计有多少个在黑名单中即可。

二、移山所需的最少秒数

题意：n 个工人同时开挖一个山，告诉你每个工人挖山的效率，问最少需要多少时间才能把山挖空。
工人效率定义：挖 x 单位的山，需要 T=t+2t+3t+...+xt时间。

思路：二分。

二分答案时间，计算时间内每个工人可以挖的山的高度，看累计起来是否可以把山挖空。

对于一个工人，时间T确定了，可以列出一个一元二次方程，解方程即可计算出山的高度x。
复杂度：O(n log(n))

如果你不想解一元二次方程，则可以使用二分去求解找到答案。
复杂度：O(n log(n) log(n))

三、统计重新排列后包含另一个字符串的子字符串数目 I

题意：给一个字符串，问有多少子串重排列后是指定字符串的前缀。

思路：滑动窗口。

先一个字符串重新排列后是另一个字符串的前缀的判断方法。
由于第一个字符串可以重新排列，这说明统计两个子串的字符，第二个字符串的字符在第一个字符串里都出现，则一定满足要求。

由此这道题可以转化为：有多少子串的字符可以拼出指定字符串。
对于子串的字符串统计问题，很容易想到滑动窗口。

固定左边的起始位置，找到第一个右边界，使得这个子串满足要求，显然所有后缀也都是满足的。
固定的左边位置右移一次后，可以复用上一次的右边界。
如果右边界不满足要求，继续右移即可。

可以证明，复杂度为O(n)

四、统计重新排列后包含另一个字符串的子字符串数目 II

题意：给一个字符串，问有多少子串重排列后是指定字符串的前缀。

思路：与第三题一样，没区别。

五、最后

这次比赛题目设计的很失败。

滑动窗口作为 leetcode 入门做的第一个算法，几乎所有人都会这个算法。

第三题，没有任何特殊变形直接出了一个赤裸裸的滑动窗口的题目。
第四题的数据范围也可第三题一摸一样，第三题通过后，第四题自然可以通过。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

antlr 表达式解析错误

2024-09-19T12:13:00+08:00

零、背景

之前在文章《STL 里面 coredump 了，如何定位？》里提到，我们用的了 antlr 库。

最近又遇到一个问题，和这个库有关，记录一下问题与分析过程。

一、问题

2024年8月19日，周一，走查线上服务时，意外发现线上服务的启动日志文件里在刷日志。

模块负责人回答说这个错误日志好像一直都有。

对于这个回答，我是挺意外的。
我的原则是不能放过任何一个错误，每个错误背后都代表存在缺陷，这个缺陷可能产生无数的连锁反应，最终间接影响业务，甚至极端情况下可能导致故障。

所以，针对这个错误日志，是肯定需要去找到原因并解决的。

2024年9月2日，周一，走查线上服务，再次遇到这个错误日志。

2024年9月12日，周四，走查线上服务，第三次发现这个错误日志。

事不过三，这周对应的模块负责人刚好休假了，所以我打算去看下这个到底是啥错误，原因是什么，以及如何解决。

二、分析

首先看错误日志，可以大概猜到含义。

line 1:0 token recognition error at: '"'
line 1:1 token recognition error at: '"'
line 1:2 mismatched input '<EOF>' expecting {IDENTIFIER, '_', UDF, 'for_each(', '(', '!', INT, STRING, FLOAT, NEWLINE}

错误日志分为三行。
第一行的含义是在第一行的第一个 token, 读取到双引号 "，识别错误。
第二行的含义是在第一行的第二个 token, 读取到双引号 "，识别错误。
第三行的含义是在第一行的第三个 token, 读取到 <EOF>，预期不能结束。

根据上面的三行错误，可以反向推导出输入的表达式是一个双引号的空字符串 ""，但不知为什么，这个 antlr 是不识别的。

进一步推导，可以推测，这里想要表达空字符串，但是却没有被识别到。
这意味着字符串不是使用双引号表示的。

线上大量的使用了字符串，比如很多图片拼接和URL拼接，都使用到了字符串。
去看一下配置，原来使用的单引号。

由此，可以进一步推测出，所有的字符串都需要使用单引号，不能使用双引号。

线上配置搜索下双引号，有 8 条记录使用了双引号，不过这 8 个字段都是要废弃的字段。
怪不得没有业务反馈这些配置有问题的字段的数据不符合预期呢。

三、antlr 源码

现在已经确定是 antlr 的问题了，所以需要去看 antlr 的源码。

搜索 token recognition error, 可以搜到两个文件有出现。

第一个是类的注释说明：Errors from the lexer are never passed to the parser. Either you want to keep going or you do not upon token recognition error.

第二个就是具体的代码，刚好对应输出的日志。
tokenStartLine 对应行号。
tokenStartCharPositionInLine 对应错误在行中的偏移量。
text 就是从偏移量读取到的字符。

至于具体为何表达式会解析错误，这个不归 antlr 负责。

因为 antlr 是通用的规则解析引擎，具体的规则需要使用方自己去定义。

所以还需要去看规则语法树。

三、语法规则

对于一个规则引擎，我们一般先定义一个语法树，储存在 Expr.g4 文件里。

查看下 STRING 的定义，就可以发现，定义的时候，两边是单引号。

到这里，一切都得到解释。

四、总结

字符串使用单引号定义，线上存在 8 个字段使用了双引号。
不过恰好这 8 个字段是要废弃的，即大部分都没有值。

而规则解析错误时，默认也会兜底也是返回空值。
因此业务没有反馈这些字段不符合预期。

唯一的问题是，这些字段解析时，会被打印一个错误日志。
如果线上大量的访问这些字段，大量的打印日志，还是比较影响性能的。
所以还是需要解决这个问题。

解决方案也很简单，把所有的双引号修改为单引号。

那改如何预防以后发生类似的问题呢？

事前分为两个方法。

第一：完善文档与团队内宣讲。
第二：表达式的配置要管理台化，然后管理台可以预检查合法性。

对于不走管理台的特殊场景，就可能导致配置确实配错了。
这就需要事中主动发现，主动告警。
具体来说就是服务主动识别错误，并进行监控告警以及流水上报。

这样通过事前预防，事中监控告警，事后查询流水来修复问题来完美解决了。

五、最后

整体看下来，这个其实是一个非常小的问题。

这里记录下来想表达三个东西。

第一：很多问题，耐心去看问题的表象，通过问题的表层信息，就可以推导出很多结论。
第二：问题背后模块的基本原理需要大概知道，否则只知道字符非法，但是不知道为啥非法，也不知道怎么查看源码。
第三：解决问题很简单，避免问题再次发生更为重要。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

leetcode 第 415 场算法比赛

2024-09-15T12:13:00+08:00

零、背景

这次比赛第三题和第四题一样，只是数据范围的差异。
第三题我使用 O(n^2) 的复杂度一直超时或者 WA，最后加了一个函数优化才通过。

A: 面试题。
B: 简单动态规划。
C: HASH + 动态规划。
D: hash或Z函数或AC自动机 + 动态规划。

排名：200+
代码地址： https://github.com/tiankonguse/leetcode-solutions/tree/master/contest/4/415

一、数字小镇中的捣蛋鬼

题意：给一个大小为 n 的数组，值域为 [0,n-1]。
现在有只有两个数字都出现两次，其他数字出现一次，问出现两次的数字的值。

思路：

方法1：排序
方法2：hash
方法3：原地交换，面试时希望得到这个方法。
原地交换的代码参考 A_swap.cpp

二、最高乘法得分

题意：给一个大小为4的数组和大小为 n 的数组，求在第二个数组中挑 4 个元素（相对顺序不变），与第一个数组求叉乘。
叉乘定义: (a0,a1) X (b0,b1) = a0*b0 + a1*b1

思路：动态规划。

定义状态：f(n,m) 第一个数组前 n 个元素与第二个数组前 m 个数组匹配叉乘后的最优解。

状态转移方程：
分为最后一个元素匹配或不匹配，不匹配时第二个数组删除最后一个元素。

f(n,m)=max(f(n-1,m-1), f(n, m-1))

复杂度：O(nm)

当然，这个状态转移方程可以写成递推的方式，从使用滚动数组来节省内存。
滚动数组的代码参考：B_loop.cpp

三、形成目标字符串需要的最少字符串数 I

题意：给一个字符串数组和目标字符串 s，问字符串数组里面最少可以选择多少个前缀，才能组成目标字符串。

思路：动态规划。

状态定义：f(n) 目标字符串前n个字符最少需要多少个前缀才能组成答案。

状态转移方程：
枚举所有后缀，判断是否可以选择。

f(n) = min(1 + f(i-1)) & exist(s[i,n])

判断后缀是否存在可以使用hash来优化。
预处理所有前缀，储存在 hash 表中。
对于子串s[i,n]的hash，可以通过前缀求差快速得到。

复杂度：O(n^2)

比赛的时候，直接这样写超时了。
我做了一个常数优化通过了这道题。

比赛期间遇到不少坑。

坑1：模 mod1e7 遇到 hash 冲突问题。
坑2：样例卡常数。

优化1: 换成 mod1e9 依旧冲突。

优化2: 换成 mod1e7 与 mod1e9 的组合，超时。

优化3: 字符串数组只需要求前 n 个前缀，依旧超时。

优化4：预先设置 hash 的桶大小，依旧超时。

优化4：字符串只有100个，定义 n 个 hash ，每个 hash 大小 100.
比赛的时候，我是通过这个优化通过这道题的。
分n个hash的代码参考：C.cpp

优化5：前缀一旦不匹配，后面的都不匹配，终止。
评论：优化只是提高性能，意外的降低了冲突的概率，从而通过这道题。
不过这个是我比赛后试出来的。
代码：C_hash.cpp

四、形成目标字符串需要的最少字符串数 I

题意：给一个字符串数组和目标字符串 s，问字符串数组里面最少可以选择多少个前缀，才能组成目标字符串。

思路：和第三题一样，数据范围增加一个数量级。

第三题的状态转移方程需要调整下，修改为后缀。

状态定义：f(n) 目标字符串从第n个字符开始的后缀字符串的最优答案。

状态转移方程：

f(n) = min(1 + f(i+1)) & exist(s[n,i])

方程转化一下等价与下面的形式。

l = max(i) && exist(s[n,i]);
f(n)= 1 + min(f(n+1), f(n+2), ... f(i+1));

如果可以快速的找到边界 l 以及可以快速查询区间 [n+1, i+1] 的最小值，就可以做这道题了。

根据 l 的性质，满足左边都存在，右边都不存在，故可以二分查找。
而区间最值，则可以使用线段树来做。
复杂度：O(n log(n))
代码： D_hash.cpp

其实，这道题是字符串题，可以使用标准的字符串算法来解决。
例如可以使用 Z函数来快速计算出匹配的后缀，从而可以代替二分快速计算出上面的 l。
代码参考：D_z_function.cpp

还有人使用AC自动机来做，这个算法最坏情况下复杂度会退化为树高，是否会超时我没去研究，有空了研究下。

五、最后

这次比赛最后一题是字符串题。
我之前字符串题做的比较少，对我来说是比较难的。

不过如果第三题没有被卡常数，第四题我同样会使用 hash 的方法代替朴素的字符串算法。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

2024年攀岩馆头受伤小记

2024-09-13T22:13:00+08:00

零、背景

2024年8月29日，在攀岩馆不小心磕到头了，流了不少血，最后去医院缝了两针。

如今，伤口已经好的差不多了，记录一下全过程。

一、状态不好

2024年8月29日，上午开会到中午13点多。
出去吃完饭回来就快两点了，于是午觉只休息了十几分钟。

晚饭是团队聚餐，欢送实习生返校。
这次聚餐选择的是大渔铁板烧自助餐。

可能好久没吃这么高的碳水和脂肪了吧。
吃到最后，我头就昏沉沉的，比较困。
所以最后我就只吃了点水果，没有继续吃了，看着他们吃。

由于5~7月份在跑步没怎么攀岩，7~8月份过暑假也没怎么攀岩，我已经从 V4 选手退化为 V2 选手了。
所以我的原计划是晚饭后去攀岩馆爬低级别的线路，打算使用一个月时间来慢慢恢复自己的攀岩水平。

吃完自助餐，外面下着小雨。
我穿上雨衣，骑着自行车去到攀岩馆。

二、受伤

2024年8月29日，大概9点25分的时候，到达攀岩馆。

为啥这么清楚嗯？
因为有岩友看到我，问我怎么提前来了。
我一看时间，还有不到10分钟就9点半了。

我先去二楼拿装备。
结果到达二楼后，感觉很热。
我就打算先在二楼阳台上，边看楼下的人攀岩，边吹一会电扇。

躺在阳台上后，发现电扇没有吹到自己。
我便起来去转电扇。

然后就是“咚”的一声，我的头撞到哪里了。
楼下的人都抬起头看我，并开玩笑说不要把风扇弄掉楼下去了。

我抬头看了下，原来撞到这个固定架的角了。

突然，我感觉额头上有液体在流动。
手一摸，一手血。
于是我赶紧使用纸巾按压伤口。
大概过了两分钟，头不流血了。

我以为只是撞破皮了，便把血擦干净回家了。

回家的路上，我经过一个药店，顺手买了一瓶碘酒。
回家带上眼镜，使用镜子照着伤口，给伤口摸碘酒时，发现伤口还是有点大的。
于是我犹豫了：这个伤口需要去医院缝针吗？

网上搜索说小伤口并不需要缝针。
但是我始终不放心，怕需要缝针而不缝针，可能伤口就恢复的不那么理想了。
既然犹豫不决，那就去医院一趟吧。

三、急诊

2024年8月29日，22点20分左右，我到达医院，挂了急诊号。
此时，离我受伤不到一个小时。

急诊只有 3 个外科医生，等了大概半个小时，终于轮到我了。

医生看了一眼我的伤口，说伤口看着也不大，可以缝针，也可以不缝针。
我选择了缝针，因为缝针的话伤口恢复的更快。

支付费用的时候吓我一跳，这么多钱。
破伤风 248元，手术费用 108元，还有其他杂七杂八的合起来共 436元。

之后就是进去缝针，里面有两个医生。

医生先使用一个布盖住我的头。
然后使用剃刀把头部伤口处的头发全部剃掉。
接着是给我头皮打麻药。

麻药生效后，医生先评估了我的伤口，说看了下，伤口不大，但是伤口还是蛮深的。
然后不知道使用啥东西把我的伤口撑开，说看下里面是否有杂物。
最后结论是没有杂物。

年轻的医生说应该只需要缝两针8吧。

接下来就是缝针。
一个医生一直在和另一个医生说话，说第一步做啥，第二步做啥。
我意识到，年轻的医生是一个实习生，甚至可能是第一次缝针。

我就在犹豫要不要打断他们，要求另一个医生缝针。
最终想了想，我的这个伤口其实不严重，缝针难度也不大。
只要不是误操作把针垂直扎到我的头里，其他情况下都不会有啥问题。
于是就保持安静，等待他们给我缝针。

年轻的医生动作是相当的不熟练。
总是在吐槽，说头发碍事，影响到缝针穿线了。

如果是普通医生缝针，应该三五分钟就搞定了吧。
这个新医生在另一个医生的指导下，缝了几十分钟，最终才操作完。

最后，普通医生检查了下缝针的线，左扯右扯的。
最后说检查完了，没问题，手术做完了。

随后，医生给我交代了两件事。
第一：还需要去注射科打破伤风。
第二：回去后，外涂的抗生素每天用三次。

来到注射科，护士说打屁股针，让我把裤子脱了，站着趴在椅子上。
我赶紧把窗帘拉上，背着护士把裤子脱了。

护士说不需要脱那么多，只需要把一边屁股露出来就行了。
然后就是一针扎到我的屁股上。
就这样打完了破伤风。

由于还要报销，我又去找医生打印了病例，然后去自助机打印了费用清单和发票，然后就离开医院了。

四、社康剃头

深圳的 9 月，还是相当热的。

其实我本来打算上周剪头发的，由于各种乱七八糟的原因，没有剪，只能推迟到这周。
没想到这周四头就受伤了。

我在群里说出我的想法，去理发店把头发剃短点，这样头就不容易出汗了。
结果群友说剃的时候需要工具消毒。

显然，理发店做不到这个的。

所以我决定去社康试试。

2024年8月30日，周五，一大早我去社康挂号，挂的全科，10块钱。
进去后和医生说了我的想法，医生说社康只看病，没有无毒剃头这项服务。

五、换药

急诊缝针的时候，护士交代说隔一天来换药，社康医院都可以换，第5天拆线。

2024年8月31日，周六，我来到南山医院，挂了外科医生的号。

和医生说了我的情况，我有三个诉求：

1）换药
2）剃头
3）看下伤口恢复的怎么样

医生说开完换药的单子，去找护士就行。

我找到护士，结论如下

1）伤口在正常恢复，没有异常情况。
2）医院没有无菌剃头的服务。
3）换药后，使用别针把纱布固定在我的头发上。

我赶紧问，使用别针固定住了，我回去怎么自己涂药，急诊的时候开了一个每日三次的药膏。
护士说：你自己不能把纱布拿下来的，那个不需要涂了，每次只能来换药的时候才能取下来。

另外，护士还说，看这次只看了一个换药单子。可以去找医生一次性把所有的换药和拆线单子都开了，这样后面就不需要额外挂号了。

我说：急诊的时候，医生说5天就可以拆线，那就是下次来就拆线了？
护士说：我们一般是7天拆线的，加上受伤那晚，还需要换一次药，然后是拆线，所以需要两个单子。
于是我找医生加了两个换药单子，并标注一次换药，一次拆线。

换药的时候，我问有没有感染，恢复的怎么样时，护士用我的手机拍了一个照片。

六、接受与面对

在犹豫要不要缝针时，我考虑过缝针之后的后果。

缝针之后，头上会贴一个纱带，甚至头上戴一个纱带。
这样走在路上，其他人就会投来异样的眼光。

尤其是遇到熟人，第一次见面都会震惊，问怎么了。
自己也要准备好怎么回答。

当然，在缝针之前，我心中只是有这样一个想法。
我最终做出选择的依据是不缝针时伤口可能面对的风险。
面对这个风险，我果断的选择了缝针。

缝针之后，头上戴上绷带，我才开始思考怎么面对其他人。

我能想到的就是戴一个帽子，于是我美团上下单，买了一个小时达的帽子。

关于我头受伤的事，也使用视频记录了下来，分享在小红书和B站上。

很多人建议我不要戴帽子，因为这样捂着头更容易出汗。
这么说来确实很有道理。

于是我便不再戴帽子了。

不戴帽子后，上班期间遇到熟人，自然会吓到熟人。
我也只能一遍遍的给熟人介绍头是怎么受伤的。

一开始我还怕见到熟人，后面慢慢的也就习惯了，释然了。

七、拆线

这在七天之间，我每晚只能使用小毛巾弄湿，然后把周围的头发擦一遍。
到最后几天，每次擦头发时，都会掉好多头发。

终于坚持到拆线了，护士说拆线后当晚不能洗后，第二天晚上才能洗头。
没办法，只好再坚持一天了。

拆线后，我拍了一个照片，还可以看到头上残留的血迹。

八、保险

这次受伤，全程都是走的统筹医保和个人医保，共花了 574.2元。
由于保险不保险统筹账户，只保险个人账户的 90%, 所以最终赔付了 234.62 元。

听说攀岩再单独买一个个人保险，可以报销两次。
不知道有没有报销两次的朋友，是叠加的吗？

九、事前预防

经历了这次头部受伤，思考了很多。

作为个人，其实我一直都很小心的生活。

不管是骑车上下班还是走路，都会多次确认路况。
攀岩的时候，我会千倍小心，所以那些看起来很危险的动作，我都会拆解为多个不危险的动作，直到最后能顺畅安全的连起来，才会去做那些动作。

比如这次，很热且有点困，我已经放弃去攀岩了，只是打算吹下风扇，休息一会就回答。
结果攀岩三年都没受伤，吹个风扇却被撞头了。

这里说明还是要远离危险的地方。
攀岩已经有一套体系化的方法论来避免受伤。
生活上，由于要去的地方很多，只能要多加小心，尤其是比较困没状态时，就不要到处转了，还是回家睡觉休息吧。

作为家长，家里的孩子刚会走路时，家里所有人都会尽可能的去排查家里所有可能有危险的物品，避免孩子意外造成重大伤害。
如果你曾经是孩子的父母，应该能理解这里面的道理。

作为开店的老板，对待客人要对待孩子一样，面对所有可能受伤的地方，要多提前做好预防措施。

比如我头被撞的支架，另一侧已经使用软垫子保护起来了，但是我撞的那一侧就没软垫子。
作为一个门店，来来往往的客人很多，只要某个地方有概率导致受伤，经过的人多了，这个概率就会变得无限大。

例如8月份老板给店里加了一个桌子，有人胳膊放在桌子边缘，被锋利的边缘割伤了。
8月24日我看到了随手反馈给老板，直到8月29日我受伤，老板也没重视这个问题。
后来老板问我头怎么样时，我提起这个问题，他们才在边缘加了一个保护泡沫。

例如攀岩馆养了3只狗，其中有一只会咬人，我认识的人里面，至少有五个人被咬了。
但是这个状况依旧没有改善。

如果是其他店，有一个咬人的小狗，我肯定不会去的。

由于这个小狗你不接近它，它就不会咬你。
而且这家店离我住的地方比较近，比较方便，所以我还会去。

现在我的策略是：一律远离外面在咆哮的小狗，不主动摸外面的小狗。
所以对于小狗相关的诉求，也都会拒绝掉。

十、最后

生活是很漫长的一件事。

一年有 365 天，假设可以活到 80 岁，一辈子就是 2万9千2百天。
每天有 8万6千4百秒。
一辈子用秒表示就是 25亿秒。

这么长的时间，我们经过无数地方。
一个地方可能出现的概率不断多小，出现的次数多了，发生的可能性也许只是时间问题了。

所以我们要重视墨菲定律，对生活存在敬畏。
出发之前评估好风险，出发之后万倍小心。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

明明加了索引，为啥mysql这么慢？

2024-09-13T12:13:00+08:00

零、背景

前段时间给团队小伙伴布置了一个项目，其中涉及一个功能：从 DB 中统计最近 N 天满足筛选条件的数据。

小伙伴做完之后就上线了，与合作方调试时，发现统计逻辑直接超时了，找我寻求帮助。

一、问题解决

问 SQL 怎么写的？回答如下：

select count(*) from t where a >= v0 and b = 'v1' and c = 'v2';

由于之前我知道小伙伴加了索引，显然，索引加的有问题。
我说索引加错了。

小伙伴反问，我不是加索引了吗？
但不知道为什么还是很慢，超过 5 秒没跑出来，触发超时了。
索引如下：

index (a, b, c)

由于这个项目这周就需要交付，时间紧迫，我只好先直接告诉小伙伴原因了。

我说：将 a 放在索引最后试试。
如下：

index (b, c, a)

小伙伴试了试，速度飞快，由原先的 5秒超时，变成 0.0005 秒，即 5 毫秒返回了。

二、索引原理

首先需要理解索引的本质是什么。

是的，甚至不需要理解 B+ 树，只需要理解二叉树就可以理解索引了。

假设有下面几条数据。

id=1 b=1 c=1
id=2 b=2 c=2
id=3 b=2 c=1
id=4 b=1 c=2

例如加一个单字段索引 index (b)。

我们查找时，该如何才能快速找到满足条件的数据呢？
显然，需要所有数据基于字段 b 排序，这样就可以基于 b 字段来二分查找了。

字段 b 排序后，数据如下：

id=1 b=1 c=1
id=4 b=1 c=2
id=2 b=2 c=2
id=3 b=2 c=1

索引需要将数据单独复制一份出来储存，为了节省内存，一般只储存索引字段与主键字段，如下

id=1 b=1
id=4 b=1
id=2 b=2
id=3 b=2

这时候，我们使用 b 来查询，可以在 log(n)的复杂度内搜索到满足要求的第一个位置。
随后，只需要顺序扫描，就可以将所有满足要求的数据扫描出来了。

那如果要给两个字段加索引呢，例如 index(b,c)
其实就是我们学的多重排序，先保证第一列 b 有序，之后，第二列在 b 相等时内部再次排序。

id=1 b=1 c=1
id=4 b=1 c=2
id=3 b=2 c=1
id=2 b=2 c=2

此时，如果我们使用 b=1 and c=2 来查询，速度依旧是 log(n)的复杂度。

我们想要搜索 b=1 and c>1 的结果，会发现也可以很快的搜索出结果。
因为可以先二分找到满足 b=1的边界范围，此时，这个范围内的字段 c 依旧是有序的。
因此，可以在 b=1的区间内再次二分找到c>1的边界范围。

反过来，如果我们要搜索 b>=1 and c=1 的结果会怎么样呢？
首先可以二分找到 b>=1 的边界范围，之后发现满足 b>=1 的数据里面， c 字段是没有顺序的。

所以此时，字段 c 就无法走索引了。

三、问题分析

问题修复前索引是 index(a,b,c)。

SQL 里字段 a 是大于条件，所以根据上面的原理，字段 b 和字段c是无法走索引的。
字段a 是日期，每天有上万条数据，几十天就是几百万数据，搜索就超时了。

问题修复后索引是 index(b,c,a)。

字段 b 和字段c可以精确匹配走索引，找到所有满足条件的数据。
字段 a 也可以再次走索引，因为可以毫秒级查到结果。

为啥小伙伴自测时没这个问题？

小伙伴自测试也是加了索引 index(a,b,c)，也是很慢。
小伙伴没找到原因后，就各种加其他索引尝试解决，当加上索引 index(b,c) 时速度明细快多了。

我帮小伙伴看另一个问题时，看到了这两个索引。
就说两个索引可以合并的，把字段 a 放到索引最后就行了。

小伙伴回答：理解了，我这就合并下。
没想到，小伙伴的合并就是把index(b,c)索引直接删除。
我说的后半句话小伙伴直接忽视了。

四、最后

回顾这个问题，根本原因还是小伙伴不理解 mysql 多列索引的工作原理。

多列索引的原因简单理解就是，前面的索引可以匹配一个数据区间，这个区间内下个索引字段恰好都是有序的，从而可以再次快速搜索。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

看电影《逆行人生》

2024-09-10T19:13:00+08:00

零、背景

2024年暑假档，看的第一部电影是《默杀》,第二部电影是家庭教育题材的《抓娃娃》，第三部电影是职场与家庭题材的《逆行人生》。

看之前，就了解到这部电影的口碑不好，大家都说：穷人掏钱看一群富人演穷人。

看之后，我却有不同的看法，赶紧这部电影还不错。

一、剧情

剧情故事比较简单，没有任何暗线。

电影的前5分钟，就把徐峥一家以及职场现状介绍的清清楚楚。

家庭方面，徐峥的老婆是全职太太，父亲开了一个小超市，徐峥是一个开发骨干，得了糖尿病需要打胰岛素。
职场方面，当前大环境不好正在裁员，而徐峥自信满满的说自己是核心主干，不可能裁自己。

职场危机：徐峥挤着地铁掐点打卡上班，刚在美团上点了一杯咖啡，就被约谈被裁了。
可悲的是，HR 系统就是徐峥团队以前开发的，根据算法，对公司来说裁徐峥的性价比最高。

正常情况下，裁员是要赔偿 2N 的，可实际情况是国内只会给 N 或者 N+1。
想要那 2N 只能走劳动仲裁，这个没有2年走不下来，时间成本非常高。

被裁后，徐峥没有马上和家人说这个事情。
而是赶紧去找工作，但是找了两个月，因为年龄歧视，始终无法找到工作。

期间，徐峥的爸爸意外知道徐峥被裁员了，非常生气。
随后徐峥的爸爸为了节省 24 块钱，累倒并中风了，手术费需要 24 万。
徐峥只要接受公司 N 月的赔偿，用于支付医药费。

此时，徐峥的妻子也了解到徐峥被裁员了。
徐峥的妻子马上开始梳理家庭财产。
原来家庭的财产都买 P2P 并在去年暴雷了，借的钱上个月才刚好还完，现金只剩 3万2。
而家庭消费还很高：高额的房贷、女儿的高端国际学校、父亲的康复费用，每月需要至少收入 1万5 才能维持支出平衡。

徐峥意外听到一个直播小哥说外卖的单王一月可以赚1万多，便打算加入外卖大军。

第一个月：放不下面子，还脾气暴躁的客户吵架，收到很多差评。
第二个月：接到公司的订单，低血糖晕倒后笑脸计划认证不通过，封号三天。

第三个月：徐峥与人处事突然变得圆滑了，认真送外面了。
先无私的给周围所有人帮助，所有人也回馈指导徐峥如何更高效的送外卖。

总结一下如下：

登记：提高自己的登记，避免垃圾单。
出餐：要出餐快要和餐店老板关系弄好，如帮忙收拾桌子。
路上：需要根据自己的经验制定最优路线，前提是需要先熟悉每个街道、小区、写字楼、商场等。
门神：要与商场保安、小区保安、宿舍保安关系维持好，比如送点烟或礼物。
客户：对客户保持微笑，说点捧人的话。

送外卖期间的小故事。

故事1：公司更卷的孙奋斗被开除了。
徐峥再次遇到公司的外卖订单，发现隔壁小组很卷的孙奋斗组长也被开除了。

故事2：小程序。
徐峥晚上抽空自己做了一个最优外卖路线的小程序，叫做路路通，免费给大家使用。

故事3：老抠出事故。
徐峥帮忙完成订单，老抠要了事故的赔偿没包扎就回家了。
原来老抠有一个白血病的儿子，在凑钱做手术。

故事4：卷王老黑休息一个月。
起因是大家埋怨老黑太卷，平台算法按老黑的指标要求大家，大家比之前更累，却赚得更少了。
老黑破防了，说自己也很累，坚持不下去了，休息一个月。

原来老黑之前把一个订单转单给一个大学生，结果大学生出车祸腿没了，还要赔不少钱。
老黑在帮忙赚钱还钱，随后老黑把自己多年的线路笔记送给了徐峥，让他录入到小程序里。

故事5：徐峥的妻子多处兼职赚钱。

兼职1：私教打鼓
兼职2：直播打鼓
兼职3：美甲，徐峥看到后心情沉重，撞到一个拉瓷器的车，赔了不少钱。

最后，在单王老黑休息这一个月，徐峥在各种意外的情况下，拿到了单王。
老黑休息。
老抠孩子做手术，退出。
其他人路堵了、送错外卖了、楼梯被锁了等等各种原因被徐峥超越了。

拿到单王后，徐峥一家还是卖掉了大房子。

二、寓意

这部电影看完其实蛮感叹的，里面有很多值得我们思考的事情。

关于投资

徐峥所有积蓄都投入了 P2p，导致 P2p 暴雷时，家里没有任何备用金。

面对家庭财产，至少需要留至少半年的生活支出，用于备用。
投资的财产，也要分散投资，避免暴雷时全部亏掉。

关于职场

每个人都要知道，地球离开任何一个人都依旧回转。
公司也一样，裁掉任何一个人，公司大部分情况下都可以运转下去。
毕竟大部分系统只要不动，一般就不会出问题。

关于家庭消费

家庭收入要能够覆盖家庭消费。
如果家庭收入突然减少，要即使降低家庭消费，避免入不敷出，从而导致生活不下去。

电影里，徐峥一家都有这个问题。

徐峥，工作丢了两个月，一直不在家庭公开，导致家里还在持续高消费。
徐峥的爸爸，面对徐峥工作丢了的问题，第一时间竟然是愤怒，埋怨没工作怎么养家。
徐峥的爸爸，年纪这么大量了，为了省钱干重活，结果得病要花更多的钱。
徐峥的妻子，房贷这么高，不愿意降级换个小房子。
徐峥的家庭，在没有收入的情况下，还要女儿读国家学校。

当然，他们有这个心理其实也是合理的。
接受消费降级需要一个过程。

如果徐峥在第一个月找到平替的工作，其他人什么都不知道，就可以继续往日的高消费了。

由于过惯了高收入的生活，对生活的标准要求也会很高，底线也会很高。
因此大家一开始都想尝试一下，看是否可以找到平替的方法，从而不需要改变以前的东西。

随着艰苦生活的持续，大家慢慢接受新的现状，底线也在慢慢与新的收入水平对齐。

就像以前你家加时暴发户，每天吃山珍海味。
后面家里破产了，你的饮食要求一开始肯定也是很高的。
但是面对家里的收入，你对饮食的要求也会慢慢降低，直到最后与你的收入水平一致。

所以，最后，徐峥的妻子愿意换小房子了。
徐峥的爸爸接受同济大学的高材生去送外卖了。
徐峥自己，从不愿放下尊严，到后来不怕丢人勇敢去送外卖。
徐峥的家庭，一开始想送女儿去国际学校，到后来接受普通学校。

这些，都是随着收入的降低，最终预期必然也会慢慢与收入对齐。

关于生活不易

大家都懂，生活本来就不容易。

每个人都有自己的故事，每个人都有自己的难处，但是每个人依旧需要负重前行，否则生活就会进行不下去。

我们大家都很努力。

所有人都是为了生活在奋斗，为了家人在拼搏，为了明天再奔跑。

我们都足够努力了。

所以我们值得被尊重与更好的生活。

三、最后

有人吐槽电影有很大的问题，徐峥一家竟然拿把所有钱投入P2p。
有人吐槽电影有很大的问题，徐峥没工作了，竟然还要维持那么高的支出。
有人吐槽电影有很大的问题，徐峥一家被裁了，剩余的钱竟然只能维持几个月。 ‘ 有人吐槽电影有很大的问题，徐峥的爸爸面对儿子被裁，竟然在生气。
有人吐槽电影有很大的问题，外卖员之间根本没有打交道的。
有人吐槽电影有很大的问题，徐峥送外卖几个月竟然可以拿单王。

对于这些吐槽，其实不是电影的问题，是看电影这些人的逻辑有问题。

人们抱怨的那些，都是电影里需要的。
电影的一开始，主角必然需要有各种问题。
随着故事的进行，主角慢慢的改变。
最后，主角全部纠正那些问题。

另外，这个电影把大家都知道的道理，再次告诉了大家，毕竟很多人道理都懂，但是都没有做。

理财需要分散投资，不要借钱理财。

大环境不好，随时会被裁员，随时做好 Plan B。

需要预留一些备用金，用于随时应急。

遇到问题，及时告诉家里人，一起想办法。

家庭遇到资金问题，要马上梳理家庭收入与开销，降低日常开销。

以前你认为的很多底线，可能并不是底线。
如大房子不是底线，你还的起月供才行，换不起就不是你的房子。
如学历与工作，大公司要你才行，大公司不要你，那只能去小公司或者做体力活。

生活本来就不容易，大家都不容易，面对他人的错误，要有包容心。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

持续 4 年 strnstr 函数 BUG，

2024-09-08T12:13:00+08:00

零、背景

4年前，隔壁团队遇到过一个 coredump 问题。
一番分析，发现是一个 http 公共库自己实现了 strnstr 函数，实现的有问题导致 coredump。
我一直以为这个公共库修复了这个问题。

2024年4月份的时候，团队的服务再次遇到 coredump，一番分析，又是 coredump 在那个公共库的 strnstr 函数上。
查看公共库的代码合并记录，最后一次合并就是修复 strnstr 函数的 coredump。

再看下版本，果然没有使用最新版本。
于是大家意味这次升级就可以解决这个问题了。

2024年9月份，也就是这几天，团队又遇到 coredump 了，而且还是出在 http 库的 strnstr 函数上。

相同的问题一而再、再而三的出现，我只好介入，去看看到底是什么问题，为啥没有修复问题。

一、现象

首先是登录机器，GDB 到 core 文件上，看下堆栈，如下。

可以清楚的看到，文件为 tc_http.cpp，函数 strnstr 的第 38 行，这一行调用了 strlen 函数，然后 coredump 了。

二、分析

这一行为啥会 coredump 呢？

gdb 到对应的堆栈，p 打印对应的参数即可。

当然，默认 p 打印的字符串与堆栈中的一样。
所以我们需要调大默认打印的 buf。

使用 set print elements 0 即可设置为不限制 buf 长度。

如上图，打印时报报 Cannot access memory 错误。
显然，是由于没限制访问字符串的长度，又一直没遇到 \0 结束符，最后遇到内存不可读错误了。

这个函数的名字是 strnstr，含义是查找指定长度字符串的子串位置。
既然指定长度了，那入参自然就不保证以 \0 字符结束了。

PS：对于网络库中的字符串，一般都没有 \0 结束符。

那先看下输入的长度是多少，限制下打印长度，再试试，果然没有报错了。

至此，问题就很清楚了。

strnstr 函数中的 n 就是用来限制输入字符串的长度的，用来保护避免越界的。
但是 http 库中的 strnstr 直接对输入字符串来了一个 strlen，自然就越界了。

三、修复

针对 strnstr 函数，第一感觉是：这个常用的功能，难道库函数没有实现，还自己去实现？

网上一搜，第一个是 CSDN 的 strnstr 实现，第二个是 man 手册。

先看第二个 man 手册，原来这个函数确实大部分库没有，只有 FreeBSD 系统才有。

Since the strnstr() function is a FreeBSD specific API,it should only be used when portability is not a concern.
The strnstr() function was introduced by FreeBSD 4.5 and is non-standard.

再看第一个 CSDN ，我震惊了，公共库的代码竟然和这个完全一样。
也就是 CSDN 最火的 strnstr 函数文章，代码是有 BUG 的，而公共库直接使用了这个代码。

再往下翻，其实可以找到苹果开源 libc 库中的 strnstr 源码，其实也是 FreeBSD 的官方实现。

https://opensource.apple.com/source/Libc/Libc-1158.30.7/string/FreeBSD/strnstr.c.auto.html

所以我们只需要把这个函数换成 FreeBSD libc 中的源码即可。

四、最后

strnstr 的这个 BUG，其实不难发现， gdb p 一下就找到原因了，但不知什么原因，大家一直没去修复。

后来我想了想，应该是由于和公共库有关。

问题出现在其他人的公共库里面，使用者第一时间肯定是反馈给公共库的 Owner，然后只需要过一段时间偶尔问一下公共库的 Ower 这个问题是否已修复。

这个是公共库，实际上是没有 Owner 的，即大家共建维护这个公共库，或者只有一个临时 Owner。
临时 Owner 都在忙自己的 OKR，这个事情的优先级自然就是极低的。

第二个原因是这个库 coredump 的概率极低。

面对一个问题，尤其是责任归属不明确时，一般是谁痛谁来解决问题。
而这个问题出现的概率极低，半年才遇到一次，所以使用者也不愿意投入时间去分析定位了。

一开始的时候提到有人修复过一次，但是修复时应该没找到原因，只是加了一个入参的非空判断，所以并没有真正解决这个问题。

这就导致一个简单的 BUG，无数个服务都在偶尔遇到，但是持续了 4 年时间，这周才找到原因。
这周我们团队就去提交一个 PR，去修复这个问题吧。

《完》

-EOF-

本文公众号：天空的代码世界
个人微信号：tiankonguse
公众号ID：tiankonguse-code

tiankonguse blog

leetcode 第 423 场算法比赛（数位DP）

零、背景

一、检测相邻递增子数组 I

二、检测相邻递增子数组 II

三、好子序列的元素之和

四、统计小于 N 的 K 可约简整数

五、最后

leetcode 第 422 场算法比赛（差分DP）

零、背景

一、检查平衡字符串

二、到达最后一个房间的最少时间 I

三、到达最后一个房间的最少时间 II

四、统计平衡排列的数目

五、最后

2024年打疫苗记录

leetcode 第 421 场算法比赛

零、背景

一、数组的最大因子得分

二、字符串转换后的长度 I

三、最大公约数相等的子序列数量

四、字符串转换后的长度 II

五、最后

leetcode 第 420 场算法比赛

零、背景

一、出现在屏幕上的字符串序列

二、字符至少出现 K 次的子字符串 I

三、使数组非递减的最少除法操作次数

四、判断 DFS 字符串是否是回文串

五、最后

leetcode 第 419 场算法比赛

零、背景

一、计算子数组的 x-sum I

二、第 K 大的完美二叉子树的大小

三、统计能获胜的出招序列数

四、计算子数组的 x-sum II

五、最后

leetcode 第 418 场算法比赛

零、背景

一、连接二进制表示可形成的最大数值

二、移除可疑的方法

三、构造符合图结构的二维矩阵

四、查询排序后的最大公约数

五、最后

2024年牛市之前，投资收益记录

一、背景

二、基金

三、转债

四、股票

五、最后

CSP-J 2023 解题报告

零、背景

一、小苹果（apple）

二、公路（road）

三、一元二次方程（uqe）

四、旅游巴士（bus）

五、最后

协议该为批量模式，性能提升 3 倍

零、背景

一、协议设计

二、问题

三、优化

四、最后

leetcode 第 417 场算法比赛

零、背景

一、找出第 K 个字符 I

二、元音辅音字符串计数 I

三、元音辅音字符串计数 II

四、找出第 K 个字符 I

五、最后

减少磁盘IO，减少数据COPY，性能提升5倍

零、背景

一、 文件协议

二、coredump 位置

三、架构分析

四、架构问题

五、优化

六、性能数据

七、最后

2024年第二次感冒

一、文件协议