读论文。
1.PVLDB:memformer
idea:分块循环图学习,全局attention,交替记忆增强器
knowledge:
- 正则化:防止过拟合! 显式正则化/隐式正则化,机器学习基础内容,回顾一下。
显:
- L1(lasso)正则化:向损失函数添加权重绝对值之和作为惩罚,迫使部分权重趋近于0。
- L2(ridge)正则化:向损失函数添加权重平方之和作为惩罚,限制权重幅度使其平滑。
- Dropout:训练时,关闭部分神经元(概率p),迫使网络学习冗余表示。测试时激活所有,权重乘(1-p)保持期望值。
- 弹性网络:L1L2搞在一起。
隐: - 数据增强:训练数据加噪/旋转,增加数据多样性。
- 早停:验证集性能不再提升时终止训练,防止过拟合。
- 批量归一化:每层输入标准化,缓解内部协变量偏移。
- 子序列建模:
- 通道独立/线性模型:每个变量单独并行处理,隐式参数共享/处理后数据整合。
- transformer类:注意力机制,异常值敏感。
- 交替记忆增强
- 局部增强器:局部动态特征,细粒度关联建模。
- 全局增强器:全局模式,增强抗干扰。
- 交替训练机制。
2.OSDI 2020:learned index 4 lsm
idea:LSM树结合学习索引,贪婪线性回归学习。
knowledge
- 学习索引
- 基于ml.
- 查询一个key时,系统使用该索引/该函数预测出查询key对应位置。
- 不直接构建数据结构节省空间,提升查找性能节省时间。
- 现有大多数在B树,所以用在lsm树上。
- 理论“矛盾”
- 学习索引主要针对only-read,lsm针对write.
- 然而insight在于,虽然write改变了LSM,但树大多数部分不可变。——> 学习一个预测KV位置的值的函数只需要完成一次,只要不可变的数据还在就能使用它。
- guideline after Wisckey
- 学习LSM中,稳定的低级别有效;查找先搜索更高级别,学习更高级别也有好处。
- 所有文件不平等对待:避免学习那些在低级别中也很短暂的文件
- workload和数据感知:了解树的某些部分比其他部分更有益。
3.SIGMOD 2024:temporal json keyword search
idea:时态数据模型,搜索分类,时变SLCA,
knowledge
- 时态数据库
- 相对于传统数据库(被称为快照数据库,只存放当前状态),包含时态信息——时间区间/相对时间/时刻。
- 两个问题:事件历史性问题,元事件时态信息。
- 分类:快照。回滚——事务周期。历史——被管理对象的生命周期称为有效时间。双时态——既能管理对象历史,又能管理数据库本身历史,四维<元组,属性,事务时间,有效时间>。
- PBN杜威顺序
- 分层数据实例节点编号方案,基于前缀。
- $p.k$,p(前缀)是父节点编号,k表示他是文档中第k个兄弟节点。
- SLCA和LCA
- LCA:最低公共祖先。所有公共祖先最深的。
- SLCA:在属性结构中查找满足特定条件的最小公共祖先节点计算方法。所有符合条件的LCA中,包含最小子树。
- SLCA计算方法:基于区间编码,动态规划,dfs+栈。
4.SIGMOD 2024:AdapTraj 多智能体轨迹预测
idea:现有方法在多智能体轨迹预测中泛化能力差。——>adapTraj,提取focal和neighbor智能体的域不变特征和域特定特征。——>新的因果建模预测方法
knowledge:
- 域domain,理解为区域
- 域不变特征:不同领域数据稳定,跨领域共和国想因果关系。
- 域特定特征:只在特定领域内存在的特征。
- 负迁移(迁移学习中)
- 原领域(src)的知识迁移到目标领域(tar),模型在目标领域性能下降。
- 因果预测
- 区分因果效应和统计相关性。
- DAG图表示因果关系。
- robust和explaining