Siyao's Blog


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 搜索

【本站目录】

发表于 2018-03-08
字数统计: 933 | 阅读时长 ≈ 3

文章渐渐多了起来,为了方面复习和查找,对本站文章做个目录~

1. 算法与数据结构

1.1 排序算法

  • 计数排序、基数排序、桶排序,三种非比较排序,理想情况下时间复杂度可以降到
  • 归并排序
  • 选择排序
  • 冒泡排序
  • 快速排序
  • 堆排序
  • 希尔排序
  • 排序算法终极大总结

1.3 数与数组

  • 【九章算法基础班】二分法
  • 【九章算法基础班】数与数组
  • 【九章算法强化班】两指针 包含partition、quickSelect
  • 【九章算法强化班】课程笔记2——扫描线

1.2 动态规划

  • 【九章算法基础班】动态规划动态规划四要素,两类常见的动态规划:坐标型动态规划、序列型动态规划
  • 【九章算法强化班】动态规划包括DP的滚动数组优化、记忆化搜索、博弈类DP、区间型DP、背包DP
  • 【算法导论】动态规划(一)钢条切割
  • 【算法导论】动态规划(二)矩阵链乘法

1.3 链表

  • 【九章算法基础班】课程笔记——链表

1.4 树模块

  • 【九章算法基础班】二叉树与分治法
  • 【leetcode】线段树
  • 【九章算法强化班】课程笔记2——Trie树
  • B树、B+树、AVL树、Trie树及其应用场景
  • ​

1.5 图模块

  • 【九章算法基础班】图与搜索主要是BFS、DFS
  • 回溯法、【leetcode】51.52 N-Queens
  • 【九章算法强化班】课程笔记2——并查集

1.6 hash表、堆、栈、队列、Trie树、并查集

  • 【九章算法基础班】数据结构主要是hash表、堆、栈
  • 【九章算法强化班】堆Heap&双端队列Dequeue 堆&双端队列Deque
  • 【九章算法强化班】第k大
  • ​

2. 系统设计

  • 【九章系统设计】新鲜事系统
  • 【九章系统设计】从用户系统理解数据库和缓存
  • 【九章系统设计】一致性哈希&短网址系统设计
  • 【九章系统设计】爬虫系统与搜索建议系统

3. 机器学习

3.1 线性模型

  • 【机器学习】LR
  • 【机器学习】svm
  • 【机器学习】PLA 线性感知机

3.2 树模型

  • 决策树(一):基础
  • 决策树(二):连续值和缺失处理
  • 决策树(三):多变量决策树
  • gbdt
  • RF
  • 【机器学习】gbdt/xgboost/lightGBM比较

3.3 评价指标等

  • 准确率、召回率、F1、ROC、AUC
  • 交叉熵
  • 过拟合、欠拟合及其解决办法
  • 生成模型vs判别模型、有监督vs无监督

3.4 其他算法

  • PCA 主成分分析
  • SVD 奇异值分解
  • ​

4. 项目&竞赛总结

4.1 腾讯社交广告算法大赛

  • 【腾讯转化率预估】总结
  • 【腾讯转化率预估】贝叶斯平滑
  • 【机器学习】gbdt/xgboost/lightGBM比较
  • Factorization Machine(FM,因子分解机)
  • FFM(field-aware Factorization Machine)——升级版FM​
  • 机器学习实践-不平衡类的处理
  • 机器学习框架-xgboost参数调节指南(Python版

4.2 编程之美

  • 【2017编程之美】搜索引擎总结
  • ​

4.3 实习

  • item-based 协同过滤

5. 语言相关

  • Java常用笔记 写代码的时候总忘记的小东西
  • 理解Java垃圾回收机制
  • 【Java】HashMap原理探究

6. 面试必备

  • 【面经】开发相关基础知识
  • 【面经】算法相关

7. 计算广告相关

6.1 系统相关

  • 【DSP系统】Java UDP通信模拟监听模块
  • DSP系统mysql数据库搭建

6.2 论文相关

  • DeepFM论文笔记
  • WAND检索算法
  • Bid Optimizing and Inventory Scoring in Targeted Online论文笔记
  • ptimal Real-Time Bidding for Display Advertising论文笔记
  • 搜索引擎Top-k快速检索问题
  • RTB论文笔记
  • DSP国内硕士论文总结
阅读全文 »

【机器学习】朴素贝叶斯

发表于 2018-03-19
字数统计: 0 | 阅读时长 ≈ 1
阅读全文 »

【机器学习】k近邻

发表于 2018-03-19
字数统计: 0 | 阅读时长 ≈ 1
阅读全文 »

【机器学习】CART算法、决策树总结

发表于 2018-03-19
字数统计: 1,043 | 阅读时长 ≈ 4
决策树学习的本质是从训练数据集中归纳出一组分类规则,从另一个角度看,决策树学习是由训练数据集估计条件概率模型,我们选择的模型应该不仅对训练数据拟合的好,还应具有很好的泛化能力。 决策树学习的三个步骤: 特征选择 决策树的生成 决策树的剪枝 特征选择​ 特征选择在于选取对训练数据具有分类能力的特征,如果一个特征的分类效果不优于随机分类,那么这个这个特征是没有分类能力的,应当放弃。特征选择决定用哪个特征来划分空间,特征选择的准则通常是信息增益 、信息增益比 、基尼指数。 使用信息增益计算 特征A对训练数据集D的信息增益g(D,A) ,定义为集合D的经验熵H(D)与特征更A给定条件下D的经 ...
阅读全文 »

【机器学习】感知机

发表于 2018-03-15
字数统计: 1,322 | 阅读时长 ≈ 5
感知机(perceptron)是二分类的线性分类模型,属于监督学习算法。输入为实例的特征向量,输出为实例的类别(取+1和-1)。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面,为求得超平面导入了基于误分类的损失函数,利用梯度下降法 对损失函数进行最优化(最优化)。感知机的学习算法具有简单而易于实现的优点,分为原始形式和对偶形式。感知机预测是用学习得到的感知机模型对新的实例进行预测的,因此属于判别模型。感知机由Rosenblatt于1957年提出的,是神经网络和支持向量机的基础。 定义假设输入空间(特征向量)为X⊆Rn,输出空间为Y={-1, +1}。输入x∈X表示实 ...
阅读全文 »

【机器学习】gbdt/xgboost/lightGBM比较

发表于 2018-03-12
字数统计: 3,579 | 阅读时长 ≈ 12
1. 概述RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。  根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者的代表是Bagging和“随机森林”(Random Forest)。 2. 随机森林RF提到随机森林,就不得不提Bagging,Bagging可以简单的理解为:放回抽样,多数表决(分类)或简单平均(回归),同 ...
阅读全文 »

【腾讯转化率预估】SVD分解提取用户-APP特征

发表于 2018-03-12
字数统计: 136 | 阅读时长 ≈ 1
用SVD可以很容易得到任意矩阵的满秩分解,用满秩分解可以对数据做压缩。可以用SVD来证明对任意M*N的矩阵均存在如下分解: 这个可以应用在数据降维压缩上!在数据相关性特别大的情况下存储X和Y矩阵比存储A矩阵占用空间更小!其中k为矩阵A的秩的个数。 在推荐系统中,我们通常可以根据历史数据,得到用户和商品打分矩阵:
阅读全文 »

【面经】海量数据处理相关

发表于 2018-03-12
字数统计: 1,524 | 阅读时长 ≈ 5
第一部分 分而治之/Hash映射 + Hash_map统计 + 堆/快速/归并排序1. 海量数据选取TOPKbaseline: 用堆,如果取最大的K个,就用最小堆,遍历数组,遇到比堆顶元素大的元素就入堆,同时堆中元素超过k个需要poll操作,保证堆中只有K个元素,最终的topk元素在堆中。 时间复杂度分析: O(n*logk)$$ ,元素入堆复杂度$$O(logk)O(n)算法: 先用quick select方法找到第K大的元素,复杂度O(n) 然后再遍历一遍,将大于K的元素取出,复杂度O(n) 总复杂度O(n) !!!!!卧槽!神奇!!!! 2. 海量数据选取第K大Quick Select, ...
阅读全文 »

【Java】HashMap原理探究

发表于 2018-03-11
字数统计: 6,482 | 阅读时长 ≈ 26
1. HashMap概述HashMap是基于哈希表的Map接口的非同步实现。此实现提供所有可选的映射操作,并允许使用null值和null键。此类不保证映射的顺序,特别是不保证该顺序恒久不变。 此实现假定哈希函数将元素适当地分布在各桶之间,可为基本操作(get和put)提供稳定的性能。 迭代colletction视图所需要的时间与HashMap实例的“容量”(桶的数量)及其大小(键-值映射关系数)成比例。所以如果迭代性能很重要,则不能将初始容量设置得太高,或者将加载因子设置的太低。 需要注意的是,HashMap是不同步的。如果多个线程同时访问一个HashMap,若其中某个线程修改了HashMap ...
阅读全文 »

【九章系统设计】爬虫系统与搜索建议系统

发表于 2018-03-10
字数统计: 1,714 | 阅读时长 ≈ 6
1. outline Design a web crawler 爬虫 Design thread-safe producer and consumer 线程安全的生产者-消费者 Design a Typeahead 搜索建议 2. 爬虫2.1 Scenario思考:搜索引擎是如爬取网页的?我们需要获取什么样的表格? URL-网页内容 爬到了这些数据怎么用呢? 用户搜索关键词,google去数据表中的网页内容字段寻找包含用户query的数据,返回对应的url给用户,之后进行排序等优化操作。 那么想要用程序完成爬取互联网上所有网页及其内容这个目标,我们首先要知道一个事实,也就是互联网上 ...
阅读全文 »
12…12
Siyao

Siyao

siyao小朋友画圈圈的地方

120 日志
25 分类
32 标签
© 2017 — 2018 Siyao
由 Hexo 强力驱动
|
主题 — NexT.Pisces
| Site words total count: 222.8k
访问人次 次 总访问量 次