【腾讯转化率预估】贝叶斯平滑

发表于 2018-03-07

字数统计: 1,987 | 阅读时长 ≈ 7

1. 概述电商领域中经常需要计算或预测一些转化率指标，如最典型的CTR（点击率，Click-Through Rate），这些转化率可以是模型的预测值，也可以作为模型的特征（feature）使用。我们在比赛中就以转化率作为特征来使用。以商品点击率预测为例，CTR的值等于点击量（Click）除以曝光量（Impression或Exposure）。以r表示点击率， r = C/I但在实际应用过程中会碰到两个问题：新商品点击率的预测与计算对于新上线的商品，其曝光为0，点击量也为0，此时这件商品的CTR应该设为0还是赋一个初始值？不同商品点击率之间的比较有两件商品A和B，其点击率分别为r ...

阅读全文 »

【腾讯转化率预估】总结

发表于 2018-03-06

字数统计: 6,808 | 阅读时长 ≈ 24

第一届腾讯社交广告算法大赛复赛成绩0.101941，排名26名，在此总结一下。 1. 题目简介1.1 移动App广告转化率预估详细赛题见官方网站计算广告是互联网最重要的商业模式之一，广告投放效果通常通过曝光、点击和转化各环节来衡量，大多数广告系统受广告效果数据回流的限制只能通过曝光或点击作为投放效果的衡量标准开展优化。腾讯社交广告(http://ads.tencent.com)发挥特有的用户识别和转化跟踪数据能力，帮助广告主跟踪广告投放后的转化效果，基于广告转化数据训练转化率预估模型(pCVR，Predicted Conversion Rate)，在广告排序中引入pCVR因子优化广告投放 ...

阅读全文 »

【九章系统设计】一致性哈希&短网址系统设计

发表于 2018-03-05 | 分类于系统设计

字数统计: 4,136 | 阅读时长 ≈ 15

outline consistent hashing 一致性哈性复习：数据量过大，需要将数据拆分，有两种拆分方式：纵向：不同表存在不同机器，按常用字段和不常用字段将表拆分存在不同机器横向：将数据横向切分，存在不同的机器上为什么要做一致性hash？一种简单的hash算法：将数据存在第%n个机器上当增加一台机器时（n -> n+1），需要迁移的数据量非常大因此这个hash算法称为不一致hash 一个简单的一致性hash算法：将key模一个很大的数，比如360 将360分配给n台机器，每个机器负责一段区间区间分配信息记录在一张表上，存在web server上新加 ...

阅读全文 »

【九章算法强化班】follow up

发表于 2018-02-26 | 分类于算法，九章算法

字数统计: 3,265 | 阅读时长 ≈ 17

outline 例题1.Find Peak Element A peak element is an element that is greater than its neighbors. Given an input array where num[i] ≠ num[i+1], find a peak element and return its index. The array may contain multiple peaks, in that case return the index to any one of the peaks is fine. You may imagine ...

阅读全文 »

【leetcode】线段树

发表于 2018-02-08

字数统计: 1,228 | 阅读时长 ≈ 5

1. 线段树入门本文主要参考自jiayi797的专栏、 JustDoIT 和线段树知识点总结线段树，类似区间树，它在各个节点保存一条线段（数组中的一段子数组），主要用于高效解决连续区间的动态查询问题，由于二叉结构的特性，它基本能保持每个操作的复杂度为O(logn)。线段树的每个节点表示一个区间，子节点则分别表示父节点的左右半区间，例如父亲的区间是[a,b]，那么(c=(a+b)/2)左儿子的区间是[a,c]，右儿子的区间是[c+1,b]。线段树形如：下面我们从一个经典的例子来了解线段树，问题描述如下:从数组arr[0…n-1]中查找某个数组某个区间内的最大值，其中数组大小固定，但是 ...

阅读全文 »

计数排序、基数排序、桶排序

发表于 2018-02-08 | 分类于排序算法

字数统计: 1,531 | 阅读时长 ≈ 6

非比较排序插入排序、归并排序、堆排序、快速排序这四种排序算法，他们的运行时间上界不会超过O(nlgn)。这些算法都有一个有趣的性质：在排序的最终结果中，各元素的次序依赖于它们之间的比较。我们把这类排序算法称为比较排序。可以证明，基于比较的排序算法在最坏情况下的时间下界是Ω(nlgn)。堆排序和归并排序的运行时间上界为O(nlgn)，因此这两种排序算法都是渐进最优的比较排序算法。而非基于比较的排序，如计数排序，桶排序，和在此基础上的基数排序，则可以突破O(NlogN)时间下限，达到线性时间复杂度O(n)。但要注意的是，非基于比较的排序算法的使用都是有条件限制的，例如元素的大小限制，相反，基于 ...

阅读全文 »

未命名

发表于 2018-02-08

字数统计: 1,632 | 阅读时长 ≈ 8

title: 【leetcode】sortdate: 2018-02-08 13:38:35tags: categories: leetcode 排序相关问题 Largest Number题目 Given a list of non negative integers, arrange them such that they form the largest number. For example, given [3, 30, 34, 5, 9], the largest formed number is 9534330. Note: The result may be very larg ...

阅读全文 »

【九章算法强化班】两指针

发表于 2018-02-02

字数统计: 3,769 | 阅读时长 ≈ 18

outline 一个数组，从两边往中间移动（对撞型）一个数组，同时向前移动（前向型）两个数组两根指针（并行型） 1.对撞型或相会型 leetcode 11.Container With Most Water题目 Given n non-negative integers a1, a2, …, an, where each represents a point at coordinate (i, ai). n vertical lines are drawn such that the two endpoints of line i is at (i, ai) and (i, 0). F ...

阅读全文 »

堆排序

发表于 2018-01-31

字数统计: 0 | 阅读时长 ≈ 1

阅读全文 »

【九章系统设计】从用户系统理解数据库和缓存

发表于 2018-01-30 | 分类于系统设计

字数统计: 3,232 | 阅读时长 ≈ 12

outline Design User System用户系统 Mencached 优化数据库查询软件 Authentication 用户验证 SQL VS NoSQL 如何选取数据库 Friendship 存储好友关系（不用graph DB用什么） How to Scale? Sharding Consistent Hashing(第5节) Replica(第5节) 4S分析法 Scenario场景注册、登录、查询、用户修改信息哪个需求量最大？查询最大，因为用户登录时给他展示的各种信息邓邓就是通过查询出来的结果支持100M DAU(每日登录用户数) 注册，登录，信息修改Q ...

阅读全文 »

Siyao

siyao小朋友画圈圈的地方