GroupBlog

Redis 对象

简介

Redis是一种key/value型数据库.Redis并没有直接使用前面提到的简单动态字符串、双端链表、字典、压缩列表、整数集合.而是基于这些数据结构创建一个对象系统,这个系统包括字符串对象、列表对象、哈希对象、集合对象和有序对象这个五种对象.每种对象都用到了至少一种我们前面所介绍的数据结构.

对象类型

Redis共有五种对象的类型,分别是:

类型常量	对象的名称
REDIS_STRING	字符串对象
REDIS_LIST	列表对象
REDIS_HASH	哈希对象
REDIS_SET	集合对象
REDIS_ZSET	有序集合对象

对象定义

Redis中对象的数据结构定义:

typedef struct redisObject {  

    // 类型  
    unsigned type:4;          

    // 不使用(对齐位)  
    unsigned notused:2;  

    // 编码方式  
    unsigned encoding:4;  

    // LRU 时间（相对于 server.lruclock）  
    unsigned lru:22;  

    // 引用计数  
    int refcount;  

    // 指向对象的值  
    void *ptr;  

} robj;

type表示了该对象的对象类型，即上面五个中的一个。但为了提高存储效率与程序执行效率，每种对象的底层数据结构实现都可能不止一种。encoding就表示了对象底层所使用的编码。下面先介绍每种底层数据结构的实现，再介绍每种对象类型都用了什么底层结构并分析他们之间的关系。

对象底层的数据结构

编码常量	编码锁对应的底层数据结构
REDIS_ENCODING_INT	long类型的整数
REDIS_ENCODING_EMBSTR	embstr编码的简单动态字符串
REDIS_ENCODING_RAW	简单动态字符串
REDIS_ENCODING_HT	字典
REDIS_ENCODING_LINKEDLIST	双端链表
REDIS_ENCODING_ZIPLIST	压缩列表
REDIS_ENCODING_INTSET	整数集合
REDIS_ENCODING_SKIPLIST	跳跃表和字典

字符串对象

字符串对象的编码可以是int、raw或者embstr;
如果一个字符串的内容可以转换为long，那么该字符串就会被转换成为long类型，对象的ptr就会指向该long，并且对象类型也用int类型表示。
普通的字符串有两种，embstr和raw。embstr应该是Redis 3.0新增的数据结构,在2.8中是没有的。如果字符串对象的长度小于39字节，就用embstr对象。否则用传统的raw对象。可以从下面这段代码看出：

#define REDIS_ENCODING_EMBSTR_SIZE_LIMIT 39  
robj *createStringObject(char *ptr, size_t len) {  
    if (len <= REDIS_ENCODING_EMBSTR_SIZE_LIMIT)  
        return createEmbeddedStringObject(ptr,len);  
    else  
        return createRawStringObject(ptr,len);  
}

embstr的好处有如下几点：
embstr的创建只需分配一次内存，而raw为两次（一次为sds分配对象，另一次为objet分配对象，embstr省去了第一次）。
相对地，释放内存的次数也由两次变为一次。
embstr的objet和sds放在一起，更好地利用缓存带来的优势。
需要注意的是，redis并未提供任何修改embstr的方式，即embstr是只读的形式。对embstr的修改实际上是先转换为raw再进行修改。

大家看上面的宏定义:
＃define REDIS_ENCODING_EMBSTR_SIZE_LIMIT 39
为什么是39呢?
知乎上一个人的回答解决了我的疑惑:
点击查看原因
raw和embstr的区别可以用下面两幅图所示:

https://img-blog.csdn.net/20161222132621025?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvd2hvYW1peWFuZw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast” alt=”这里写图片描述” title=”” />t/20161222132351833?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvd2hvYW1peWFuZw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
编码转换:
embstr没有提供修改的程序,当要修改时，先转换为raw,再进行修改.

列表对象

列表对象的编码可以是ziplist或者linkedlist。
ziplist是一种压缩链表，它的好处是更能节省内存空间，因为它所存储的内容都是在连续的内存区域当中的。当列表对象元素不大，每个元素也不大的时候，就采用ziplist存储。但当数据量过大时就ziplist就不是那么好用了。因为为了保证他存储内容在内存中的连续性，插入的复杂度是O(N)，即每次插入都会重新进行realloc。如下图所示，对象结构中ptr所指向的就是一个ziplist。整个ziplist只需要malloc一次，它们在内存中是一块连续的区域。

这里写图片描述
linkedlist是一种双向链表。它的结构比较简单，节点中存放pre和next两个指针，还有节点相关的信息。当每增加一个node的时候，就需要重新malloc一块内存。

这里写图片描述
编码转换
当列表对象可以同时满足以下两个条件时，列表对象使用ziplist编码:
1.列表对象保存的所有字符串元素的长度都小于64个字节.
2.列表对象保存的元素数量小于512个,不能满足这两个条件的列表对象需要使用linkedlist编码.

哈希对象

哈希对象的底层实现可以是ziplist或者hashtable。

ziplist中的哈希对象是按照key1,value1,key2,value2这样的顺序存放来存储的。当对象数目不多且内容不大时，这种方式效率是很高的。
hashtable的是由dict这个结构来实现的:

typedef struct dict {  
    dictType *type;  
    void *privdata;  
    dictht ht[2];  
    long rehashidx; /* rehashing not in progress if rehashidx == -1 */  
    int iterators; /* number of iterators currently running */  
} dict;

dict是一个字典，其中的指针dicht ht[2] 指向了两个哈希表


typedef struct dictht {  
    dictEntry **table;  
    unsigned long size;  
    unsigned long sizemask;  
    unsigned long used;  
} dictht;

dicht[0] 是用于真正存放数据，dicht[1]一般在哈希表元素过多进行rehash的时候用于中转数据。
dictht中的table用语真正存放元素了，每个key/value对用一个dictEntry表示，放在dictEntry数组中。
这里写图片描述
编码转换
当列表对象可以同时满足以下两个条件时，列表对象使用ziplist编码:
1.列表对象保存的所有字符串元素的长度都小于64个字节.
2.列表对象保存的元素数量小于512个,不能满足这两个条件的列表对象需要使用hashtable编码.

集合对象

集合对象的编码可以是intset或者hashtable。
intset是一个整数集合，里面存的为某种同一类型的整数，支持如下三种长度的整数：

#define INTSET_ENC_INT16 (sizeof(int16_t))  
#define INTSET_ENC_INT32 (sizeof(int32_t))  
#define INTSET_ENC_INT64 (sizeof(int64_t))

intset是一个有序集合，查找元素的复杂度为O(logN)，但插入时不一定为O(logN)，因为有可能涉及到升级操作。比如当集合里全是int16_t型的整数，这时要插入一个int32_t，那么为了维持集合中数据类型的一致，那么所有的数据都会被转换成int32_t类型，涉及到内存的重新分配，这时插入的复杂度就为O(N)了。是intset不支持降级操作。如下图:
这里写图片描述
hashtable编码的集合对象使用字典作为底层实现,字典的每个键都是一个字符串对象,每个字符串对象包含一个集合元素,而字典的值则全部设置为NULL。如下图:

编码转换
当集合可以同时满足以下两个条件时,对象使用intset编码
1.集合对象保存的所有元素都是整数值
2.集合对象保存的元素的数量不超过512个.
不满足这两个条件使用hashtable编码.

有序集合对象

有序集合的编码可能两种，一种是ziplist，另一种是skiplist与dict的结合。

ziplist作为集合和作为哈希对象是一样的，member和score顺序存放。按照score从小到大顺序排列。它的结构不再复述。

skiplist是一种跳跃表，它实现了有序集合中的快速查找，在大多数情况下它的速度都可以和平衡树差不多。但它的实现比较简单，可以作为平衡树的替代品。它的结构比较特殊。下面分别是跳跃表skiplist和它内部的节点:

/* 
 * 跳跃表 
 */  
typedef struct zskiplist {  
    // 头节点，尾节点  
    struct zskiplistNode *header, *tail;  
    // 节点数量  
    unsigned long length;  
    // 目前表内节点的最大层数  
    int level;  
} zskiplist;  
/* ZSETs use a specialized version of Skiplists */  
/* 
 * 跳跃表节点 
 */  
typedef struct zskiplistNode {  
    // member 对象  
    robj *obj;  
    // 分值  
    double score;  
    // 后退指针  
    struct zskiplistNode *backward;  
    // 层  
    struct zskiplistLevel {  
        // 前进指针  
        struct zskiplistNode *forward;  
        // 这个层跨越的节点数量  
        unsigned int span;  
    } level[];  
} zskiplistNode;

跳跃表的实现及介绍点击这里　
ziplist编码的有序集合对象使用压缩列表作为底层实现,每个集合元素使用两个紧挨在一起的压缩列表节点保存,第一个节点保存元素的成员,第二个元素则保存元素的分值.如下图:
这里写图片描述
skiplist编码的有序集合对象使用zset结构作为底层实现,一个zset结构同时包含一个字典和一个跳跃表:

typedef struct zset{
    zskiplist *zs1;
    dict *dict; 
}zset;

这里写图片描述
为什么有序集合需要同时使用跳跃表和字典来实现呢?
在理论上,有序集合可以单独使用字典或跳跃表的任何一个数据结构来实现,但是,单独使用字典还是跳跃表,在性能上对比起同时使用字典和跳跃表都会有所降低.
如果只使用字典来实现有序集合,虽然查找是O(1)，但是字典以无序保存集合元素，所以在每次执行范围操作时都要对字典进行排序.
如果只使用跳跃表,范围查找快。但是根据成员查找复杂度将变成O(N).
因此,为了让有序集合的查找和范围操作都尽可能的快。Redis 同时使用字典和跳跃表.

注意:
字典和跳跃表会共享成员和分值,并不会造成任何数据重复,也会因此浪费内存.
编码转换
当有序集合对象可以同时满足下面两个条件时,对象使用ziplist编码:
1.有序集合爆粗会呢的元素数量小于128个.
2.有序集合的所有成员长度小于64.
不能满足任何一个使用skiplist编码.

总结

介绍了Redis的五种对象类型和它们的底层实现。事实上，Redis的高效性和灵活性正是得益于对于同一个对象类型采取不同的底层结构，并在必要的时候对二者进行转换；以及各种底层结构对内存的合理利用。