Tableau介绍、安装
Tableau介绍
Tableau 是帮助人们查看并理解数据的一款软件。Tableau 帮助任何人快速分析、可视
化并分享信息。利用简便的拖放式界面,Tableau可以在几分钟内生成美观的图表、坐标
图、仪表盘与报告。
Tableau安装
注意:
- 虽然Tableau不断发布新版本,但在实际工作中,优先选择的是Tableau的稳定版本
- 本课程使用的Tableau稳定版本为:2019.4.1版本
Tableau的安装过程与普通软件一样,需要注意的是,在最后安装完成后,直接点击“退
出”,然后将tabui.dll拖放到安装目录的bin目录中即可激活Tableau。
条形图
认识条形图
条形图主要用于展示分类数据,比较不同类别之间某指标的大小。
重要操作:
案例
- 各地区酒店数量
- 各地区酒店均价
- 价格等级堆积图
直方图
认识直方图
- 直方图矩形的高度表示每一组的频数或频率,宽度则表示各组的组距
- 直方图主要用来呈现数据的分布情况
案例
创建酒店评分直方图
直方图的绘制先要创建“数据桶”(右键“评分”=》创建=》数据桶)
将“评分数据桶”放在“列”中,记录数放在“行”中,编辑横轴别名,效果如下:
数据预处理
数据预处理的必要性
- 改进数据的质量,有助于提高其后的决策过程的精度和性能。
- 高质量的决策必然依赖于高质量的数据,数据预处理是知识发现过程的重要步骤。
案例
- 对“电影名”进行拆分
之后,根据需要对字段"右键“==》”隐藏“或”删除“,最终效果
- 对“累计票房”进行拆分
- 对“导演”进行拆分
- 对“主演”进行拆分
- 对“上映时间”进行“自定义拆分”
最终效果:
折线图
案例
- 绘制电影数量变化折线图
设置行和列
删除掉无效节点
将“记录数”加入“标签”,把电影数量显示在折线图上
改变轴名称为“电影数量”
在关键节点上"右键"==》“添加注释”==》“标记”
还可以设置注释格式,“右键”==》“设置格式”
最终效果:
- 创建电影票房变化折线图
注意:此处要把"累计票房(万)"放在"度量"区域中
将"累计票房(万)"放在“标签”,然后“设置格式”
最终效果:
- 选择2037年的电影数量与票房比较
先对“上映日期”按年进行筛选
可以对各个月份展开分析,最终效果
双轴最终效果图:
饼图
案例——绘制酒店价格等级饼图
使用智能显示绘制饼图
计算百分比
设置显示的格式
最终效果:
最后,可以导出工作表:
基本表与凸显表
案例
- 不同地区酒店数量的基本表
- 不同地区酒店数量的凸显表
第一种制作方式:
制作好基本表后,在“智能显示”中选择凸显表项
凸显表效果:
第二种制作方式:
树形图
使用树形图可在嵌套的矩形中显示数据。可使用维度定义树形图的结构,使用度量定
义各个矩形的大小或颜色。树形图是一种相对简单的数据可视化形式,可通过具有视觉吸引
力的格式提供分析见解。
案例——绘制不同类型电影数量与票房树形图
先对票房和类型字段进行拆分,然后制作树形图,效果如下:
在此基础上,可以将票房和电影数量的标签显示出来,效果如下:
气泡图
案例
- 不同类型电影数量与票房气泡图
- 动作电影动态气泡图
先将“上映时间”的数据类型变为日期类型,随后将其拖入"页面"区域,最后再将"上映时
间"拖放到“筛选器”,去掉Null年份。
筛选动作类型,设置行列,显示历史轨迹等
词云图
词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤
掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。
案例——制作不同类型电影的电影数量词云图
先制作气泡图,然后将气泡图的形状改成“文本”即可制作词云图
标靶图
标靶图就是在条形图的基础上增加参考线(参考分布),可以更直观的地看到两个度量
之间的关系,通常两个度量为计划值和实际值(判断是否达标)。
案例——绘制二月份电量销售额完成情况
最终效果:
甘特图
甘特图一般用于查看项目交付计划日期和实际日期的比较情况。(时间维度是否达标)
案例——绘制交货延期情况的甘特图
右键“实际交货日期”创建计算字段
此时,甘特图为:
为了显示清楚,可对颜色条块使用颜色标记:
瀑布图
瀑布图介绍
- 可以表达构成整体的各个组成部分的比较关系
- 由一个长柱体及多个短柱体组成
案例——绘制超市不同子类别产品的盈亏瀑布图
先对“订单”表和“人员”表进行连接(默认连接字段是“地区”)
然后按照升序制作“子类别”与其对应的“利润”的条形图
再对“利润”进行汇总操作
对每种子类型的利润进行标签显示,此时,标签的数值代表对应子类型的利润,而条形图的
高度代表汇总的利润(也就是累加利润)。
选择标记为“甘特条形图”
目前,效果图如下(每个类别对应的横线代表起始点):
创建一个名为“长方形高度”的字段(“利润”的相反数),并将其拖入“大小”标记
目前的效果是:
将“利润”加入颜色,并进行汇总,编辑颜色,区分汇总的亏损与盈利(红色代表汇总亏损,
蓝色代表汇总盈利)。
最后,选择菜单栏的“分析”=》“合计”=》“显示行总和”
瀑布图的最终效果为:
数据集合并
在Tableau中,往往导入的excel工作表不止一个,这时候就会进行数据的合并
数据集合并的四种方式
超市销售情况符号地图
案例——制作各国家销售额符号地图
直接将“国家/地区(Country)”拖放到工作表的显示区中,并做相应的设置
效果如下:
针对地图上一个国家显示两个名称的问题,做如下处理即可:
仪表板
仪表板介绍
- 仪表板是若干视图的集合,方便同时比较各种数据
- 工作表和仪表板中的数据是相连的,当修改工作表时,包含该工作表的任何仪表板也会更改,反之亦然
- 工作表和仪表板都会随着数据源中的最新可用数据一起更新
案例——创建仪表板
点击Tableau右下角底部“新建仪表板”,可以将多个视图(包括工作表、图像、文本、网页
等)拖入仪表板同时进行显示
填充地图
案例——各省售电量填充地图
分别转换“省市”和“地市”的地理角色
将“省市”拖放到工作区中,并调整当期值的颜色
对于“未知”区域进行编辑
添加"省市"标签,对于命名特殊的省份(例如“龙江”),可以添加区域注释,并设置“注释格
式”
对原来的“龙江”标签设置从不显示:“右键”=》“标记标签”=》“从不显示”
目前效果:
设置“地图层”
最终效果:
多维地图
案例——各省售电量的多维地图
描述各省市的不同用电类型的当期值
对“统计周期”进行显示
对“用电类别”进行排序
混合地图
混合地图用来在一个地图层里展示多个数据维度
案例——各省市售电量混合地图
Ctrl拖动一个新的维度,并设置为双轴,效果如下:
分别设置两个标记维度
最终效果:
多边形地图
多边形地图是填充地图的一种补充,基于地理编码绘制一个多边形的区域,实现自定义
的填充地图。
案例——英国国家公园多边形地图
先将数据源中的"纬度"和"经度"的地理角色的"纬度"和"经度"
分别双击“纬度”和“经度”,并取消分析菜单中的“聚合度量”
标记选择为“多边形”,将“公园名称”设置为颜色,“点ID”设置为路径
在地图层中进行相应的设置
由于多边形不能设置标签,所以可以添加区域注释(以"凯恩戈姆国家公园"为例)
最终效果为:
层级结构
案例——人工服务接听量的层级结构
创建分层结构,并将创建好的分层拖放到列中
排除异常值,可以对分层结构进行“上钻”、“下钻”
注意:
层级结构不能嵌套!
数据分组
数据分组介绍
数据分组是根据业务需要,将原始数据按照某种标准划分成不同的组别,分组后的数据
称为分组数据。数据分组的主要目的是观察数据的分布特征。
案例——班分组的人工服务接听量
展示每个班的人工服务接听量
创建分组
根据需要,可以选择是否包括班分组中的“其他”
以降序方式展示班分组的人工服务接听量,效果如下:
实战——国家区域用电量(一)
地理区域分组
通过“省市”进行地图显示,编辑未知省市,并在地图标识上选择“套索选择”
使用"套索选择"工具对区域进行框选分组,编辑区域名称,以大小显示“当期值”,效果为:
实战——国家区域用电量(二)
区域用电量填充图
将各区域分组的当期值使用填充图表示
实战——国家区域用电量(三)
区域用电量标靶图
设置月度计划值的标靶线
最终的标靶图效果:
集的概念
集的定义
集是满足某些条件的数据子集,它是维度的部分成员
图标
类型
用途
- 集内外成员的对比分析
- 集内部成员的对比分析
静态集的创建
- 创建"负利润国家"的静态集
- 对"市场"、“细分市场”、“国家/地区”的"利润"进行显示
Ctrl选中某些负利润国家,并创建集
尝试删除集中的某些列,观察条形图
动态集的创建
案例——针对产品名称创建集
- 创建负利润产品集
- 创建销量Top100集
创建合并集
合并集的时候一定是同一个维度量
案例——创建“卖情怀产品”集
使用集做对比分析
案例——查看卖情怀产品的利润
得出结论:产品"Rogers Lockers,Blue"的负利润是最高的,可以对这种产品进行重点关
注,分析其亏损的具体原因。
计算字段
计算字段介绍
- 计算字段是根据数据源字段,包括维度、度量、参数等等,使用函数和运算符构造公
式来定义的字段
- 可以拖放到功能区里构建视图,也可以用于创建新的计算字段
计算字段的类型
- 基本计算字段
- LOD计算字段(Level of Detail,详细级别表达式)
- 表计算
创建基本计算字段
- 创建"成本"计算字段
显示国家/地区的平均成本
- 创建“盈利标志”计算字段
显示国家/地区的盈亏情况
粒度与聚合
粒度:
粒度源于Tableau的散点图,它表示数据的颗粒浓度
聚合
- 度量聚合
每当把度量内的内容拉入到行或列时,在其前面会出现总计字样,这就是度量的聚合,
并且聚合的形式多样
- 维度聚合(很少使用)
比率
比率是什么
Tableau中的比例运算一般都会使用两个已有的变量来书写公式,对两个变量进行相除
的运算。
案例——对比不同比率
创建一个层级结构和两个计算字段
对“度量名称”进行筛选
对两个比率表达式设置百分比格式
比较"利润/销售额"与"SUM(利润)/SUM(销售额)"
详细级别表达式(LOD——Level of Detail)
案例——显示国家/地区的订单利润平均值
创建"订单利润"计算字段
INCLUDE语法:
{INCLUDE <维度声明> : <聚合表达式>}
除了视图中的任何维度之外,INCLUDE 详细级别表达式还将使用指定的维度计算值。 也就是说Include中的聚合级别,是视图中维度+表达式中的维度。
在地图显示国家/地区的订单利润平均值
FIXED语法:
{FIXED <维度声明> : <聚合表达式>}
FIXED 详细级别表达式使用指定的维度计算值,而不引用视图中的维度
人口金字塔
一句话阐明"人口金字塔"
人口金字塔在本质上就是成对条形图
案例——创建人口金字塔
数据预处理
- 显示不同年龄的人数
- 将Age的数据类型变为字符串,观察Null的具体情况
- 创建“年龄”计算字段
- 将"年龄"计算字段拖放到"维度"区域,观察不同年龄的人数
创建人口金字塔图
- 根据"年龄",创建一个数据桶
- 创建直方图
- 创建一个"男性人数"计算字段(同理,再创建一个"女性人数"计算字段)
- 显示“男性人数”和"女性人数"的直方图
- 对女性人数进行倒序显示(双击横轴"女性人数",调出女性人数编辑轴)
- 在"全部"标记设置颜色,最终效果为:
漏斗图
漏斗图的作用
- 直观地展现业务流程,快速发现流程中存在的问题
- 在电商、营销、客户关系管理(CRM)等领域有广泛应用
案例——公众号流量转化漏斗图
- 制作不同阶段数量的条形图
- 复制一个“总和(数量)——Ctrl拖动,并将第二幅图的形状改为线图
- 设置“双轴”、“条形图”、“同步轴”
- 复制数量、设置条形图、线图、双轴、同步轴
- 在前一半图下方横轴双击调出"编辑轴",并选择"倒序"
- 隐藏标题
- 去掉中间的分隔符
- 在连接线上添加阶段标签和数量标签
- 分别在左右两边连线上“添加表计算”
最终效果图:
箱型图
箱型图相关概念
箱型图也称为盒须图。用于显示数据的位置、分散程度、异常值等。图中可以体现出中
位数、第一四分位数(Q1)、第三四分位数 (Q3)、上限、下限、异常值等信息。
- 中位数:数据由小到大排序后,处于中间位置的数据,总观测数 50%的数据值
- 第一四分位数(Q1):等于该样本中所有数值由小到大排列后第25%的数字
- 第三四分位数(Q3):等于该样本中所有数值由小到大排列后第75%的数字
- IQR:四分位距,第三四分位数与第一四分位数的差值
- 上限:Q3+1.5IQR
- 下限:Q1-1.5*IQR
- 异常值:上下限范围之外的数据
案例(示例_超市.xls)——每个订单每个子分类利润的分布情况
选中“子类别”、“订单 Id”及“利润”,选择右侧“智能显示”窗口中的“盒图”
上图可以看到就是制作好的盒须图,我们把鼠标放到灰色的盒子中。可以看到显示
有上须、上枢纽、中位数、下枢纽、下须等几个值
范围—线图
范围—线图介绍
范围—线图将整体数据的部分统计特征(均值、最大值、最小值等)展示在图形中,既
可以说明群体特征,还可以展示个体信息,更可以比较个体与整体的相对关系。
案例(人工坐席接听数据.xlsx)
- 绘制工号为20002875员工每天的人工服务接听量
- 创建"接听量平均值"计算字段
- 同理,创建"接听量最大值"计算字段和"接听量最小值"计算字段
将"接听量平均值"、"接听量最大值"、"接听量最小值"添加到详细信息中,并对“人工服
务接听量”纵轴添加参考线
- 添加接听量平均值的参考线
- 再次添加参考线
最终效果图:
倾斜图
倾斜图介绍
倾斜图,又名斜线图、斜率图,可以展示单指标不同时期的变化情况,既能展示值的
大小变化,同时能展示排名变化。
案例(劳动生产率指标.xlsx)——劳动生产率变化倾斜图
- 创建“排名”计算字段
- 显示“期间”与“排名”的关系,并以线的方式展示,将“单位”添加到详细信息中,并开始对排名进行“编辑表计算”
- 设置“排名”表计算
- 将排名加入标签,并设置同样的表计算
- 将“单位”、“累计值”加入标签,并设置标签的显示格式
- 再创建一个"排名_正确"的计算字段
- 将“排名_正确”计算字段加入标签(移除原来的“排名”计算字段),并设置表计算,编辑标签格式
此时的效果图是:
- 创建一个“变化量”的计算字段,并将该字段加入大小标记
- 创建“增减状态标志”计算字段,并将其拖入颜色标记
- 创建“变化量绝对值”计算字段,并将该字段加入大小标记(移除"变化量"计算字段)
当前效果为:
- 调整期间的顺序(调整为“同期”在前,“当期”在后)
最终效果:
凹凸图
凹凸图介绍
凹凸图通过对相同事物的不同排名进行连接,从而显示出排名间的一个相互变化关系,
其实就是多线图和点的结合。
案例(示例_超市.xls)——随年份变化各个子类的销售额的凹凸图
- 拖动“订单日期”到列,“销售额”到行,将“子类别”拖动到“颜色”
- 对“销售额”进行排序,右键“销售额”选择“快速表计算”选择“排序”
- 对“销售额”进行编辑表计算
- 使用“子类别”特定维度作为计算依据
- 按住 Ctrl 键,创建双轴图表,并右键选择“双轴”
- 在第二个维度中选择“圆”,并修改标签的样式
- 点击右侧的轴,选择“同步轴”
- 看到多一行,右键“编辑轴”,范围选择固定,并勾选倒序
- 最后将右边轴的"显示标题"去掉,最终的凹凸图效果是:
故事
故事介绍
通过数据把我们自己发现的观点以故事的形式讲出来。故事非常适合叙述从数据中发现
的规律。它们和显示面板相似,你可以创建工作表,然后将工作表拖到故事中。但是,每个
工作表都单独显示,并且会有按顺序显示的叙述性文字。
案例——创建故事
- 创建故事的两种方式
不管使用哪种方式,都会出现如下图的效果
- 拖动工作表,修改标题名
- 点击空白,创建下一个观点
- 可以对工作表添加文本说明
- 如果是对当前图的补充,可以点击“复制”
- 布局窗口是对故事导航器样式的修改
回归分析
回归分析介绍
回归分析本质上是将存在及可能存在的相关关系的变量拟合成直线或者曲线。据此,
我们一方面可以总结出已有数据的规律和特征,另一方面还可以预测数据。
案例——示例_超市.xls的回归分析
- 线性回归
拖动“销售额”到列,“利润”到行,点击分析菜单取消“聚合度量”
添加趋势线——在分析窗口,拖动“趋势线”到视图窗口,选择“线性”
R平方值:拟合优度,越大越好,最大 1,最小 0,0.4 以上表示不错
右键选择“描述趋势线”,可以复制公式,并将公式添加到注释区域中
- 幂回归
复制线性回归工作表,右击趋势线,选择“编辑趋势线”,选择“幂”
可以看到,此时的回归公式和R平方值都有了变化,而且此时的R平方值较大,说明回归效果较好
时间序列分析
时间序列分析介绍
时间序列分析本质上就是利用原始的数据拟合出一个模型来。然后研究分析事物发展变
化的规律。从而得出观测数据的一种统计特征,找到这种特征再依据拟合出来的模型向后推
一定时间内的预测值。
案例(示例_超市.xls)——不同订单日期的销售额变化
- 绘制如下折线图
- 右键->预测->显示预测
- 也可以选中“预测选项”进行相应的选择
对于预测模型,一般选“自定义”。选择了自定义后,有“趋势”和“季节”两个选项。如果都
设置为无,则对模型和预测都不做贡献
累加模型是对各模型组件的贡献求和,而累乘模型是至少将一些组件的贡献相乘。当趋
势或季节性受数据级别(数量)影响时,累乘模式可以大幅改善数据预测质量
这是官方解释图:
- 此时,查看描述预测,质量是“差”
- 然后,再将“趋势”与“季节”都改为“累加”,再次查看描述预测,发现质量是“好”