官方未给出答案,一切答案均为个人作答。有错指出,会及时修改。
如违反规则请联系,立马删除。
只有选择题,部分解析

数据分析概述

1、 下列描述错误的是( A )。
A. 数据就是各种Excel 表格或数据库
B. 数据是可以鉴别的符号
C. 不同数据的分析方法不尽相同
D. 数据的表现形式繁多

2、 对商务数据描述不正确的是( B )。
A. 商务数据是一种数据符号
B. 后端商业数据是反应用户行为的数据
C. 商务数据主要包含商业、经济等活动领域
D. 商务数据可以分为前端行为数据和后端商业数据

前端商业数据反应用户行为

3、 下列哪一项数据与信息的关系正确( C )。
A. 数据是非物理性的
B. 数据本身的价值高于信息本身的价值
C. 信息是数据的内涵
D. 数据是对信息的加工

信息是对数据的加工

4、 下列不属于大数据与数据的区别是( A )。
A. 数据价值
B. 数据范围
C. 数据类型
D. 数据量

在这里插入图片描述
惊不惊喜

5、 下列属于营销数据的是( D )。
A. 访客数
B. 供应链服务
C. 用户登录记录
D. 点击用户数

6、 商务数据的分类不包括( D )。
A. 流量数据
B. 行业数据
C. 营销数据
D. 行政数据

7、 下列不属于市场类指标的是( B )。
A. 行业销售额
B. 商品客单价
C. 竞争对手客单价
D. 市场增长率

8、 下列关于商务数据分析指标的说法不准确的是( B )。
A. 市场类指标可描述企业在行业中的发展情况
B. 客户指标能用于描述不可营销客户的黏度和忠诚度
C. 产品类指标能直接影响店铺经济效益
D. 运营类指标中也包括供应链指标

可营销

9、 下列属于客户指标有( D )。
A. 收藏人数
B. 消费频率
C. 客户留存率
D. 以上全是

10、 衡量一个推广活动成功与否不包含以下哪个方面( B )。
A. 推广效果
B. 产品质量
C. 推广成本
D. 活动粘合度

11、 运营推广数据指标有( D )。
A. 展现量
B. 入站次数
C. 客服咨询转化率
D. 以上全是

12、 下列不属于销售指标的是( D )。
A. 销售额
B. 销售量
C. 销售毛利
D. 浏览量

13、 下列属于供应链指标的是( D )
A. 采购量
B. 送货量
C. 库存量
D. 以上都是

14、 下列不属于产品类指标的是( A )。
A. 跳失率
B. 产品数量
C. 产品收藏次数
D. SPU 标准化产品单元

跳失率,是指显示顾客通过相应入口进入,只访问了一个页面就离开的访问次数占该页面总访问次数的比例

15、 SKU 库存量单位一般包含( D )。
A. 件
B. 托盘
C. 盒
D. 以上都是

16、 商务数据分析的一般流程是( D )。
①明确数据分析目标②数据处理③数据展现④撰写数据分析报告⑤数据采集⑥数据分析
A. ①②⑤③⑥④
B. ①⑤⑥②③④
C. ①⑥②③⑤④
D. ①⑤②⑥③④

17、 以下( C )不属于间接采集的数据。
A、查阅资料获取
B、问卷调查获取
C、爬虫获取
D、采用某些数据统计工具获取

18、 分析商务数据需要的数据包括( D )。
A、市场分析数据
B、货品分析数据
C、 客户分析数据
D、以上都是

19、 数据处理的目的( D )。
A、抽取对解决问题有价值的数据
B、保证数据的一致性和有效性
C、形成合适数据分析的样式
D、以上都是

20、 数据处理的模块包括( A )。
①数据清洗②数据转化③数据提取④数据计算⑤数据展现
A、①②③④
B、①②③⑤
C、①②④⑤
D、①③④⑤

21、 以下哪一项表示数据清洗( C )。
A、将原始数据转换成为适合数据分析的形式
B、从数据源中抽取数据
C、对数据进行重新审查、校正
D、对数据有目的的进行加减乘除等计算

22、 下面对数据分析的表述正确的是( D )。
A、 需要分析形成有效的结论
B、需要分析提取出有价值的信息
C、 需要采用适当的分析方法及工具
D、以上都是

23、 下列属于数据分析方法的是( D )。
A、 频数分析
B、交叉分析
C、描述性统计分析
D、以上都是

24、 下列属于数据分析工具的是( D )。
A、Excel
B、SPSS
C、Python
D、以上都是

25、略

26、 ( C )不是数据分析报告的引入部分内容。
A、标题页
B、 前言页
C、 附录页
D、目录页

27、 下列属于数据分析报告基本结构的是( D )。
A、引入部分
B、正文部分
C、结论部分
D、以上都是

28、 人们利用大数据了解社会化网络传播并开展类似于社会网络营销活动的行为,属于利用大数据进行
( B )。
A、挖掘营销
B、社会网络营销
C、个性化推荐营销
D、用户行为分析营销

29、 下列属于常见商务数据应用领域的是( D )。
A、勾勒用户画像
B、优化产品
C、精细化运营
D、以上都是

30、 下列不属于用户分析的参数是( D )。
A、用户地域分布
B、用户活跃情况
C、 用户时段分布
D、 产品购买用户数

31、 场景运营分析不包括( D )。
A、 内部检索
B、站内广告
C、 页面项目
D、订单数量

32、 下列对撰写数据分析报告描述不正确的是( A )。
A、 附录是必备的
B、 要有明确的结论、建议和解决方案
C、目录需要体现报告的分析思路
D、标题页要精简干练

33、 下列关于推广指标说法不正确的是( D )。
A、 关注数是在统计周期内新增关注人数,不考虑取消关注的情况
B、访客数是在统计周期内访问网站的独立客户数
C、浏览量是在统计周期内客户浏览网站页面的次数
D、 跳失率是在统计周期内访客入站浏览多个页面后离开的次数占入站次数之比

34、 下列不属于流量数据的是( C )。
A、浏览量
B、人均费用
C、访客数
D、在线时长

35、 下列不属于流量指标的是( B )。
A、浏览量
B、转化率
C、访问量
D、访客数

36、 下列不属于运营指标的是( A )。
A、成交指标
B、推广指标
C、销售指标
D、客户指标

37、 ( D )是指在一定时期内实际销售出去的产品数量。
A、浏览量
B、 点击量
C、展现量
D、 销售量

38、 利用大数据进行用户行为分析营销时,其主要指标有( D )。
A、客户关注量
B、产品收藏量
C、重复购买率
D、用户历史消费记录

39、 下列数据指标中不属于市场类指标的是( B )。
A、行业销售量
B、 客户复购率
C、企业增长率
D、 竞争对手销售额

40、 下列对以货为维度产品分析的作用描述正确的是( D )。
A、不同产品、不同品牌用户的关注度以及购买力
B、功能展现是否完美
C、帮助企业了解产品的点击是否顺畅
D、以上都是

数据采集

1、一般通过政府部门、机构协会、媒体这些渠道进行采集的是( A )。
A、 行业数据
B、 市场数据
C、 运营数据
D、 人群数据

2、以下哪项属于电子商务平台自身提供的数据分析工具( D )。
A、 百度指数
B、 逐鹿工具箱
C、 店侦探
D、生意参谋

3、电子商务数据采集与处理方案中不包含( A )
A、 背景介绍
B、 分析目标
C、数据来源渠道
D、数据指标数据内容

4、某电子商务网站为了能够获得更多用户信息,以下做法可能违法的是?( D )
A、通过送网站积分的形式鼓励用户填写更多个人信息
B、要求用户填写更多个人信息从而获得更精准的商品推荐
C、通过调取用户在本网站的购物记录分析更多用户信息
D、通过调取用户设备中其他应用、文档等分析更多用户信息

5、以下不属于内部数据获取渠道的是( C )
A、 友盟
B、 京东商智
C、 行业协会
D、 生意参谋

6、电子商务数据采集渠道可分为内部和外部两类,以下属于外部数据采集渠道的是( A )
A、 出版社
B、 生意参谋
C、 店铺后台
D、 百度统计

7、以下关于数据采集说法错误的是( B )
A、 数据采集也叫数据获取
B、 爬虫类采集工具可以采集所有类型的数据
C、 数据采集是为后续进行数据分析提供的数据准备工作
D、 在进行数据采集过程中,需要注意数值期限的有效性

违规数据,禁爬数据不行

8、外部数据渠道一般不包括( D )
A、 指数工具
B、 权威网站、数据机构
C、政府部门、机构协会、媒体
D、电商网站安装的百度统计

9、下列关于数据采集方法说法正确的是( D )。
A、网页上搜集到的数据都不准确
B、采集到的数据可以直接使用,不需要再进行数据处理
C、 在进行数据采集前不需要建立数据指标规范
D、 在进行用户需求、习惯、喜好、产品使用反馈等数据进行采集时常常会用到调查问卷

10、数据采集的正确顺序是( C )
①确定采集范围及人员分工②建立必要的数据指标规范及并完成数据采集③数据检查
A、 ③②①
B、 ①③②
C、 ①②③
D、 ②③①

11、常用的数据采集方法一般不包括( C )
A、 网页数据采集
B、调查问卷
C、 数学模型计算
D、系统日志数据采集

12、采集产品行业数据的核心目的是为了( D )
A、 找到目标客户
B、 了解该产品质量
C、了解该产品品质
D、 了解该产品的市场需求变化情况

13、某网店准备按照店铺产品的引流能力及盈利能力两项数据分别对产品进行排序,将两项数据指标排名
均靠后的5款产品进行下架处理。根据以上情景可确定数据分析目标为( C )
A、 分析店铺商品的展现量
B、 分店铺商品中能够稳定获利的商品
C、 分析店铺商品的引流能力和盈利能力
D、分析店铺商品的推广效果

14、采集产品行业数据时常用到的数据采集指标包括 ( A )
A、产品搜索指数
B、产品重复购买率
C、产品关注量
D、产品收藏量

15、在数据采集过程中并非所有需要的数据指标都可以采集到,在这种情况下以下做法正确的是( A )

A、 可以使用能够反映该指标的其他数据替代
B、 忽略该数据的采集任务
C、 想尽一切办法寻找可以采集到该指标的数据数据渠道
D、 不需要采集

16、客单价的计算公式( C )。
A、 客单价=访客数×转化率
B、 客单价=订单数÷转化率
C、 客单价=销售总额÷顾客总数
D、 客单价= (销售收入-销售成本)/销售收入×100%

7、 以下关于毛利率的说法错误的是( B )。
A、 指商品毛利润占销售额的百分比
B、 计算毛利率只需要采集商品销售收入数据
C、 计算毛利率需要采集商品销售成本数据
D、 毛利率=(销售收入-销售成本)/销售收入×100%

18、以下关于产品盈利能力的说法错误的是( C )。
A、 产品盈利能力分析是产品组合决策的基础
B、 主要指标包括客单件、毛利率、成本费用利润率等
C、 产品盈利能力所有指标都可以直接获取
D、 产品盈利能力是对产品为店铺销售或利润贡献能力的衡量

产品盈利能力是对产品为店铺销售或利润贡献能力的衡量,主要指标包括客单件、毛利率、成
本费用利润率等。该类型的数据一般无法直接获取,需要通过公式进行计算。

9、下列采集行为属于违法行为的是( D )。
A、 使用生意参谋工具导出自己店铺运营数据
B、 使用百度指数工具获取关键词搜索指数及用户画像数据
C、 使用数据采集工具采集其他网站公开数据信息用于数据分析
D、 通过技术手段进入竞争对手网站数据库获取网站流量及销售数据

20、( A )是用户在搜索相关产品关键词热度的数据化体现。
A、 产品搜索指数
B、 产品交易指数
C、 产品收藏量
D、 产品重复购买率

21、在客户数据库中,属于客户行为数据的是( )
A、教育程度
B、信用状况
C、账户类型
D、浏览量

客户数据采集指标可分为客户行为数据和客户画像数据。客户行为数据一般包括客户的商品消费记录下数据:商品名称、数量、购买次数、购买时间、支付金额、评价、浏览量、收藏量等。客户画像数据包括与客户购买行为相关的,能够反映或影响客户行为的相关信息数据:客户性别、年龄、地址、品牌偏好、购物时间偏好、位置偏好、商品评价偏好等。

22、以下不属于推广效果数据指标的是( D )
A、 点击转化率
B、 展现量
C、 点击率
D、 库存周转率

23、某淘宝店铺准备分析某商品一段时间内的复购率时,需要采集的数据指标不包含( D )。
A、 下单时间
B、 商品交易笔数
C、 客户支付金额
D、 买家用户名

24、下列数据指标中不属于客户行为的是( D )。
A、 购买时间
B、 浏览路径
C、 支付金额
D、 收货地址

25、某网店运营部门发现近期店铺直通车推广订单持续降低,现准备对降低原因进行分析,其分析目标为
( B )。
A、 分析店铺产品销量变化趋势
B、 分析店铺直通车订单下降原因
C、 分析店铺商品盈利状况
D、 分析店铺产品供应链完善程度

26、以下不属于数据采集原则的是( A )。
A、 全面性
B、公开性
C、 准确性
D、 有效性

合法性包括了公开性

27、供应链数据分析不包括( D )
A、采购数据分析
B、物流数据分析
C、库存数据分析
D、客户服务数据分析

28、下列有关网店与供应商之间的合作伙伴关系表述错误的是( A )。
A、一般为短期的关系
B、共同开发、创造
C、双方相互信任,共担风险,共享信息
D、双方有着共同的目标,并且为着共同的目标有挑战性地改进计划

29、分析( B )可以帮助网店在经营过程中合理的地制定营销销售策略,也可以有利于提升仓库的使用率。
A、 客户数据
B、 库存数据
C、 竞争数据
D、 推广数据

30、行业发展数据来源不包括( A )。
A、网站流量统计工具
B、行业协会
C、行业调查报告
D、数据公司发布的行业统计数据

行业发展数据分析通常会涉及到行业总销售额、增长率等数据指标,行业发展数据来源主要依托于国家统计局、行业协会、数据公司发布的行业统计数据、行业调查报告等

31、市场需求数据分析常见指标不包括( C )
A、 成交需求
B、 需求结构
C、 商品质量
D、 需求量变化

32、竞争数据属于( A )
A、市场数据
B、产品数据
C、运营数据
D、其他选项皆不对

33、以下关于竞争对手数据收集原则的描述中不正确的有( D )
A、可以使用公开信息
B、避免和竞争对手做直接的接触
C、可以伪装成为顾客和竞争对手接触
D、如果有和竞争对手对话的场合,不要涉及近期价格/促销的话题,尤其不可以涉及未来的计划。即使是
单方面的表达也不可以。

34、产品交易指数越高,代表( D )越高。
A、支付人数
B、客单价
C、支付件数
D、支付金额

产品交易指数是商品的总体支付金额进行指数化后的指数类指标,是产品在平台交易热度的体现,交易指数越高,代表支付金额越高。

35、产品交易指数是产品在平台( A )的体现
A、交易热度
B、价格满意度
C、交易难易度
D、用户满意度

36、( A )是用户搜索产品时在搜索框中输入的词汇,直接代表了用户的搜索意图
A、搜索词
B、品牌词
C、长尾词
D、核心词

37、统计周期内,根据搜索词的搜索次数拟合出的指数类指标是( B )
A、搜索热度
B、搜索频次
C、搜索频率
D、搜索人气

38、客户行为分析是对客户在选择、购买、使用、评价、处理产品或服务过程中产生的数据进行分析,以
下哪个指标不属于分析的主要指标( C )。
A、访问频率
B、销售额
C、客单价
D、成交订单数

39、了解竞店是不是原创品牌、店铺人群定位、商品适用季节、适用场景等,这是在进行( C )分析
A、销售
B、商品类目
C、竞店属性数据
D、推广活动

40、进行电子商务数据分析,其核心是通过对各项( C )的数据进行分析,从而得出与数据分析目标相关的
结论。
A、任务
B、指数
C、指标
D、数据表

数据预处理

1、下列商务数据分析步骤中,哪项最能起到承上启下的作用( B )。
A、数据采集
B、数据预处理
C、数据可视化
D、数据分析报告

2、下列商务数据分析步骤中,哪项是最占时间和精力的环节( B )。
A、数据采集
B、数据预处理
C、数据可视化
D、数据建模分析

3、下列哪项是数据预处理的客观性原则( A )。
A、坚持用数据说话的基本原则,处理结果应能如实反映企业运营现状。
B、数据预处理的结果应便于观察、对比、分析,能简单快速调用,易于发现规律。
C、引用的数据库集成越完整,下一步的数据分析就越全面、越深入。
D、紧贴商务数据处理方案的要求,依据数据加工的目标,针对不同类型数据的复杂程度、难易程度,选择
合适的方法,使结果符合实际需求。

B为便携性,C为完整性,D为针对性

4、下列哪项是数据预处理的完整性原则( B )。
A、数据预处理的结果应便于观察、对比、分析,能简单快速调用,易于发现规律。
B、引用的数据库集成越完整,下一步的数据分析就越全面、越深入。
C、坚持用数据说话的基本原则,处理结果应能如实反映企业运营现状。
D、紧贴商务数据处理方案的要求,依据数据加工的目标,针对不同类型数据的复杂程度、难易程度,选择
合适的方法,使结果符合实际需求。

5、下列哪项是数据预处理的便携性原则( C )。
A、坚持用数据说话的基本原则,处理结果应能如实反映企业运营现状。
B、引用的数据库集成越完整,下一步的数据分析就越全面、越深入。
C、数据预处理的结果应便于观察、对比、分析,能简单快速调用,易于发现规律。
D、紧贴商务数据处理方案的要求,依据数据加工的目标,针对不同类型数据的复杂程度、难易程度,选择
合适的方法,使结果符合实际需求。

6、下列哪项是数据预处理的针对性原则( D )。
A、坚持用数据说话的基本原则,处理结果应能如实反映企业运营现状。
B、引用的数据库集成越完整,下一步的数据分析就越全面、越深入。
C、数据预处理的结果应便于观察、对比、分析,能简单快速调用,易于发现规律。
D、紧贴商务数据处理方案的要求,依据数据加工的目标,针对不同类型数据的复杂程度、难易程度,选择
合适的方法,使结果符合实际需求。

7、由于数据预处理是整个数据分析过程中最占时间和精力的环节,同时也由于数据的庞大、繁琐而让这一
过程显得枯燥乏味,出错的概率较大。这提醒我们在数据预处理时应注意遵循( C )原则。
A、客观性
B、便携性
C、严谨性
D、针对性

8、数据表的行列互换、文本数据提炼等属于数据预处理的哪种方法( D )。
A、分类统计
B、数据清洗
C、数据规约
D、数据转化

9、获得数据集的一个简约表示,使得在容量上大大减小。这属于预处理的哪种方法( C )。
A、分类统计
B、数据清洗
C、数据规约
D、数据转化

10、( C )能对多个分散的数据进行汇总计算,能够帮助用户将特定单元格区域中的数据,按照项目的匹配,
对同类数据进行汇总。
A、分类汇总
B、函数计算
C、合并计算
D、数据透视表

11、( D )是计算、汇总和分析数据的强大工具,它不但可以进行数据计算,还可以动态地改变版面布置,
任意组合字段,而且在每一次改变版面布置时,会立即按照新的布置重新计算数据。
A、分类汇总
B、合并计算
C、函数计算
D、数据透视表

12、将数据表中多余、重复的数据筛选出来并删除,将缺失、不完整的数据补充完整,将内容、格式错误
的数据纠正或剔除的操作行为是( B )。
A、分类统计
B、数据清洗
C、数据转化
D、数据规约

13、在处理缺失值中,( D )使数据倾斜,填入的值可能不正确,然而却是最常用的方法。
A、利用最可能的值来填充缺失值
B、利用该属性的均值来填充缺失值
C、利用与给定元组属于同一类的所有样本的均值
D、用一个全局常量来填充缺失值

14 客户年龄500 岁,或者消费金额为-100 元,这种明显不符合客观事实的数据属于( A )。
A、逻辑错误数据
B、格式错误数据
C、重复数据
D、无价值数据

15、客户的出生年份是1980 年,但年龄却显示18 岁。这里的数据错误是( C )。
A、重复数据
B、格式错误数据
C、逻辑错误数据
D、无价值数据

16、运用DATED IF 函数属于数据计算中的( B )。
A、常规计算
B、日期计算
C、加权计算
D、赋值计算

17、影响数据质量问题的因素有哪些?( D )。
A、准确性、完整性、一致性
B、相关性、时效性
C、可信性、可解释性
D、以上都是

18、下面哪一项不是属于数据规约的策略?( D )。
A、维归约
B、数量归约
C、数据压缩
D、属性构造

19、以下说法错误的是?( A )。
A、主成分分析、属性子集选择为维归约方法。
B、直方图、聚类、抽样和数据立方体聚集为数量归约方法。
C、用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间。
D、数据集成有助于减少结果数据集的冗余和不一致,这有助于提高其后挖掘过程的准确性和速度。

维规约为删除不重要的属性。属性子集选择:检测并删除不相关、弱相关或冗余的属性和维。

20、以下说法错误的是( D )。
A、数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约
B、整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流
C、冗余数据的删除既是一种数据清理形式,也是一种数据归约
D、数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用

冗余数据删除属于属性子集选择,也就属于数据规约。数据规约!=数值规约

21、处理噪声的方法一般有( D )。
A、分箱
B、回归
C、聚类
D、以上都是

22、下列方法不属于数据变换的是( A )。
A、光滑
B、抽样
C、规范化
D、属性构造

23、数据预处理的方法不包含以下哪个选项( C )。
A、数据清洗
B、数据变换
C、数据采集
D、数据规约

24、“脏数据”的表现形式有( D )。
A、不完整性
B、不一致性
C、有噪声、冗余性
D、以上都是

25、数据预处理的意义包括( D )。
A、集中、系统地反映客观实际
B、确保数据的内容完善和格式统一
C、发现规律,实现深度挖掘
D、以上都是

26、缺失值的处理方法有( D )
①忽略该元组
②手工填入缺失值
③用一个全局常量来填充缺失值
④利用最可能的值来填充缺失值
A、①②
B、②③④
C、①②③
D、①②③④

27、数据预处理(ETL)过程不包括( A )。
A、数据加载
B、数据转换
C、数据整合
D、数据抽取

28、下面哪一项不是属于数据归约的策略?( C )
A、维归约
B、数量归约
C、数据压缩
D、属性构造

29、下列关于为什么要做数据清理描述错误的是?( D )
A、数据有错误
B、数据有重复
C、数据有缺失
D、数据量太大

30、影响数据质量问题的因素有哪些( D )
A、准确性、完整性、一致性
B、相关性、时效性
C、可信性、可解释性
D、以上都是

31、下列不属于数据预处理原因的是( A )。
A、数据量过于庞大
B、数据有可能不能很好地反映潜在的模式
C、有些数据属性是无用的或者冗余的
D、数据可能存在缺失、错误、不一致等问题

32、数据集成的过程中需要处理的问题有( D )
A、实体识别
B、冗余与相关性分析
C、数据冲突和检测
D、以上都是

33、下列关于数据清理描述错误的是( A )
A、 数据清理能完全解决数据质量差的问题
B、 可以借助Kettle 来完成大量的数据清理工作
C、 数据清理的目的是提高数据质量
D、 数据清理在数据分析过程中是不可或缺的一个环节

34、下列关于使用参照表清洗数据说法错误的是( D )
A、 使用参数表可以校验数据的准确性
B、 使用参照表可以处理数据的一致性
C、有些数据无法从内部发现错误,需要结合外部的数据进行参照
D、 只要方法得当,数据内部是可以发现错误的,不需要借助参照表

35、所谓高维数据,指的是( B )
A、数据对象很多
B、数据属性很多
C、以上都正确
D、以上都错误

36、在数据预处理阶段,数据合并到一致的存储介质中,使得数据挖掘更有效、挖掘模式更易理解,这一
过程是( B )。
A、 数据清洗
B、 数据集成
C、 数据归约
D、 数据转换

37、下列属于数据处理任务的是( D )。
A、分类
B、聚类
C、关联分析
D、以上全是

38、数据错误是不可避免的,其表现为( D )。
A、数据输入过程数据错误
B、数据获得过程数据错误
C、数据传输过程所引入的错误
D、以上都是

39、数据错误的危害包括哪些( D )。
A、高昂的操作费用
B、糟糕的决策制定
C、分散管理的注意力
D、以上都是

40、缺失值产生的原因有( D )。
A、有些信息无法获取
B、人为原因导致信息遗漏或删除
C、数据存储的失败
D、以上都是

数据分析方法

1、用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法是( D )。
A、趋势分析
B、回归分析
C、相关性分析
D、描述性统计分析
2 、反映抽样误差大小的统计指标( D )。
A、 标准差
B、 极差
C、 方差
D、均值标准误差

3、在一组数据中,出现次数最多的数据叫做这组数据的( A )。
A、 众数
B、平均数
C、 中位数
D、 最大数

4、下列分析内容中,属于趋势分析的是( A )。
A、杜邦分析
B、比较财务报表分析
C、定比分析与环比分析
D、财务比率的比较分析

其他三个均为比较分析

5、以下哪项指标对比分析不属于横向分析( B )
A、企业当年的评价指标与行业先进水平对比分析
B、企业当年的评价指标与近几年的指标对比分析
C、企业当年的评价指标与行业平均水平对比分析
D、企业当年的评价指标与主要竞争对手进行分析

横向对比:指同一时期不同维度对比

6、根据分析对象的特征,并按照一定的指标将对象划分为不同类别进行分析的统计方法是( A )。
A、分组分析
B、描述性统计分析
C、相关性分析
D、回归分析

7、当相关系数|𝜌|=0 时,表明( A )。
A、现象之间完全无关
B、相关程度较小
C、现象之间完全相关
D、无直线相关关系

8、在两个变量的回归分析中,作散点图是为了( D )。
A、直接求出回归直线方程
B、直接求出回归方程
C、估计回归方程的参数
D、根据经验选定回归方程的类型

9、下列说法中正确的是( B )
A、任何两个变量都具有相关关系
B、人的知识与其年龄具有相关关系
C、散点图中的各点是分散的没有规律
D、根据散点图求得的回归直线方程都是有意义的

10、以下散点图表示正相关的是( A )。
在这里插入图片描述

11、进行回归分析的正确步骤是( C )
①根据预测目标,确定自变量和因变量②对回归模型进行检验③估计模型参数,建立回归模型④绘制散
点图,确定回归模型类型⑤利用回归模型进行预测
A、①④⑤②③
B、①③④②⑤
C、①④③②⑤
D、④①②③⑤

12、一元线性回归模型 y=A+Bx+ε 中,ε 代表( A )
A、 误差项
B、因变量
C、 自变量
D、 截距项

13、以下关于聚类分析说法错误的是( A )
A、 聚类分析算法只有K-means 一种
B、组内相似性越大,组间差距越大,说明聚类效果越好
C、 在K-means 聚类模型中 簇内样本的离差平方和之和达到最小时聚类效果最好
D、 在商业上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群

聚类分析是指将数据对象的集合分组为由类似的对象组成的多个类的分析过程。常见方法有K-means、K-中心点、系统聚类

14、现有A、B、C、D、E 五种商品的交易记录,假设最小支持度>=50%,最小置信度>=50%。那么B→C
置信度为66.7%,支持度为50%说明( A )
A、 规则B→C 是强关联规则
B、规则C→B 是强关联规则
C、 规则B→C 是弱关联规则
D、 规则C→B 是弱关联规则

Apriori 关联规则分析算法. 置信度(confidence):说明规则的强度(最小和最大置信度有公司设定)P(B|A)
支持度(support):说明规则的统计显著性 P(AB)
利用Apriori计算支持度,C1->L1淘汰了支持度小于2的{D},其中2nd scan后的C2 sup值即为从database中直接计数两元素同时存在的次数。重复淘汰支持度小于2的元素得到{B,C,E}如下:

1.连接:
C3=L2(连接)L2={{A,C},{B,C},{B,E},{C,E}}{{A,C},{B,C},{B,E},{C,E}}={{A,B,C},{A,C,E},{B,C,E}}
2.剪枝:
{A,B,C}的2项子集{A,B},{A,C}和{B,C},其中{A,B}不是2项子集L2,因此不是频繁的,从C3中删除;
{A,C,E}的2项子集{A,C},{A,E}和{C,E},其中{A,E}不是2项子集L2,因此不是频繁的,从C3中删除;
{B,C,E}的2项子集{B,C},{B,E}和{C,E},它的所有2项子集都是L2的元素,保留C3中。
经过Apriori算法对L2连接和剪枝后产生候选3项集的集合为C3={B,C,E}. 在对该候选商品计数,由于等于最小支持度计数2,故得频繁3-项集合L3,同时由于4-项集中仅1个,故C4为空集,算法终止。

在这里插入图片描述
如果规则R:X=>Y满足support(X=>Y)>=supmin(最小支持度)且confidence(X=>Y)>=confmin(最小置信度,它表示关联规则需要满足的最低可靠性)称关联规则X=>Y为强关联规则,否则称关联规则X=>Y为弱关联规则

15、下图是一个决策树模型图,图中的浅色椭圆表示( B )
在这里插入图片描述
A、 叶节点
B、 中间节点
C、根节点
D、 没有任何含义

图中的决策树呈现自顶向下的生长过程,深色的椭圆表示树的根节点;浅色的椭圆表示树的中间节点;方框则表示树的叶节点。

16、下列哪一项不属于描述性统计分析?( B )
A、分布分析
B、相对程度分析
C、数量指标指数
D、集中趋势分析

17、下列方法中,不属于描述统计的是( C )。
A、收集数据的方法
B、分析样本数据特征的方法
C、参数估计和假设检验的方法
D、对数据进行处理和展示的方法

C属于回归分析

18、适用于产品核心指标长期跟踪的方法是( A )
A、趋势分析
B、对比分析
C、分组分析
D、相关性分析

19、在商业上,能帮助市场分析人员从客户基本库中发现不同客户群的数据分析方法是( D )
A、RFM 分析
B、回归分析
C、相关性分析
D、聚类分析

20、下列有关决策树的说法,错误的是( A )。
A、决策树只能进行单级决策
B、决策树的分级越多,决策树图就会越复杂
C、决策树是一个从左至右依次展开的树状图
D、决策树能够使项目管理者有步骤地进行决策

多级决策树

21、关于信息熵的说法,错误的是( D )。
A、由香农提出
B、用来表示信息量的大小
C、它是由热力学中借用过来创造的
D、信息量越大,对应熵值越小

22、描述性统计量种类不包括( D )。
A、 描述变量离散程度的统计量
B、 描述变量分布情况的统计量
C、 描述变量集中趋势的统计量
D、 描述变量综合情况的统计量

23、 偏度是用来描述变量分布的对称程度和方向的统计量,偏度大于0 表示( B )。
A、 正态分布
B、 在直方图中有一条长尾拖在左边
C、 变量取值左偏
D、 在直方图中有一条长尾拖在右边

24、对比分析的原则不包括( D )
A、指标数量可比
B、指标的计算方法可比
C、 指标的时间范围可比
D、 总体性质可比

25、 分组分析的类型不包括( D )
A、 数量分组分析
B、 质量分组分析
C、 关系分组分析
D、 横向分组分析

横向分析属于对比分析

26、 RFM 分析三要素不包括( D )。
A、 客户最近一次交易时间的间隔
B、 客户在最近一段时间内交易的次数
C、 客户在最近一段时间内交易的金额
D、 客户在最近一段时间内购买物品的种类

27、 某行业市场规模预测公式为“y=20086x+30467”,关于公式中的x、y,说法正确的是( D )。
A、x 是对应年份市场规模
B、x 代指每个年份
C、y 代指对应年份的数据点
D、y 是对应年份市场规模

x指市场经营年份

28、 在统计分析中,描述变量的数据分布的陡峭程度的基本统计量是( C )
A、标准差
B、偏度
C、峰度
D、均值

29、 关于中位数,下列说法正确的是( D )
A、中位数是一组数据中,位于正中间的一个数据
B、中位数一定是一组数据中的某个数
C、一组数据的中位数是唯一的
D、中位数是一组数据中,位于正中间的一个数据或正中间两个数据的平均数

30、 描述性统计不包括下述哪一项目?( C )
A、中位数
B、平均值
C、T 检验
D、标准差

T检验为假设分析

31、 以下不属于趋势分析特点的是( D )
A、 不考虑事物发展之间的因果关系
B、 预测所依据的数据具有不规则性
C、假设事物发展趋势会延伸到未来
D、 一定要包含偶发性特殊项目的分析

32、 运用对比分析来分析趋势变化的时候,最主要的是找到合适的对比标准。目前常用标准不包括( D )
A、数据量标准
B、空间标准
C、时间标准
D、特定标准

33、以下关于分组分析的原则说法错误的是( C )
A、 总体中的每一个单位都需要归属于一组
B、 数据分组的原则是遵循不重不漏
C、分组的每一个单位可以同时属于两个或两个以上的分组
D、 分组分析原则包括无遗漏原则和排他性原则

34、 通常可根据RFM 模型将客户分为( C )个类别
A、6
B、 7
C、 8
D、 9

三角坐标系,8个象限

35、 RFM 分析中R 代表( A )
A、 客户最近一次交易时间的间隔
B、 客户在最近一段时间内交易的次数
C、 客户在最近一段时间内交易的金额
D、 客户在最近一段时间内购买物品的种类

36、 Kmeans 聚类分析中K 表示( C )
A、 总样本数
B、 每个类别样本数
C、 聚类的个数
D、 无具体含义

37、 设X= {买茶叶},Y={买咖啡},则规则”茶叶→咖啡“表示( B )
A、 买了茶叶,没买咖啡
B、 即买了茶叶,又买了咖啡
C、 没买茶叶,买了咖啡
D、 不茶叶,也不买咖啡

38、 假设数据集一共包含14 个样本,其中购买的用户有9 个,没有购买的用户有5 个,所以对于是否购
买这个事件来说,它的经验信息熵为( B )
A、 0.643
B、 0.940
C、 0.357
D、 0.556

I=-Pklog2(Pk)
在这里插入图片描述

39、以下关于信息增益正确的是( A )
A、信息增益=划分后熵-划分前熵
B、信息增益=划分前熵-划分后熵
C、信息增益就是信息熵
D、信息增益就是条件熵

信息增益G=H(D)-H(D|A)

40、项集I={A、B、C},则它可能产生最多( C )个子项集
A、 6
B、 7
C、 8
D、 9

空集

数据可视化

1、下列针对数据可视化描述错误的是( B )。
A、数据可视化是能进行交互处理的理论、方法和技术
B、数据可视化就是为了展示用户已知数据间的规律
C、数据可视化能帮助用户通过认知数据有新的发现
D、数据可视化以计算机图形学及图像处理技术为基础

数据可视化不是为了展示用户的已知的数据之间的规律,而是为了帮助用户通过认知数据有新的发现,发现这些数据所反映的实质。

2、商务数据可视化是使用( D )来进行商务数据的可视化。
A、可视化理论
B、可视化方法
C、可视化技术
D、以上都是

3、ZB 相当于( C )个TB。
A、一千
B、一百万
C、十亿
D、十万

4、结构化数据便于储存以( B )为主的数据。
A、音频
B、文本
C、视频
D、图片

5、下列不属于大数据与数据的区别是( C )。
A、数据量
B、数据范围
C、数据价值
D、数据类型

6、下列对大数据高速性的说法不正确的是( C )。
A、大数据应该进行实时分析
B、大数据的数据输入应无延迟
C、大数据应该进行批量分析
D、大数据的处理与丢弃即刻见效

7、数据可视化的作用是( D )。
A、数据表达
B、数据操作
C、数据分析
D、以上都是

8、变量之间的一般关系是( D )。
A、正相关
B、负相关
C、不相关
D、以上都是

9、商务数据可视化是以( D )为主线的一个完整流程。
A、资金流
B、时间流
C、信息流
D、数据流

10、商务数据可视化的步骤是( B )。
①数据处理和变换②数据采集③人机交互④可视化映射⑤用户感知
A、①②③④⑤
B、②①④③⑤
C、①②④③⑤
D、②①③④⑤

11、下列属于反映比例关系的可视化图表的是( B )。
A、散点图
B、旭日图
C、热力图
D、气泡图

12、以下属于可视化映射要素的是( D )。
A、标记
B、可视化空间
C、视觉通道
D、以上都是

13、下列关于数据可视化步骤的说法错误的是( A )。
A、可视化结果无需用户感知,就会自己转化为知识和灵感
B、可视化映射是整个数据可视化流程的核心
C、用户在感知过程中,可主动获取信息
D、按数据来源分,数据采集可分为内部数据采集和外部数据采集

14、以下哪一项表示商务数据可视化的最外层( D )。
A、编码层
B、抽象层
C、算法层
D、问题刻画层

最外层(第一层)是刻画真实用户的问题,称为 问题刻画层。
第二层是 抽象层,将特定领域的任务和数据映射到抽象且通用的任务及数据类型。
第三层是 编码层,设计与数据类型相关的视觉编码及交互方法。
最内层(第四层)的任务是 创建正确完成系统设计的算法。

15、商务数据可视化的第二层需要完成的任务( D )。
A、实现算法和交互
B、设计编码和交互方法
C、概括现实生活中用户遇到的问题
D、抽象相应数据类型的操作

16、下列属于层次和网络数据可视化的图是( B )。
A、热图
B、 弧长连接图
C、盒须图
D、多层堆积百分比图

17、作为电商企业,以下( D )图可以有效地提供不同商品的销售和趋势情况。
A、饼图
B、分组直方图
C、气泡图
D、条形图和线图的组合图

18、研究表明,人的各种感觉器官从外界获得的信息中,视觉信息占60%,听觉信息占20%,触觉信息占
15%,味觉信息占3%,嗅觉信息占2%。用图表直观形象地描述这一研究成果,宜选用( D )。
A. 雷达图
B. 散点图
C. 拆线图
D. 饼图

19、非结构化数据包括( D )。
A、网络日志
B、音频
C、图片
D、以上都是

20、下列哪项属于可视化编程工具( C )。
A、Microsoft Excel
B、Google Spreadsheets
C、Python
D、Tableau

21、使用以下哪种可视化工具不需要编程基础( B )
A、d3js
B、Tableau
C、Vega
D、Processing

22、数据可视化的目标有( D )。
A、揭示事物内部客观规律以及数据间的内在联系
B、有效呈现数据中的重要特征
C、提高科研开发效率
D、以上都是

23、对于时间序列数据,用于描述其变化趋势的图形通常是( A )。
A、 线图
B、 条形图
C、 茎叶图
D、 直方图

24、根据数据的不同类型可将可视化差异性分为( D )。
①时间数据可视化
②关系数据可视化
③文本数据可视化
④比例数据可视化
A、①②
B、①②③
C、②③④
D、①②③④

25、下面那个图形不适合描述分类数据( B )。
A、饼图
B、茎叶图
C、条形图
D、帕累托图

26、为了研究多个不同变量在不同样本间的相似性,适合采用的图形是( C )。
A、 茎叶图
B、 环形图
C、 雷达图
D、 箱线图

27、下列哪些图表适合表现比例数据( D )。
A、饼图
B、环形图
C、矩形树图
D、以上都是

28、对于大批量的数据,最适合于描述其分布的图形是( D )
A、饼图
B、 条形图
C、 茎叶图
D、 直方图

29、下列哪些图表适合表现关系数据( D )。
A、散点图
B、气泡图
C、茎叶图
D、以上都是

30、以下哪种方法能够可视化统计的结果( A )
A、盒须图
B、直方图
C、柱状图
D、走势图

31、文本可视化的作用( D )。
A、能通过试卷符号的形式表达文本内容
B、能结合机器智能和人工智能
C、能使人类视觉认知能力得到发挥
D、以上都是

32、下列哪项不是基于关键词的文本内容可视化方法( A )。
A、 词嵌入
B、 标签云
C、 文档散
D、 文档卡片

词嵌入 (Word Embedding)是一种将文本中的词转换成数字向量的方法

33、文本关系可视化的目的是呈现( D )。
A、文本间关系有词语的前后关系
B、文本间关系有网页之间的超链接关系
C、文本间内容的相似性
D、以上都是

34、时间所具备的特征不包括( D )。
A、周期性
B、有序性
C、无序性
D、结构性

35、以下哪些职业需要文本可视化( D )。
A、情感分析员
B、情报分析人员
C、网络内容分析人员
D、以上都是

36、可视化和其他数据分析处理方法最大的不同是用户起到了关键作用,可视化映射后的结果只有通过( B )
才能转换成知识和灵感。
A、可视化映射
B、用户感知
C、数据处理与变换
D、其它三个选项都是

37、下列哪一个不属于可视化三部曲?( A )。
A、可视化代码实现
B、视图与交互设计
C、可展示数据筛选
D、可视化编码映射

38、数据可视化的目标有哪些( D )。
A、有效呈现重要特征
B、辅助理解事物概念和过程
C、对模拟和测量进行质量监控
D、以上都是

39、关于数据可视化的说法,错误的是( C )。
A、数据可视化包含科学可视化和信息可视化两个重点分支
B、数据可视化借助图形化手段清晰有效地传达与沟通信息
C、数据可视化传达的信息比较复杂,需要专业解读
D、科学可视化面向科学与工程领域数据

40、 可视分析学涉及到的学科包括( D )。
①计算机图形学
②数据挖掘
③人机交互
④统计分析
A、①②
B、①②③
C、②③④
D、①②③④

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐