第1章单元测验1、单选(2分):下面关于数据的说法,错误的是:DA.数据的根本价值在于可以为人们找出答案B.数据的价值会因为不断重组而产生更大的价值C.目前阶段,数据的产生不以人的意志为转移D.数据的价值会因为不断使用而削减2、单选(2分):第3次信息化浪潮的标志是: DA.人工智能的普及B.个人计算机的普及C.互联网的普及D.云计算、大数据和物联网技术的普及3、单选(2分)?:物联网的发展最终导致了人类社会数据量的第三次跃升,使得数据产生方式进入了: CA.手工创建阶段B.用户原创内容阶段C.感知式系统阶段D.运营式系统阶段4、单选(2分):?英国的大数据发展战略是:AA.紧抓大数据产业机遇,应对脱欧后的经济挑战B.通过发展创新性解决方案并应用于实践来促进大数据发展C.稳步实施“三步走”战略,打造面向未来的大数据创新生态D.以大数据等技术为核心应对第四次工业革命5、单选(2分):以下哪个不是大数据的“4V”特性: DA.数据量大B.处理速度快C.数据类型繁多D.价值密度高6、多选(3分)?:数据的类型主要包括:ABCDA.文本B.音频C.视频D.图片7、多选(3分):计算机系统中的数据组织形式主要有两种,分别是:BDA.视频B.文件C.音频D.数据库8、多选(3分):?为了让数据变得可用,需要对数据进行三个步骤的处理,分别是:BCDA.数据抽样B.数据管理C.数据清洗D.数据分析9、多选(3分):信息科技为大数据时代提供技术支撑,主要体现在哪三个方面:ACDA.网络带宽不断增加B.量子计算机全面普及C.存储设备容量不断增加D.CPU处理能力大幅提升10、多选(3分):人类社会的数据产生方式大致经历了哪三个阶段:ABDA.运营式系统阶段B.用户原创内容阶段C.手工生产阶段D.感知式系统阶段11、多选(3分):关于“大数据摩尔定律”,以下说法正确的是:BCDA.人类社会的数据量以每年10%的速度增长B.人类社会产生的数据一直都在以每年50%的速度增长C.人类社会的数据量大约每两年就增加一倍D.人类在最近两年产生的数据量相当于之前产生的全部数据量之和12、多选(3分):人类自古以来在科学研究上先后历经了哪几种范式:ABCDA.数据密集型科学B.计算科学C.理论科学D.实验科学13、多选(3分):大数据将会对社会发展产生深远的影响,具体表现在以下哪几个方面:ABCDA.大数据应用促进信息技术与各行业的深度融合B.大数据成为提升国家治理能力的新途径C.大数据决策成为一种新的决策方式D.大数据开发推动新技术和新应用的不断涌现14、多选(3分):大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。以下哪些属于大数据产业的某个环节:ABCDA.数据分析层B.数据源层C.数据管理层D.IT基础设施层第2章单元测验1、单选(2分):早期的云计算产品AWS是由哪家企业提出的: DA.谷歌B.微软C.IBMD.亚马逊2、单选(2分):云计算包括3种类型。面向所有用户提供服务,只要是注册付费的用户都可以使用,这种云计算属于:BA.混合云B.公有云C.私有云D.独立云3、单选(2分):?云计算包括3种类型。只为特定用户提供服务,比如大型企业出于安全考虑自建的云环境,只为企业内部提供服务,这种云计算属于:AA.私有云B.混合云C.独立云D.公有云4、单选(2分):?以下关于大数据、云计算和物联网的区别,描述错误的是:AA.云计算旨在从海量数据中发现价值,服务于生产和生活B.大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活C.云计算本质上旨在整合和优化各种IT资源并通过网络以服务的方式,廉价地提供给用户D.物联网的发展目标是实现物物相连,应用创新是物联网发展的核心5、单选(2分)?:以下关于机器学习,描述错误的是:BA.研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能B.机器学习强调三个关键词:算法、模型、训练C.是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科D.基于数据的机器学习是现代智能技术中的重要方法之一6、单选(2分):以下关于知识图谱,描述错误的是:DA.又称为科学知识图谱B.知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域C.在图书情报界称为知识域可视化或知识领域映射地图D.知识图谱属于密码学研究范畴7、单选(2分):以下关于人机交互,描述错误的是:DA.系统可以是各种各样的机器,也可以是计算机化的系统和软件B.人机交互是一门研究系统与用户之间的交互关系的学科C.用户通过人机交互界面与系统交流,并进行操作D.人机交互界面通常是指用户不可见的部分8、单选(2分):?以下关于计算机视觉,描述错误的是:DA.计算机视觉是一门综合性的学科B.计算机视觉是一门研究如何使机器“看”的科学C.是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量的机器视觉D.语音识别属于计算机视觉的典型应用9、单选(2分):关于大数据与区块链的联系,下面描述错误的是:AA.区块链会提升大数据的信用成本B.区块链是构建大数据时代的信任基石C.区块链使大数据极大降低信用成本D.区块链是促进大数据价值流通的管道10、多选(3分):传统的IT资源获取方式的主要缺点是:BCDA.IT资源供应量无限B.IT资源供应量有限C.初期成本高,建设周期长D.后期需要自己维护,使用成本高11、多选(3分):云计算的主要优点是:ABCA.初期零成本,瞬时可获得B.在供应IT资源量方面“予取予求”C.后期免维护,使用成本低D.初期投入大,需要用户自己维护12、多选(3分):云计算包括哪3种典型的服务模式:ABDA.PaaS(平台即服务)B.IaaS(基础设施即服务)C.MaaS(机器即服务)D.SaaS(软件即服务)13、多选(3分):从技术架构上看,物联网主要包括哪几层:ABCDA.网络层B.处理层C.应用层D.感知层14、多选(3分):?以下关于大数据、云计算和物联网的联系,描述正确的是:ABCDA.大数据为云计算提供了“用武之地”B.物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理C.大数据根植于云计算,大数据分析的很多技术都来自于云计算D.从整体上看,大数据、云计算和物联网这三者是相辅相成的15、多选(3分):以下关于大数据与人工智能的联系,描述正确的是:ABCDA.人工智能应用的数据越多,其获得的结果就越准确B.人工智能需要数据来建立其智能,特别是机器学习C.大数据技术为人工智能提供了强大的存储能力和计算能力D.大数据为人工智能提供了海量的数据,使得人工智能技术有了长足的发展16、多选(3分)?:下面关于比特币和区块链之间关系的描述,正确的是:ACA.区块链是比特币的底层技术B.比特币是比区块链更先进的一种技术C.比特币是区块链的一种应用D.比特币和区块链没有任何关系17、多选(3分):比特币要解决的两个核心问题是:ADA.防篡改B.防贬值C.防丢失D.去中心化记账18、多选(3分):在比特币区块链中关于如何争夺记账权的问题,下面描述正确的是:ABCDA.解题的过程,又叫“挖矿”,记账节点被称为矿工。谁先解对,谁就获得记账权B.记账节点通过计算数学题,来争夺记账权C.采用的是POW机制,也就是“工作量证明机制”D.对于数学公式的计算,除了从零开始遍历随机数碰运气以外,没有其他办法19、多选(3分):区块链的三要素是:ABCA.链B.交易C.区块D.比特币 第3章单元测验1、单选(2分)?:下面关于大数据安全问题,描述错误的是:CA.大数据成为国家之间博弈的新战场B.大数据的价值并不单纯地来源于它的用途,而更多地源自其二次利用C.大数据对于国家安全没有产生影响D.对大数据的收集、处理、保存不当,会加剧数据信息泄露的风险2、单选(2分):?下面关于棱镜门事件描述错误的是:CA.棱镜计划(PRISM) 是一项由美国国家安全局(NSA)自2007 年起开始实施的绝密电子监听计划B.该计划对全世界重点地区、部门、公司甚至个人进行布控C.该计划的目的是为了促进世界和平与发展D.在该计划中,美国国家安全局和联邦调查局利用平台和技术上的优势,开展全球范围内的监听活动3、单选(2分)?:下面关于手机软件采集个人信息的描述错误的是:B?A.手机APP过度采集个人信息呈现普遍趋势,最突出的是在非必要的情况下获取位置信息和访问联系人权限B.在微信朋友圈广泛传播的各种测试小程序是安全的,不会窃取用户个人信息C.在我们的日常生活中,部分手机APP往往会“私自窃密”D.有的APP在提供服务时,采取特殊方式来获得用户授权,这本质上仍属“未经同意”4、单选(2分):下面描述错误的是:CA.许多顾客在使用WiFi之后会收到大量的广告信息,甚至自己的手机号码也会被当做信息进行多次买卖B.在免费上网的背后,其实也存在着不小的信息安全风险,或许一不小心,就落入了电脑黑客们设计的WiFi陷阱之中C.免费WIFI都是安全的,可以放心使用D.“探针盒子”就是一款自动收集用户隐私的产品5、单选(2分):下面关于机械思维的核心思想,描述错误的是:DA.这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践B.规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚C.世界变化的规律是确定的D.世界变化的规律是无法确定的6、单选(2分):我们在使用智能手机进行导航来避开城市拥堵路段时,体现了哪种大数据思维方式:BA.相关而非因果B.我为人人,人人为我C.效率而非精确D.全样而非抽样7、单选(2分):?谷歌采用搜索引擎大数据进行流感趋势预测,体现了哪种大数据思维方式:BA.相关而非因果B.全样而非抽样C.我为人人,人人为我D.效率而非精确8、单选(2分):“啤酒与尿布”的故事,体现了哪种大数据思维方式:AA.相关而非因果B.效率而非精确C.我为人人,人人为我D.全样而非抽样9、单选(2分):?大数据的简单算法比小数据的复杂算法更有效,体现了哪种大数据思维方式:DA.相关而非因果B.全样而非抽样C.效率而非精确D.以数据为中心10、单选(2分):?迪士尼MagicBand手环,体现了哪种大数据思维方式:AA.我为人人,人人为我B.效率而非精确C.全样而非抽样D.相关而非因果11、单选(2分):下面关于大数据伦理的描述,错误的是:CA.大数据伦理问题是指由于大数据技术的产生和使用而引发的社会问题B.作为一种新的技术,大数据技术像其他所有技术一样,其本身是无所谓好坏的,而它的“善”与“恶”全然在于对大数据技术的使用者C.大数据技术本身就存在“善”和“恶”的区分D.大数据伦理属于科技伦理的范畴12、单选(2分):现在的互联网,基于大数据和人工智能的推荐应用越来越多,越来越深入,我们一直被“喂食着”经过智能化筛选推荐的信息,久而久之,会导致什么问题:AA.信息茧房问题B.隐私泄露问题C.大数据杀熟问题D.隐形偏差问题13、单选(2分):下面哪一个不属于大数据伦理问题:CA.数据安全问题B.隐私泄露问题C.数据冗余问题D.数字鸿沟问题14、单选(2分):下面关于政府数据孤岛描述错误的是:AA.即使涉及到工作机密、商业机密,政府也应该毫不保留地共享数据B.有些政府部门错误地将数据资源等同于一般资源,认为占有就是财富,热衷于搜集,但不愿共享C.有些部门只盯着自己的数据服务系统,结果因为数据标准、系统接口等技术原因,无法与外单位、外部门联通D.有些地方,对大数据缺乏顶层设计,导致各条线、各部门固有的本位主义作祟,壁垒林立,数据无法流动15、单选(2分):?关于推进数据共享开放的描述,错误的是:DA.要改变政府职能部门“数据孤岛”现象,立足于数据资源的共享互换,设定相对明确的数据标准,实现部门之间的数据对接与共享B.要使不同省区市之间的数据实现对接与共享,解决数据“画地为牢”的问题,实现数据共享共用C.在企业内部,破除“数据孤岛”,推进数据融合D.不同企业之间,为了保护各自商业利益,不宜实现数据共享16、单选(2分):下面关于数据权的描述,错误的是:AA.数据主权的主体是公民,是相对应于公民数据采集义务而形成的对数据利用的权利B.数据权的概念发起于英国,主要将其视为信息社会的一项基本公民权利C.数据权包括两个方面:数据主权和数据权利D.数据主权的主体是国家,是一个国家独立自主对本国数据进行管理和利用的权力17、单选(2分):下面关于政府信息公开与政府数据开放的描述,错误的是:BA.政府数据开放强调的是数据的再利用,公众可以分享数据利用创造的经济和社会价值B.信息是没有经过任何加工与解读的原始记录,没有明确的含义,而数据则是经过加工处理并被赋予一定含义的C.政府信息公开与政府数据开放是一对既相互区别又相互联系的概念D.政府信息公开主要是为了对公众知情权的满足而出现的18、单选(2分):?关于公民的隐私权,下面描述错误的是:CA.支配权是隐私权利人的基本权利之一,隐私权利人对自己的个人信息的收集、储存、传播、使用、开放等享有支配权B.保障权是指公民有权要求政府在数据开放的过程中保障涉及其个人隐私的信息资料不被开放、不被滥用和不被泄露C.修改权是隐私权利人具有的依法了解自身信息资料是否被行政主体利用的权利D.救济权是公民在自身的合法权益受到侵害时,按照法定程序采取法律手段维护自身权益的权利19、单选(2分):关于大数据交易在发展过程中遇到的问题,下面描述错误的是:AA.数据质量评价与估值定价已经很完善B.大数据交易规则和标准缺乏C.市场信用体系缺失、监管有待加强D.互联网数据马太效应显现20、单选(2分):目前大数据交易市场上存在很多种定价机制,但是不包括以下哪项:BA.自动计价B.随机性定价C.拍卖式定价D.平台预定价21、单选(2分):我国首家大数据交易所是:BA.华东江苏大数据交易中心B.贵阳大数据交易所C.上海数据交易中心D.浙江大数据交易中心22、多选(3分)?:传统的数据安全的威胁主要包括:ABDA.计算机病毒B.黑客攻击C.数据复制D.数据信息存储介质的损坏23、多选(3分):大数据安全表现出与传统数据安全不同的特征,具体来说包括哪几个方面:ABCDA.大数据技术被应用到攻击手段中B.大数据加大隐私泄露风险C.大数据成为网络攻击的显著目标D.大数据成为高级可持续攻击(APT)的载体24、多选(3分):舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中明确指出,大数据时代最大的转变就是思维方式的3种转变,具体包括:ABCA.相关而非因果B.效率而非精确C.全样而非抽样D.务实而非务虚25、多选(3分):下面关于搜索引擎“点击模型”的描述正确的是:ABCDA.当整个搜索行业都意识到点击数据的重要性后,这个市场上的竞争就从技术竞争变成了数据竞争B.一个搜索引擎使用的时间越长,数据的积累就越充分,对于长尾搜索就做得越准确C.点击模型的准确性取决于数据量的大小D.随着数据量的积累,点击模型对搜索结果排名的预测越来越准确,它的重要性也越来越大26、多选(3分):下面关于隐私泄露问题的描述,正确的是:ABCDA.“数据痕迹”往往永远无法彻底消除,会被永久保留记录B.大数据时代下的隐私与传统隐私的最大区别在于隐私的数据化,即隐私主要以“个人数据”的形式出现C.通过数据预测,可以预测个体“未来的隐私”D.用户在使用搜索引擎时,搜索引擎可以精确地刻画出该用户的“数字肖像”27、多选(3分):?下面关于数字鸿沟问题的描述,正确的是:BCDA.数字鸿沟因为大数据技术的诞生而趋向弥合B.数字鸿沟是一个涉及公平公正的问题C.在我国,东中西部地区、城乡之间等都可以明显感受到数字鸿沟的存在D.数字鸿沟被认为是信息时代的“马太效应”,即先进技术的成果不能为人公正分享,于是造成“富者越富、穷者越穷”的情况28、多选(3分):下面关于数据独裁的描述,正确的是:ABCDA.所谓的“数据独裁”是指在大数据时代,由于数据量的爆炸式增长,导致做出判断和选择的难度徒增,迫使人们必须完全依赖数据的预测和结论才能做出最终的决策B.数据独裁最终将导致人类思维被“空心化”,进而是创新意识的丧失C.数据独裁还可能使人们丧失了人的自主意识、反思和批判的能力,最终沦为数据的奴隶D.从某个角度来讲,数据独裁就是让数据统治人类,使人类彻底走向唯数据主义29、多选(3分):因数据而产生的垄断问题,主要包括哪几种类型:ABCDA.拥有大数据形成市场支配地位并滥用B.数据可能造成进入壁垒或扩张壁垒C.因数据产品而形成市场支配地位并滥用D.涉及数据方面的垄断协议30、多选(3分):企业数据孤岛产生的原因主要包括哪两个方面:CDA.各个部门责权利不清晰B.机构设置不合理C.以功能为标准的部门划分导致数据孤岛D.不同类型、不同版本的信息化管理系统导致数据孤岛31、多选(3分)?:消除数据孤岛对于政府具有哪些重要的意义:ABCDA.有助于提升资源利用率B.有助于促进跨部门合作C.有助于推动政府转型D.有助于提高行政效率32、多选(3分):消除数据孤岛对于企业具有哪些重要的意义:ACDA.企业信息的增多可以增加做出正确选择的能力,从而提高经济效率B.不利于企业长远的发展C.有助于企业做出有利于生产要素组合优化的决策,使企业能够合理配置资源,实现企业利益最大化D.有利于企业获得更好的经营发展能力33、多选(3分)?:实现数据共享,在政府层面面临的挑战包括:ABCDA.不敢共享开放B.数据中心共享开放作用不强C.不愿共享开放D.不会共享开放34、多选(3分):实现数据共享,在企业层面面临的挑战包括:ABCA.系统孤岛挑战B.组织架构挑战C.数据合作挑战D.利润风险挑战35、多选(3分):?关于政府数据开放的意义,下面描述正确的是:ACDA.政府开放数据有利于创新创业和经济增长B.政府开放数据将会对政府正常运作产生威胁C.政府开放数据有利于促进开放透明政府的形成D.政府开放数据有利于社会治理创新36、多选(3分)?:目前进行数据交易的形式主要包括哪几种:BCDA.PPT模式B.API 模式C.数据交易所D.大数据交易公司37、多选(3分):大数据交易平台的类型主要包括哪两种:BDA.实时数据交易平时B.综合数据服务平台C.零散数据交易平台D.第三方数据交易平台38、多选(3分):交易数据的来源主要包括哪些:ABCDA.政府公开数据B.网页爬虫数据C.企业内部数据D.数据供应方数据39、多选(3分):?大数据交易产品的类型主要包括哪几种:ABCDA.云服务B.解决方案C.数据包D.API40、多选(3分):?大数据交易平台的运营模式主要包括哪两种:ACA.只具备中介功能的交易平台B.只具备数据处理加工功能的交易平台C.兼具中介和数据处理加工功能的交易平台D.具有交易实时显示功能的交易平台41、多选(3分):可以从哪些维度评价数据价值:ABCDA.数据完整性B.数据样本量C.数据实时性D.数据品种第4章单元测验1、单选(2分):下面关于推荐系统的描述错误的是:AA.推荐系统是一种只能通过专家进行人工推荐的系统B.推荐系统可发现用户的兴趣点,帮助用户从海量信息中去发掘自己潜在的需求C.推荐系统是自动联系用户和物品的一种工具D.和搜索引擎相比,推荐系统通过研究用户的兴趣偏好,进行个性化计算2、单选(2分)?:以下推荐方法中,哪一个是基于内容的推荐:BA.由资深的专业人士来进行物品的筛选和推荐B.通过机器学习的方法去描述内容的特征,并基于内容的特征来发现与之相似的内容C.基于统计信息进行推荐D.对多种推荐算法进行有机组合,然后给出推荐结果3、单选(2分):以下哪项不属于大数据在城市管理中的应用:BA.城市规划B.比赛预测C.环保监测D.智能交通4、单选(2分)?:以下哪项不属于大数据在零售领域的应用:DA.供应链管理B.发现关联购物行为C.客户群体划分D.大数据征信5、多选(3分):?一个完整的推荐系统通常包括哪3个组成模块:BCDA.可视化模块B.推荐算法模块C.推荐对象建模模块D.用户建模模块6、多选(3分):智慧医疗具有哪些优点:ABCDA.避免患者重复检查B.促进医疗智能化C.促进优质医疗资源的共享D.有助于实现全民免费医疗7、多选(3分):下面关于智能物流的描述,正确的是:ABCDA.又称智慧物流,是利用智能化技术,使物流系统能模仿人的智能,具有思维、感知、学习、推理判断和自行解决物流中某些问题的能力B.智能物流概念源自2010年IBM发布的研究报告《智慧的未来供应链》C.可以帮助实现物流资源优化调度和有效配置,并且提升物流系统效率D.智能物流概念经历了自动化、信息化、网络化3个发展阶段8、多选(3分)?:智能物流具有哪几个方面的重要作用:ACDA.提高物流活动的一体化B.提高了物流的复杂性C.提高物流的信息化和智能化水平D.降低物流成本和提高物流效率9、多选(3分):大数据在金融领域的应用主要包括:ABCDA.市场情绪分析B.高频交易C.信贷风险分析D.大数据征信10、多选(3分):大数据在餐饮行业的应用主要包括:ABCDA.利用大数据为用户推荐消费内容B.利用大数据控制店内人流量C.大数据驱动的团购模式D.利用大数据调整线下门店布局第5章单元测验1、单选(2分):?以下哪个步骤不属于数据的采集与预处理:CA.利用ETL工具将分布的、异构数据源中的数据,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中B.利用网页爬虫程序到互联网网站中爬取数据C.对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据D.利用日志采集工具把实时采集的数据作为流计算系统的输入,进行实时处理分析2、单选(2分):?以下哪项不属于数据清洗的内容:AA.精确度校验B.一致性检查C.无效值和缺失值的处理D.成对删除3、单选(2分)?:以下哪个不是Flume的核心组件:AA.数据块(Block)B.数据通道(Channel)C.数据槽(Sink)D.数据源(Source)4、单选(2分):下面关于网络爬虫的描述错误的是:CA.为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分B.网络爬虫是一个自动提取网页的程序C.网络爬虫的行为和人们访问网站的行为是完全不同的D.爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件5、单选(2分):下面关于网络爬虫的描述错误的是:AA.属于同一个控制节点下的各爬虫节点间不可以互相通信B.网络爬虫由控制节点、爬虫节点和资源库构成C.网络爬虫中可以有多个控制节点,每个控制节点下可以有多个爬虫节点D.控制节点之间可以互相通信,控制节点和其下的各爬虫节点之间也可以进行互相通信6、单选(2分):?以下哪个不是Scrapy体系架构的组成部分:BA.爬虫(Spiders)B.支持者(Support)C.Scrapy引擎(Engine)D.下载器(Downloader)7、单选(2分):下面关于反爬机制描述错误的是:CA.如果既要和“网络爬虫”死磕,又要保证很低的误伤率,那么又会增加网站研发的成本B.简单低级的网络爬虫,数据采集速度快,伪装度低,如果没有反爬机制,它们可以很快地抓取大量数据,甚至因为请求过多,造成网站服务器不能正常工作,影响了企业的业务开展C.反爬机制不利于信息的自由流通,不利于网站发展,应该坚决取消D.反爬机制也是一把双刃剑,一方面可以保护企业网站和网站数据,但是,另一方面,如果反爬机制过于严格,可能会误伤到真正的用户请求8、单选(2分)?:假设有一个数据集X={4,8,15,21,21,24,25,28,34},这里采用基于平均值的等高分箱方法对其进行平滑处理,则分箱处理结果是:DA.{8,8,8,22,22,22,29,29,29}B.{9,9,9,22,22,22,28,28,28}C.{9,9,9,21,21,21,29,29,29}D.{9,9,9,22,22,22,29,29,29}9、单选(2分):?假设属性的最大值和最小值分别是87000元和11000元,现在需要利用Min-Max规范化方法,将“顾客收入”属性的值映射到0~1 的范围内,则“顾客收入”属性的值为72400元时,对应的转换结果是:CA.0.987B.0.837C.0.808D.0.76910、单选(2分):假设A班级的平均分是80,标准差是10,A考了90分;B班的平均分是400,标准差是100,B考了600分。采用Z-Score规范化以后,二者谁的成绩更加优秀:DA.二者一样优秀B.无法比较C.A的成绩更为优秀D.B的成绩更为优秀11、单选(2分)?:假设属性的取值范围是-957~924,当属性的值为426时,采用小数定标规范化方法对应的转换结果是:BA.0.433B.0.426C.0.421D.0.48912、多选(3分):?数据采集的三大要点是:ACDA.高效性B.精确性C.全面性D.多维性13、多选(3分):数据采集的主要数据源包括:ABCDA.互联网数据B.日志文件C.企业业务系统数据D.传感器数据14、多选(3分):需要清洗的数据的主要类型包括:ACDA.残缺数据B.干净数据C.重复数据D.错误数据15、多选(3分):典型的数据采集方法包括:ABCDA.ETLB.系统日志采集C.网络数据采集D.分布式消息订阅分发16、多选(3分):?Kafka的架构包括哪些组件:ABCDA.话题(Topic)B.服务代理(Broker)C.生产者(Producer)D.消费者(Consumer)17、多选(3分):网络爬虫的类型主要包括:ABCDA.深层网络爬虫B.通用网络爬虫C.增量式网络爬虫D.聚焦网络爬虫18、多选(3分):常见的数据转换策略包括:ABCDA.规范化处理B.聚集处理C.平滑处理D.数据泛化处理19、多选(3分):常用的规范化处理方法包括:ACDA.Min-Max规范化B.曲面规范化C.Z-Score规范化D.小数定标规范化20、多选(3分)?:数据脱敏的主要原则包括:ABCDA.保持业务规则的关联性B.多次脱敏之间的数据一致性C.保持原有数据特征D.保持数据之间的一致性21、多选(3分):数据脱敏的方法主要包括:ABCDA.随机化B.数据替换C.偏移和取整D.无效化第6章单元测验1、单选(2分):以下哪项不属于传统的数据存储和管理技术:AA.NoSQL数据库B.数据仓库C.文件系统D.关系数据库2、单选(2分):以下关于分布式文件系统,描述错误的是:DA.是一种通过网络实现文件在多台主机上进行分布式存储的文件系统B.谷歌开发了分布式文件系统GFSC.Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是针对GFS的开源实现D.所有的分布式文件系统的设计都是采用“客户机/服务器”(Client/Server)模式3、单选(2分):?以下描述错误的是:CA.传统的关系数据库由于数据模型不灵活、水平扩展能力较差等局限性,已经无法满足各种类型的非结构化数据的大规模存储需求B.Web 2.0的迅猛发展以及大数据时代的到来,使关系数据库的发展越来越力不从心C.传统关系数据库引以为豪的一些关键特性,如事务机制和支持复杂查询,在Web 2.0时代成为不可或缺的核心特性D.传统的关系数据库可以较好地支持结构化数据存储和管理4、单选(2分)?:以下关于NoSQL数据库描述错误的是:DA.与关系数据库相比,NoSQL具有灵活的水平可扩展性,可以支持海量数据存储B.NoSQL所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型C.NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称D.NoSQL数据库有固定的表结构,通常存在较多连接操作5、单选(2分):?在数据库的发展历史上,先后出现过多种数据库类型,但是,不包括:DA.关系数据库B.层次数据库C.网状数据库D.球形数据库6、单选(2分):下面关于关系数据库特点的描述,错误的是:AA.关系数据库采用非结构化查询语言来对数据库进行查询B.由于关系数据库将数据存储在数据表中,数据操作的瓶颈出现在多张数据表的操作中,而且数据表越多这个问题越严重C.为了规范化数据、减少重复数据以及充分利用好存储空间,把数据按照最小关系表的形式进行存储D.采用表格的储存方式,数据以行和列的方式进行存储,要读取和查询都十分方便7、单选(2分):?下面关于NewSQL数据库的描述,错误的是:BA.都支持关系数据模型B.不同的NewSQL数据库的内部结构基本相同C.NewSQL数据库保持了传统数据库支持ACID和SQL等特性D.都使用SQL作为其主要的接口8、单选(2分):下面关于Hadoop的描述错误的是:AA.Hadoop只支持Java编程语言B.Hadoop可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点上C.Hadoop是一个能够对大量数据进行分布式处理的软件框架D.作为并行分布式计算平台,Hadoop采用分布式存储和分布式处理两大核心技术,能够高效地处理PB级数据9、单选(2分):下面哪个不是Hadoop生态系统的组件:CA.MapReduceB.HBaseC.SQL ServerD.HDFS10、单选(2分):下面组件哪个是负责在Hadoop和关系数据库之间实现数据导入导出的:DA.MySQLB.FlumeC.HDFSD.Sqoop11、单选(2分):?下面组件哪个是负责分布式资源调度与管理的:DA.ZookeeperB.FlumeC.KafkaD.YARN12、单选(2分):下面组件哪个是数据挖掘库:BA.ZookeeperB.MahoutC.MySQLD.HBase13、单选(2分):下面组件哪个是负责日志收集的:AA.FlumeB.AmbariC.ZookeeperD.HDFS14、单选(2分):下面组件哪个是负责Hadoop集群的安装、部署、配置和管理的:CA.KafkaB.FlumeC.AmbariD.YARN15、单选(2分):下列哪一项不属于NoSQL的四大类型:DA.文档数据库B.列族数据库C.图数据库D.时间戳数据库16、单选(2分):下列关于键值数据库的描述,哪一项是错误的:AA.条件查询效率高B.扩展性好,灵活性好C.大量写操作时性能高D.无法存储结构化信息17、单选(2分):下列关于列族数据库的描述,哪一项是错误的:CA.复杂性低B.容易进行分布式扩展C.查找速度慢,可扩展性差D.功能较少,大都不支持强事务一致性18、单选(2分):关于文档数据库的说法,下列哪一项是错误的:DA.复杂性低B.缺乏统一的查询语法C.性能好(高并发)D.数据是规则的19、单选(2分):?下列关于云数据库的描述,哪个是错误的?CA.云数据库是部署和虚拟化在云计算环境中的数据库B.云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法C.云数据库价格不菲,维护费用极其昂贵D.云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点20、单选(2分):下列哪一个不属于云数据库产品?AA.本地安装MySQLB.Oracle CloudC.阿里云RDSD.百度云数据库21、单选(2分):下面哪一项不是云数据库的特性?DA.动态可扩展B.大规模并行处理C.易用性D.高成本22、单选(2分)?:下列关于BigTable的描述,哪个是错误的?AA.爬虫持续不断地抓取新页面,这些页面每隔一段时间地存储到BigTable里B.网络搜索应用查询建立好的索引,从BigTable得到网页C.BigTable起初用于解决典型的互联网搜索问题D.BigTable是一个分布式存储系统23、多选(3分):数据仓库的特性包括:ABCDA.相对稳定的B.集成的C.面向主题的D.反映历史变化的24、多选(3分)?:NoSQL数据库具有以下几个特点:ACDA.灵活的可扩展性B.数据模型比较死板C.与云计算紧密融合D.灵活的数据模型25、多选(3分):一个典型的数据仓库系统通常包含哪几个组成部分:ABCDA.前端工具和应用B.数据源C.OLAP服务器D.数据存储和管理26、多选(3分):下面关于并行数据库的描述正确的是:ABCA.并行数据库的另一个问题就是系统的容错性较差B.大部分采用了关系数据模型并且支持SQL语句查询C.并行数据库是指那些在无共享的体系结构中进行数据操作的数据库系统D.并行数据库系统具有较好的弹性27、多选(3分):Hadoop的特性主要包括:BCDA.成本高B.高容错性C.高可扩展性D.高可靠性28、多选(3分):HDFS要实现哪些设计目标:ACDA.强大的跨平台兼容性B.复杂的文件模型C.流数据读写D.兼容廉价的硬件设备29、多选(3分):HDFS的局限性包括:ABDA.不适合低延迟数据访问B.不支持多用户写入及任意修改文件C.无法用于大规模数据存储D.无法高效存储大量小文件30、多选(3分):?下面关于HDFS的体系结构描述正确的是:BCDA.名称节点会周期性地向数据节点发送“心跳”信息,报告自己的状态B.名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问C.集群中的数据节点一般是一个节点运行一个数据节点进程,负责处理文件系统客户端的读/写请求D.HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点和若干个数据节点31、多选(3分):下列关于文档数据库的描述,哪些是正确的?CDA.文档数据库支持文档间的事务B.具备统一的查询语法C.复杂性低,数据结构灵活D.性能好(高并发),灵活性高32、多选(3分):下列关于图数据库的描述,哪些是正确的?ABCDA.灵活性高,支持复杂的图算法B.比较适合于社交网络、模式识别、依赖分析、推荐系统以及路径寻找等问题C.专门用于处理具有高度相互关联关系的数据D.复杂性高,只能支持一定的数据规模33、多选(3分)?:下列关于数据模型的描述,哪些是正确的?ABCDA.每个HBase表都由若干行组成,每个行由行键(row key)来标识B.列族里的数据通过列限定符(或列)来定位C.HBase采用表来组织数据,表由行和列组成,列划分为若干个列族D.每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳进行索引34、多选(3分):?HBase的系统架构包括哪几个组成部分:ABCDA.客户端B.Zookeeper服务器C.Region服务器D.Master主服务器35、多选(3分)?:下面关于Google Spanner的描述正确的是:ABCDA.在最高抽象层面,Spanner就是一个数据库,把数据分片存储在许多Paxos状态机上,这些机器位于遍布全球的数据中心内B.Spanner是一个可扩展的、全球分布式的数据库C.随着数据的变化和服务器的变化,Spanner会自动把数据进行重新分片,从而有效应对负载变化和处理失败D.Spanner被设计成可以扩展到几百万个机器节点,跨越成百上千个数据中心,具备几万亿数据库行的规模第7章单元测验1、单选(2分):下面描述错误的是:BA.数据分析可以分为广义的数据分析和狭义的数据分析B.数据挖掘就是指狭义的数据分析C.数据挖掘是指从大量的数据中挖掘出未知的、且有价值的信息和知识的过程D.广义的数据分析就包括狭义的数据分析和数据挖掘2、单选(2分)?:下面描述错误的是:BA.数据挖掘则是输出模型或规则,并且可相应得到模型得分或标签B.数据挖掘的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论C.数据分析一般都是得到一个指标统计量结果,如总和、平均值等D.数据挖掘的重点在寻找未知的模式与规律3、单选(2分):下面关于机器学习和数据挖掘的描述错误的是:CA.机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科B.数据挖掘可以视为机器学习与数据库的交叉C.数据挖掘是机器学习的底层技术D.数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程4、单选(2分):?以下哪个不是典型的分类方法:AA.K-MeansB.人工神经网络C.决策树D.朴素贝叶斯5、单选(2分):以下哪个不是聚类方法:A A.TPLINKB.GMMC.LDAD.DBSCAN6、单选(2分):?聚类分析的常见应用场景不包括:BA.不同产品的价值组合B.发现关联购买行为C.目标用户的群体分类D.探测发现离群点和异常值7、单选(2分):?下面关于回归分析的描述错误的是:BA.在大数据分析中,回归分析是一种预测性的建模技术B.按照因变量的多少,可分为线性回归分析和非线性回归分析C.回归分析按照涉及的变量的多少,分为一元回归和多元回归分析D.是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法8、单选(2分):下面关于协同过滤算法的描述错误的是:DA.基于物品的协同过滤算法(简称ItemCF算法)是目前业界应用最多的算法B.基于用户的协同过滤算法(简称UserCF算法)是推荐系统中最古老的算法,可以说,UserCF的诞生标志着推荐系统的诞生C.基于模型的协同过滤算法(ModelCF)是通过已经观察到的所有用户给产品的打分,来推断每个用户的喜好并向用户推荐适合的产品D.UserCF算法是给目标用户推荐那些和他们之前喜欢的物品相似的物品9、单选(2分)?:下面属于批处理技术的是:CA.StormB.GraphXC.MapReduceD.Spark Streaming10、单选(2分):下面属于流计算技术的是:BA.GraphXB.S4C.Spark MLLibD.Hive11、单选(2分):下面属于图计算技术的是:CA.DStreamB.DremelC.PregelD.Impala12、单选(2分)?:下面属于查询分析计算技术的是:AA.HiveB.StormC.PregelD.Spark Streaming13、单选(2分):下列关于流计算的说法,哪项是错误的?DA.流计算秉承一个基本理念,即 数据的价值随着时间的流逝而降低B.对于一个流计算系统来说,它应该支持TB级甚至是PB级的数据规模C.实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息D.流计算只需要保证较低的延迟时间,即只达到秒级别即可处理一切问题14、单选(2分):下列关于数据处理流程,说法有误的是?BA.在传统的数据处理流程中,需要用户主动发出查询来获取结果B.流计算的处理流程一般包含三个阶段:数据实时采集、数据批量计算、实时查询服务C.传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管理系统中D.在传统的数据处理流程中,存储的数据是旧的15、单选(2分):下面哪个属于图数据库:CA.OracleB.HBaseC.Neo4jD.MySQL16、单选(2分):?下列关于MapReduce模型的描述,错误的是哪一项?BA.MapReduce采用“ 分而治之”策略B.MapReduce应用程序只能用Java来写C.MapReduce设计的一个理念就是“ 计算向数据靠拢”D.MapReduce框架采用了Master/Slave架构17、单选(2分):关于数据仓库Impala的描述错误的是:DA.Impala提供了SQL语义,能查询存储在Hadoop的HDFS和HBase上的PB级别海量数据B.Impala是由Cloudera公司开发的查询系统C.Impala作为开源大数据分析引擎,支持实时计算,它提供了与Hive类似的功能,并在性能上比Hive高出3~30倍D.Impala最初是参照MySQL系统进行设计的18单选(2分):?下面关于Spark和Hadoop的关系,描述错误的是:DA.Spark只是取代了Hadoop生态系统中的计算框架MapReduce,而Hadoop中的其他组件依然在企业大数据系统中发挥着重要的作用B.Spark作为计算框架,只能解决数据计算问题,无法解决数据存储问题C.越来越多的企业放弃MapReduce,转而使用Spark开发企业应用D.Spark和Hadoop一样,既包含了存储的组件,也包含了计算的组件19、单选(2分):以下哪个不是Spark的生态系统的组件:AA.ZookeeperB.Spark StreamingC.Structured StreamingD.GraphX20、单选(2分):以下哪个组件是Spark中的机器学习算法库:BA.Spark SQLB.MLlibC.Machine LeaningD.Spark Core21、单选(2分)?:以下哪个组件是Spark中用于结构化数据处理的组件:CA.Spark CoreB.Structured StreamingC.Spark SQLD.Spark Streaming22、单选(2分):Shark与Spark SQL的关系是:BA.二者是一个软件的两个不同名称,本质上是一个东西B.Shark是Spark SQL的前身C.Spark SQL是Shark的前身D.二者没有任何关系23、单选(2分):下面关于TensorFlow和TensorFlowOnSpark的描述错误的是:DA.TensorFlowOnSpark为Apache Hadoop和Apache Spark集群带来可扩展的深度学习功能B.TensorFlowOnSpark项目是由Yahoo开源的一个软件包,能将TensorFlow与Spark结合在一起使用C.TensorFlow是一个采用数据流图(Data Flow Graph)、用于数值计算的开源软件库D.TensorFlow是一个开源的、基于Java的机器学习框架24、单选(2分):以下哪个不是Storm的特点:AA.复杂的APIB.可扩展性C.支持各种编程语言D.可靠的消息处理25、单选(2分)?:下面关于Spark Streaming和Storm的描述错误的是:DA.Storm可以实现毫秒级响应B.Spark Streaming构建在Spark Core之上C.Spark Streaming可以同时兼容批量和实时数据处理的逻辑和算法D.Spark Streaming可以实现毫秒级的流计算26、单选(2分):下面关于Flink的描述错误的是:DA.Flink是一个针对流数据和批数据的分布式计算框架B.Flink的设计思想主要来源于Hadoop、MPP数据库、流计算系统等C.Flink所要处理的主要场景是流数据,批数据只是流数据的一个特例而已D.Flink主要是由Python代码实现的27、多选(3分):数据分析主要实现哪三大作用:ABCA.原因分析B.预测分析C.现状分析D.误差分析28、多选(3分):数据挖掘主要侧重解决哪几类问题:ABCDA.预测B.分类C.关联D.聚类29、多选(3分):?下面关于数据分析与数据处理的描述,正确的是:ABDA.数据分析过程通常会伴随着发生数据处理(或者说伴随着大量数据计算)B.二者是融合在一起的,很难割裂开来C.数据分析和数据处理不存在紧密的关联关系D.当用户在进行数据分析的时候,底层的计算机系统会根据数据分析任务的要求,使用程序进行大量的数据处理30、多选(3分):?下面关于大数据处理与分析的描述,正确的是:ABCDA.在技术层面,包括单机分析工具(比如SPSS、SAS等)或单机编程语言(比如Python、R),以及大数据处理与分析技术(比如MapReduce、Spark、Hive等)B.到了大数据时代,数据量爆炸式地增长,数据分析就需要采用分布式实现技术,比如使用MapReduce、Spark或Flink编写分布式分析程序,借助于集群的多台机器进行并行数据处理分析C.在大数据时代到来之前,数据分析主要以小规模的抽样数据为主,一般使用单机分析工具(比如SPSS和SAS)或者单机编程(比如Python、R)的方式来实现分析程序D.在理论层面,数据分析需要统计学、机器学习和数据挖掘等知识31、多选(3分)?:常见的关联规则挖掘算法包括:ACA.Apriori算法B.MP-Growth算法C.FP-Growth算法D.Bpriori算法32、多选(3分):协同过滤主要包括:BCDA.基于分类的协同过滤B.基于物品的协同过滤C.基于模型的协同过滤D.基于用户的协同过滤33、多选(3分)?:大数据处理分析技术主要包括哪几种类型:ABCDA.流计算B.批处理计算C.查询分析计算D.图计算34、多选(3分):?一次BSP计算过程包括一系列全局超步(超步就是指计算中的一次迭代),每个超步主要包括哪几个组件:ACDA.局部计算B.中间计算C.通信D.栅栏同步35、多选(3分):下面关于MapReduce工作流程的描述,正确的是:ABCA.一个大的MapReduce作业,会被拆分成许多个Map任务在多台机器上并行执行B.Reduce任务会对中间结果进行汇总计算得到最后结果C.每个Map任务通常运行在数据存储的节点上D.当Map任务结束后,会生成以形式表示的许多中间结果36、多选(3分):?Hadoop的MapReduce的缺点包括:ABDA.表达能力有限B.磁盘IO开销大C.中间结果多D.延迟高37、多选(3分):Hive底层所依赖的计算引擎可以是:ABCA.TezB.MapReduceC.SparkD.Flink38、多选(3分):下面关于Hive的描述正确的是:ABCDA.Hive在某种程度上可以看作是用户编程接口,其本身并不存储和处理数据B.Hive是一个基于Hadoop的数据仓库工具,可以用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理C.当采用MapReduce作为执行引擎时,Hive可以通过HiveQL语句快速实现简单的MapReduce统计,Hive自身可以将HiveQL语句快速转换成MapReduce任务进行运行D.Hive的学习门槛比较低,因为它提供了类似于关系数据库SQL语言的查询语言——HiveQL39、多选(3分):关于Hive与Hadoop生态系统中其他组件的关系,下面描述正确的是:ABDA.MapReduce对这些海量数据进行批处理,实现高性能计算B.用HiveQL语句编写的处理逻辑,最终都要转化为MapReduce任务来运行C.Hive的目标是取代HBaseD.HDFS作为高可靠的底层存储,用来存储海量数据40、多选(3分):Hive的系统架构主要包括哪几个模块:ABDA.用户接口模块B.元数据存储模块C.探查模块D.驱动模块41、多选(3分):关于数据仓库Impala的描述正确的是:BCA.Impala是由Oracle公司开发的查询系统B.Impala采用了与商用MPP并行关系数据库类似的分布式查询引擎,可以直接从HDFS或者HBase中用SQL语句查询数据,而不需要把SQL语句转化成MapReduce任务来执行C.与Hive类似,Impala也可以直接与HDFS和HBase进行交互D.Impala和Hive采用了不同的SQL语法、ODBC驱动程序和用户接口42、多选(3分):?Spark的特点主要包括:BCDA.运行模式单一B.通用性C.容易使用D.运行速度快43、多选(3分):Spark相对于MapReduce的优点包括:ABCA.Spark提供了内存计算,中间结果直接放到内存中,带来了更高的迭代运算效率B.Spark基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制C.Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比MapReduce更灵活D.Spark同时提供了存储功能,而MapReduce不支持存储44、多选(3分):不同的计算框架统一运行在YARN中,可以带来哪些好处:ACDA.共享底层存储,避免数据跨集群迁移B.减少了所使用的编程语言的种类C.不用负载应用混搭,集群利用率高D.计算资源按需伸缩45、多选(3分):在实际应用中,大数据处理主要包括哪几种类型:ABCA.复杂的批量数据处理:时间跨度通常在数十分钟到数小时之间B.基于实时数据流的数据处理:时间跨度通常在数百毫秒到数秒之间C.基于历史数据的交互式查询:时间跨度通常在数十秒到数分钟之间D.基于历史数据的流查询:时间跨度在数十秒到数分钟之间46、多选(3分):下面关于Spark的运行架构的描述,正确的是:BCDA.Spark采用“P2P架构”B.Spark利用多线程来执行具体的任务C.Spark运行架构包括Cluster Manager、Worker Node、Driver Program和ExecutorD.Spark集群资源管理器可以是Spark自带的资源管理器,也可以是YARN或Mesos等资源管理框架47、多选(3分):?下面关于RDD的描述正确的是:ABDA.RDD提供了一组丰富的操作以支持常见的数据运算,分为“行动”(Action)和“转换”(Transformation)两种类型B.一个RDD本质上是一个只读的分区记录集合C.RDD不适合对于数据集中元素执行相同操作的批处理式应用,而比较适合用于需要异步、细粒度状态的应用D.一个RDD就是一个分布式对象集合48、多选(3分)?:Spark的集群部署方式包括:ABCA.Spark on YARN模式B.Spark on Kubernetes模式C.Spark on Mesos模式D.Local模式49、多选(3分):下面关于Spark SQL的描述正确的是:ABCA.Spark SQL目前支持Scala、Java编程语言,暂时不支持Python语言B.Spark SQL增加了DataFrame(即带有Schema信息的RDD),使用户可以在Spark SQL中执行SQL语句C.Spark SQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据D.Spark SQL执行计划生成和优化都由Catalyst(函数式关系查询优化框架)负责50、多选(3分):下面关于Spark Streaming的描述正确的是:ABCDA.Spark Streaming可结合批处理和交互查询,适合一些需要对历史数据和实时数据进行结合分析的应用场景B.Spark Streaming可整合多种输入数据源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字C.Spark Streaming是构建在Spark Core上的实时计算框架,它扩展了Spark处理大规模流式数据的能力D.Spark Streaming实际上是以一系列微小批处理来模拟流计算51、多选(3分)?:Structured Streaming包括哪两种处理模型:BDA.高阶处理B.持续处理C.分层处理D.微批处理52、多选(3分):关于Structured Streaming、Spark SQL、Spark Streaming,下面描述正确的是:ABCA.Structured Streaming可以使用Spark SQL的DataFrame/Dataset来处理数据流B.Spark SQL只能处理静态的数据,而Structured Streaming可以处理结构化的数据流C.Structured Streaming处理的数据跟Spark Streaming一样,也是源源不断的数据流D.Spark Streaming采用的数据抽象是DataFrame,Structured Streaming采用的数据抽象是DStream53、多选(3分):Spark MLlib主要提供了哪几个方面的工具:ABCDA.特征化工具B.实用工具C.流水线D.算法工具54、多选(3分):?下面关于Storm框架设计描述正确的是:BCDA.Storm集群采用P2P架构B.Storm运行在分布式集群中,其运行任务的方式与Hadoop类似C.在Hadoop上运行的是MapReduce作业,而在Storm上运行的是“Topology”D.Storm采用了Zookeeper来作为分布式协调组件55、多选(3分):下面关于Flink的描述正确的是:ACDA.当全部运行在Hadoop YARN之上时,Flink的性能甚至还要略好于SparkB.Flink和Spark一样,都是基于磁盘的计算框架C.Flink的流计算性能和Storm差不多,可以支持毫秒级的响应D.Spark的市场影响力和社区活跃度明显超过Flink56、多选(3分)?:Flink系统主要由哪两个组件组成:BDA.TaskTrackerB.JobManagerC.JobTrackerD.TaskManager57、多选(3分):下面关于大数据编程框架Beam的描述正确的是:BCDA.Beam是由微软公司贡献的Apache顶级项目B.Beam的目标是为开发者提供一个易于使用、却又很强大的数据并行处理模型,能够支持流处理和批处理C.Beam是一个开源的统一的编程模型,开发者可以使用Beam SDK来创建数据处理管道,然后,这些程序可以在任何支持的执行引擎上运行D.Beam SDK定义了开发分布式数据处理任务业务逻辑的API接口,即提供一个统一的编程接口给到上层应用的开发者58、多选(3分):查询分析系统Dremel的特点主要包括:CDA.Dremel中的数据是用行式存储的B.Dremel是一个面向小规模数据的、稳定的系统C.Dremel结合了Web搜索和并行DBMS的技术D.Dremel的数据模型是嵌套的第8章单元测验1、单选(2分):下列关于数据可视化的描述,哪个是错误的?BA.数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示B.将数据的各个属性值以一维数据的形式表示C.数据可视化是指将大型数据集中的数据以图形图像形式表示D.利用数据分析和开发工具发现其中未知信息的处理过程2、单选(2分):下列哪个不属于可视化工具?BA.Google Chart APIB.SparkC.D3http://D.Visual.ly3、单选(2分):?下列说法错误的是?AA.Tableau是桌面系统中最简单的商业智能工具软件,是一个用于网页作图、生成互动图形的JavaScript函数库B.大数据魔镜是一款优秀的国产数据分析软件,可以让用户真正理解探索分析数据C.Modest Maps是一个小型、可扩展、交互式的免费库,提供了一套查看卫星地图的APID.Google Fusion Tables让一般使用者也可以轻松制作出专业的统计地图4、单选(2分):下面关于Timetoast的描述,哪个是错误的?BA.提供个性化的时间线服务B.Timetoast是一个提供复杂统计图表的工具C.Timetoast是在线创作基于时间轴事件记载服务的网站D.Timetoast基于 flash 平台,可以在类似flash时间轴上任意加入事件5、单选(2分)?:下列关于可视化工具中高级分析工具的说法,错误的是?AA.Weka主要用于社交图谱数据可视化分析,可以生成非常酷炫的可视化图形B.R是属于GNU系统的一个自由、免费、源代码开放的软件C.R通常用于大数据集的统计与分析D.Gephi主要用于社交图谱数据可视化分析,可以生成非常酷炫的可视化图形6、多选(3分):?在大数据时代,可视化技术可以支持实现哪些目标?ABCDA.增强数据吸引力B.辅助理解数据C.观测、跟踪数据D.分析数据7、多选(3分):信息图表是信息、数据、知识等的视觉化表达,下列哪个说法正确?ABCDA.D3是最流行的可视化库之一,是一个用于网页作图、生成互动图形的JavaScript函数库B.大数据魔镜是一款优秀的国产数据分析软件,它丰富的数据公式和算法可以让用户真正理解探索分析数据C.谷歌公司的制图服务接口Google Chart API,可以用来为统计数据并自动生成图片D.ECharts是由百度公司前端数据可视化团队研发的图表库,可以流畅地运行在PC和移动设备上8、多选(3分)?:下列关于数据可视化的描述,正确的有:ABDA.数据可视化是指将大型数据集中的数据以图形图像形式表示B.利用数据分析和开发工具发现其中未知信息的处理过程C.将数据的各个属性值以一维数据的形式表示D.数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示9、多选(3分):下列说法中,哪些是正确的?ABCDA.Leaflet是一个小型化的地图框架,通过小型化和轻量化来满足移动网页的需要B.Modest Maps是一个小型、可扩展、交互式的免费库C.大数据魔镜是一款优秀的国产数据分析软件,它丰富的数据公式和算法可以让用户真正理解探索分析数据D.Google Fusion Tables让一般使用者也可以轻松制作出专业的统计地图10、多选(3分):下面关于可视化图表的描述正确的是:ABCA.树图是一种流行的、利用包含关系表达层次化数据的可视化方法B.词云对网络文本中出现频率较高的“关键词”给予视觉上的突出C.漏斗图适用于业务流程比较规范、周期长、环节多的流程分析D.桑基图是以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示
创业项目群,学习操作 18个小项目,添加 微信:923199819 备注:小项目!
如若转载,请注明出处:https://www.zodoho.com/140624.html