㈠ 请问作为数据仓库人员需要掌握些什么知识,用到些什么软件
sql基础、数据挖掘理论、数据仓库理论、报表工具、数据挖掘分析软件、ETL软件等等
欢迎来我的数据挖掘群一起讨论。
群A:5152925(满了好像)
群B:17375163 (还有点位子,呵呵)
㈡ 数据仓库工程师所需具备的知识
数据库基础知识,数据库挖掘原语,各种乱七八糟的模型,挖掘算法基础
先就这么多吧,以后还有很多数学有关的东西
㈢ 什么是数据仓库
数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合
数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
◆面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。
◆集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
◆相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
◆反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分
㈣ 数据仓库主要解决哪些问题
数据仓库主要解决哪些问题
企业信息化建设过程中,为了提高日常的工作效率以及提高本企业的市场适应能力,大部分企业会根据市场、客户和企业本身建立不同的业务系统来满足需求。但此系统往往因为市场需求、设计理念、建设时间、平台选择等因素的不一致性而导致系统间相互独立、信息分散等特点,从而形成信息孤岛,为了解决上述问题,企业就需要一种行之有效的技术进行信息整合,通过集成不同的系统信息为企业提供统一的决策分析平台,帮助企业解决实际的业务问题(如:如何提高客户满意度和忠诚度,降低成本、提高利润,合理分配资源,有效进行全面绩效管理等)。人们往往会采用数据仓库技术实现。
使用数据仓库有3个方面的好处:
(1)数据仓库能够为业务部门提供准确、及时的的报表。虽然给业务系统也能够提供报表功能,但由于业务处理系统是为实现某个业务功能开发的,业务处理系统中的报表只能提供局部的信息,无法提供关于企业整体的信息,使管理人员有“只见树木,不见森林”的感觉。另外业务系统中的报表相对是比较固定的,对于业务人员临时提出来的一些分析要求,必须经过软件人员大量艰苦的开发工作才能实现,业务人员往往感觉报表功能不能满足管理上的要求。而在数据仓库中提供的灵活的报表工具,可以很方便地增加新的报表,适应业务的变化。
(2)数据仓库可以赋予管理人员更强大的分析能力。联机分析处理(OLAP)是数据仓库中经常采用的一种分析手段。OLAP技术使得用户能够方便地从多个角度对信息进行分析,使业务人员可以了解更多的信息。例如,对于业务收入指标,我们可以了解到每个产品是通过哪些渠道销售出去的,销售给哪些类型的客户,我们不仅可以看到某个区域总的销售收入,而且可以看到在该区域中每个城市、每个商店的销售情况,直到查看到具体的一笔销售合同。OLAP分析的另一个好处是它采用业务名词而不是技术术语对事物进行描述,因此业务人员可以清晰地了解数据对象的含义,并且无需依赖技术人员,就可以自主地进行业务分析。
(3)数据仓库是进行数据挖掘、知识发现的基础。利用数据挖掘技术,我们可以发现数据中存在的模式和规律,例如可以了解到不容的用户群体具有什么样的消费行为,对于价格的敏感度如何。利用这些知识,可以帮助企业对未来的变化趋势进行预测,制定更加准确的市场策略,实现交叉销售/向上销售的目标。由于数据仓库已经实现了企业数据的整合,提供了反映企业全局的、一致的信息,因此,在数据仓库的基础上进行数据挖掘,可以使预测分析结果更加准确、更完整。
随着云计算、大数据的不断深入,伴之而来的是海量的数据,那么如何更好的从这些数据中提取有用的信息呢?那数据仓库就发挥了他巨大的潜力。
㈤ 什么是数据仓库为什么要建立数据仓库数据仓库有什么特点
数据仓库概念:
英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。
这就要从数仓能解决的问题或者痛点来说,大型公司的业务相对复杂,随着公司业务的扩大,跨BU,跨BG的业务往来越来越多,而数据一般分散在各个部门,这样需要统一的平台来存储这样的跨系统的数据。此外,近年来分库分表等应用越来越多,仅通过传统关系型数据库做数据分析和挖掘已经不能满足要求。当然随着手机APP的大量使用,埋点等数据一般都以log日志方式存在,需要一个新的介质后者方案来解析这些数据,为了解决这个问题,数仓技术应运而生。
反过来讲,如果公司系统较为单纯,数据量比较小,传统关系型数据库以及完全可以满足数据检索和分析的需求,就不需要花成本来构建数仓。
其实构建数仓的原因还有很多,但无非是用一个更可靠的平台把分散的低价值的数据通过清洗,整合,分析挖掘使得数据的价值最大化。
㈥ 新接触数据仓库应该怎样入门
额 我是做DW的 先说你第一个问题哈 ETL 表面意思是清洗转换加载 这个不说了 网上自己搜就行,我要说的是,这个过程其实实施起来没网上说的那么复杂,ETL是为你的数据从业务数据库流入到DW服务的 第二个问题 你现在有前台界面和数据库建DW有这些东西足够你用了,如果说还缺点什么,最好把你们统计系统的数据库数据字典搞一份 总结一下 你现在其实最缺的不是技术 是例子 因为我猜你还不知道DW应该长什么样 推荐你本书,拉尔夫的《数据仓库工具箱》 另外补充楼上说的 数据量大小和用不用工具是没有半毛钱关系的 新手推荐手写
㈦ 数据库工程师需要掌握哪些知识
一般数据库工程师的主要工作包括:数据备份;数据库日常维护;数据结构方面的设计;SQL调优;解决由于数据库操作所造成的系统性能问题;给开发人员开展一些数据库方面的培训。那么成为一名合格的数据库工程师需掌握哪些知识技能呢?
一、数据库应用系统分析及规划:1.软件工程与软件生命周期。 2.数据库系统生命周期。 3.数据库开发方法与工具。 4.数据库应用体系结构。 5.数据库应用接口。
二、数据库设计及实现:1.概念设计。 2.逻辑设计。 3.物理设计。 4.数据库对象实现及操作。
三、数据库存储技术:1.存储与文件结构。 2. 索引技术。
四、并发控制技术:1.事务管理。 2.并发控制技术。3.死锁处理。
五、数据库管理与维护:1、数据完整性。 2、数据库安全性。 3、数据库可靠性。 4、监控分析。 5、参数调整。 6、查询优化。 7、空间管理。
六、数据库技术的发展与新技术:1、分布式数据库。 2、对象数据库。 3、并行数据库。 4、数据仓库与数据挖掘。
㈧ 做数据仓库要学哪些
熟悉主流数据库,如oracle、DB2、SQL server 等,还要熟悉数据仓库建模。
㈨ 数据仓库是做什么的
目前,数据仓库一词尚没有一个统一的定义,着名的数据仓库专家W.H.Inmon在其着作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
根据数据仓库概念的含义,数据仓库拥有以下四个特点:
1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
3、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示。
数据仓库系统体系结构
·数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;
·数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
·OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
·前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
㈩ 数据分析需要掌握些什么知识
统计学,数学,逻辑学是数据分析的基础,是数据分析师的内功,内功不扎实,学再多都是徒劳。
掌握统计学,我们才能知道每一种数据分析的模型,什么样的输入,什么样的输出,有什么样的作用,开始我们并不一定要把每个算法都弄懂。
如果我们要做数据挖掘师,数据能力是我们吃饭的饭碗。
如果你没有数学能力,用现成的模型也好,模块也好,也能做,但一定会影响你的技术提升,当然更影响你的职位晋升。
业务方向
大家在招聘网站中搜索数据分析的职位,大概分为两类:辅助业务的数据分析职位和数据分析师职位。
1)辅助业务的数据分析:一般在零售业里职位设置较多,该职位一定要对业务烂熟于心,对业务有长时间的积淀和理解,用数据发现业务流程中的问题,并提出合理化的解决方案,分析数据是为整个商业逻辑去做支撑。细分职位包括:市场调查、行业分析和经营分析三类。
2)数据分析师:业务方向的数据分析师,该职位招聘时一定前面有一个限定词,什么数据分析师,归结起来分为三类:产品数据分析师,运营数据分析师和销售数据分析师。
技术方向
技术方向主要指数据挖掘方向,分为三类:数据挖掘工程师(机器学习)、数据仓库工程师(构架师)和数据开发工程师。在互联网和金融行业岗位设置较多
普遍来说:技术方向的基础岗的工资薪酬要比业务岗的薪酬高一个等级,但是做到管理岗的话,在中国,业务岗的薪酬比技术岗的薪酬要高。