Ⅰ 大数据的存储
⼤数据的存储⽅式是结构化、半结构化和⾮结构化海量数据的存储和管理,轻型数据库⽆法满⾜对其存储以及复杂的数据挖掘和分析操作,通常使⽤分布式⽂件系统、No SQL 数据库、云数据库等。
结构化、半结构化和⾮结构化海量数据的存储和管理,轻型数据库⽆法满⾜对其存储以及复杂的数据挖掘和分析操作,通常使⽤分布式⽂件系统、No SQL 数据库、云数据库等。
1 分布式系统:分布式系统包含多个⾃主的处理单元,通过计算机⽹络互连来协作完成分配的任务,其分⽽治之的策略能够更好的处理⼤规模数据分析问题。
主要包含以下两类:
1)分布式⽂件系统:存储管理需要多种技术的协同⼯作,其中⽂件系统为其提供最底层存储能⼒的⽀持。分布式⽂件系统 HDFS 是⼀个⾼度容错性系统,被设计成适⽤于批量处理,能够提供⾼吞吐量的的数据访问。
2)分布式键值系统:分布式键值系统⽤于存储关系简单的半结构化数据。典型的分布式键值系统有 Amazon Dynamo,以及获得⼴泛应⽤和关注的对象存储技术(Object Storage)也可以视为键值系统,其存储和管理的是对象⽽不是数据块。
2 Nosql 数据库:关系数据库已经⽆法满⾜ Web2.0 的需求。主要表现为:⽆法满⾜海量数据的管理需求、⽆法满⾜数据⾼并发的需求、⾼可扩展性和⾼可⽤性的功能太低。No SQL 数据库的优势:可以⽀持超⼤规模数据存储,灵活的数据模型可以很好地⽀持 Web2.0 应⽤,具有强⼤的横向扩展能⼒等,典型的 No SQL 数据库包含以下⼏种:
3 云数据库:云数据库是基于云计算技术发展的⼀种共享基础架构的⽅法,是部署和虚拟化在云计算环境中的数据库。
Ⅱ SQL如何备份大容量数据库
数据库备份介绍
1、备份位置
在SQL Server上,有多种备份位置可以选择,如本地磁盘,网络磁盘,远程地址,磁带等。
各种备份位置均有自己的优点和缺点。
2、逻辑备份设备
在SQL Server上,可以通过创建逻辑备份设备来完成备份。使用逻辑备份设备的好处是,当变更备份地址时,不需要更改备份脚本,只需要更改逻辑备份设备的定义即可。
创建逻辑备份设备的脚本如下:
SQL code EXEC sp_addmpdevice @devtype=’disk’,@logicalname=’MYBackup’,@physicalname=’D:\backup\mydb.bak’
删除备份设备的脚本:
SQL code Sp_dropdevice @logicalname=’MYBackup’
上述脚本只是删除逻辑备份设备的定义,下述脚本将同时删除备份文件:
SQL code Sp_dropdevice @logicalname=’MYBackup’,@devfile=’DELFILE’
使用逻辑备份设备的方法如下:
SQL code Backup database mydb to MYBackup
当然,还可在逻辑备份设备上指定过期时间等备份属性,如:
SQL code Backup database mydb to MYBackup WITH EXPIREDATE=’13/01/2010’
或:
SQL code BACKUP DATABASE mydb to MYBackup WITH RETAINDAYS=7
3、备份集与存储集
每一份备份包含于一个备份集,而一个备份集包含于一个存储集。通过系统GUI进行备份时,SQL Server会自动指定备份集和存储集,目的则是为了简化管理。用T-SQL显示指定则用如下语法:
SQL code BACKUP DATABASE mydb to MYBackup WITH RETAINDAYS=7,
NAME=’FULL’,
MEDIANAME=’ALLBackups’
NAMEs是指备份集名称,MEDIANAME是指存储集名称。
4、全备份
不管恢复模式是哪一个,所有的备份都必须要有一个全备份,特别是日志备份和差异备份,如果没有全备份的话,将无法进行恢复。
简单的全备份脚本如下所示,也可以通过维护计划来指定全备份:
SQL code BACKUP DATABASE mydb to DISK=’D:\Backup\mydb.bak’
但需要注意的是,上述命令是将数据库备份附加到当前的存在的文件上,如果不存在则创建它,并不会覆盖原有文件。要覆盖同名的备份文件,需要指定INIT参数。
SQL code BACKUP DATABASE mydb to DISK=’D:\Backup\mydb.bak’ WITH INIT
5、日志备份
在完全恢复模式或者大容量日志恢复模式下,日志备份不仅仅是恢复的需要,同时也是手工管理事务日志文件的一种方式。如果从不进行备份的话,在完全恢复模式或者大容量恢复模式下,事务日志将会持续增长,直至消耗完所在磁盘。
日志备份的脚本如下:
SQL code BACKUP LOG mydb_log TO DISK=’D:\backup\mydb.trn’
需要养成使用.trn为日志备份的扩展名的习惯。
每个在数据库上的动作都会被安排一个Log Sequence Number (LSN)。如果需要还原到指定的时间点,需要有持续的LSN记录。也就是说,在完全恢复模式或者大容量日志模式下,一个不被打断的事务日志备份链是恢复数据库的基本要求。
6、差异备份
使用日志备份来恢复时,无疑是一个很慢的过程,特别是上一个全备份的历史比较悠久时。使用差异备份,便能缩短恢复时间。事实上,差异备份只是BACKUP DATABASE的一个选项,如下:
SQL code BACKUP DATABASE mydb TO DISK=’D:\backup\mydb.dif’ WITH DIFFERENTIAL,INIT
进行数据库恢复时,先恢复数据库全备份,再恢复数据库差异备份,最后才恢复日志备份。
差 异备份是与上一次全备份紧密相连的,不管期间有多少次日志备份和差异备份,差异备份还是会从上一次全备开始备份。因此,经常会遇到这样的一种情况,在生产 库上需要临时使用数据库时,便用BACKUP DATABASE … TO DISK=’..’进行了一个备份,下一次的差异备份便会以这回的全备为准,如果过后把这个临时全备删除掉后,后面的差异备份就没用了。
差异备份并不意味着磁盘空间肯定会少,这取决于实际情况。当期间大量操作发生时,差异备份还是会变得很大。
7、错误检测
在备份过程中,备份进程会同时验证数据,或者校验不完整页(torn page),或者验证校验和(checksum)。要使用该功能,需要激活该选项。
不完整页检测(Torn-page dection)仅仅检查每一个页看是否已经写完成。如果发现一个页只有部分被写入,那么就将其标记为torn。
校验和验证(checksum validation)是一种新的页验证机制。它会为每个页添加一个值来表明该页实际的大小。虽然看起来是个代价很高影响性能的操作,但事实上,它的效率非常高,与torn-page差不多。
备份进程在备份数据库时,会通过比较在数据库里的和随着备份页写入硬盘时这两个之间的值来进行验证。但是,这个验证并不是自动完成的,需要显示指定,在GUI页面上是个选项。如果通过T-SQL来备份的话,语句如下:
SQL code BACKUP DATABASE mydb TO DISK=’D:\data\mydb.bak’ WITH CHECKSUM
如果备份过程中,发现了错误,SQL Server会错误信息写入MSDB上的SUSPECT_PAGE表里面。同时,在默认情况下,备份行为会停止的(STOP_ON_ERROR),以便管理员排查错误。
但 备份过程中的校验和验证还有另外一个选项(CONTINUE_ON_ERROR),也就是说,如果发现错误,备份过程并不会中断,而是将错误页信息记录在 MSDB..SUSPECT_PAGE上而已。需要注意的是,SUSPECT_PAGE表是有行限制的,最多只能达到1000行,如果达到了的话,备份同 样会失败。
激活校验和验证的话,很明显会影响备份的性能。但还是很有必要的。
8、安全备份
完全备份和日志备份语句还支持使用密码属性,如:
SQL code BACKUP DATABASE mydb TO DISK=’D:\mydb.bak’ WITH PASSWORD=’mydb’
所指定的密码是很容易破解的。因此,如果确实需要对某些备份数据进行加密的话,可以将备份存放于加密的文件系统或者其它安全的存储设备上。
同时,SQL Server还提供了对真实列进行加密的功能。该加密功能是工业标准。
9、条带备份
有些情况下,单独一个硬盘无法存储一个完整的数据库备份时,可以将数据库备份分成多个部分存储在不同的磁盘上,这种备份方式成为条带备份。使用条带备份的优点很明确,就是能很好的利用空间,但如果某部分备份丢失或者损坏,那整个备份将无效。
其语句如下:
SQL code BACKUP DATABASE mydb TO DISK=’D:\mydb.bak’,
DISK=’E:\mydb.bak’ WITH INIT,CHECKSUM,
CONTINUE_ON_ERROR
上述D盘和E盘上的备份是不可分割的。
10、镜像备份
与条带备份在多个磁盘上保留同一份备份不同的是,镜像备份是在不同磁盘上保留多份备份。其语句如下:
SQL code BACKUP DATABASE mydb TO DISK=’D:\mydb.bak’
MIRROR TO DISK=’E:\mydb.bak’
WITH INIT,CHECKSUM,CONTINUE_ON_ERROR
在实际情况下,对日志备份采取镜像备份方式会比较合适。
11、COPY-ONLY 备份
在差异备份里曾提到过,差异备份是建立在上一个全备份的基础上的。因此如果在一个事先安排好的备份计划里,如果在全备份和差异备份之间再进行了一次全备份后,其差异备份会被打断,如果把临时全备份删除掉后,就产生了数据丢失。
在SQL SERVER 2005以后,SQL SERVER提供了一个选项-only.使用-only选项进行的全备份便不会打算原先的备份计划,语句如下:
SQL code BACKUP DATABASE mydb TO DISK=’D:\mydb.bak’
WITH INIT,CHECKSUM,COPY_ONLY
三、文件和文件组备份
在SQL SERVER 7.0以后,SQL Server提供了filegroup的概念。文件组不仅仅提供了一个逻辑的存储地址,还允许将不同的表和索引放在不同的文件组上来提高性能和减少备份时间。
在数据存储概述上,提到了数据库有三类数据文件,一般来说,数据库至少需要两个(.mdf和.ldf)或者更多的文件。SQL Server不仅允许有多个文件存在(.ldf),还允许多个文件组存在。
一个文件组可以有多个文件,每个文件需要仔细规划好初始大小及增量。
1、默认文件组
在创建对象时,如果未明确指定文件组,那么该对象将会存放在默认的文件组上。在默认情况下,默认的文件组是primary,但由于primary文件组不仅可以包含用户数据,同时还存储着数据库结构等技术信息,因此一般建议添加额外的一个文件组,并将其指定为默认文件组。
SQL Server只能有一个默认的文件组。
修改默认文件组的语句如下:
SQL code ALTER DATABASE mydb MODIFY FILEGROUP mydb DEFAULT;
2、为对象指定文件组
当创建表或者索引时,不管是用户还是系统都需要将表或索引放在某个文件组上。如果在创建表或索引时指定文件组,那么表或索引将会存储在指定的文件组上,而不是默认的文件组。
其指定语句如下:
SQL code CREATE TABLE test( [id] int,[notes] text) on mydbdata
也可以通过GUI创建表的页面来指定文件组。
3、将对象迁移至指定文件组
如果需要变更对象的存储位置,最简单的方式则是通过GUI属性页面来进行修改通过该方法,可以直观的看到对象的迁移过程。
同时也可以通过T-SQL来修改,例如:
SQL code ALTER TABLE test drop constraint PK_test WITH (MOVE TO DATA)
4、备份数据文件
备份数据文件同样可以通过BACKUP DATABASE语句来实现。如下:
SQL code BACKUP DATABASE mydb FILE=’D:\Data\mydb.ndf’ TO DISK=’E:\Backup\mydbdata.bak’
上述语句相当于数据文件级别的全备份,与数据库级别的备份类似,文件级别上的备份也有差异备份,当然前提是要有相对应的文件全备份。
差异备份的语句如下:
SQL code BACKUP DATABASE mydb FILE=’D:\Data\mydb.ndf’
WITH DIFFERENTIAL
TO DISK=’E:\Backup\mydbdata_dif.bak’
5、备份文件组
与单独备份文件类似,也可以对文件组进行类似的备份操作。备份文件组的方式也有两种,一种是通过GUI界面指定,一种则是通过T-SQL。
T-SQL的语句如下:
SQL code BACKUP DATABASE mydb FILEGROUP=’PRIMARY’ TO DISK=’E:\Backup\mydbpri.bak’
6、不完全备份(partial backup)
在文件组备份上,不完全备份其实相当于完全备份,可以通过指定关键字READ_WRITE_FILEGROUPS来实现不完全备份。
语句如下:
SQL code BACKUP DATABASE mydb READ_WRITE_FILEGROUPS TO DISK=’D:\mydb.bak’
那不完全备份到底是什么意思呢?什么时候需要不完全备份?如果对一个文件组设置了只读,而这只读的文件组又需要进行一次备份,这时,可以不用BACKUP DATABASE语句进行备份,只需要挑个时间停止实例,然后执行不完全备份。
Ⅲ sql中存储较大的数据用什么数据类型或者存储较大的数据 怎么存储
二进制用这个:image 二进制数据类型 image 数据类型用来存储变长的二进制数据,最大可达231-1或大约20亿字节
整数用这个:int 整型 int 数据类型可以存储从- 231(-2147483648)到231 (2147483 647)之间的整数。存储到数据库的几乎所有数值型的数据都可以用这种数据类型。这种数据类型在数据库里占用4个字节
带精度的用这个:decimal 精确数值型 decimal 数据类型能用来存储从-1038-1到1038-1的固定精度和范围的数值型数据。使用这种数据类型时,必须指定范围和精度。 范围是小数点左右所能存储的数字的总位数。精度是小数点右边存储的数字的位数
float 近似数值型 float 数据类型是一种近似数值类型,供浮点数使用。说浮点数是近似的,是因为在其范围内不是所有的数都能精确表示。浮点数可以是从-1.79E+308到1.79E+308 之间的任意数
字符这个:text 字符型 text 数据类型用来存储大量的非统一编码型字符数据。这种数据类型最多可以有231-1或20亿个字符
Ⅳ 怎么样快速向SQL数据库插入大数据量的数据
添加数据需要知道往哪张表添加,以及自己要添加的内容,然后可用insert语句执行。
1、以sqlserver2008r2为例,登录SQL Server Management Studio到指定的数据库。
2、登录后点击“新建查询”。
Ⅳ sqlserver中哪些数据类型可存储大文本
大的文本都是用varchar(max)数据类型最多可以存储2^30-1个字节的数据。
Sql Server 还能自动限制每个数据类型的取值范围,例如定义了一个类型为int的字段,如果插入数据时插入的值的大小在smallint或者tinyint范围之内, Sql Server 会自动将类型转换为smallint 或者tinyint,这样一来,在存储数据时,占用的存储空间只有int的1/2或则1/4。
Sql Server数据库管理系统中的数据类型可以分为两类,分别是:系统默认的数据类型和用户自定义的数据类型。
(5)sql怎么存储大数据扩展阅读
Sql Server之数据类型详解:
整数数据类型:整数数据类型是常用的数据类型之一,主要用于存储数值,可以直接进行数据运算而不必使用函数转换。
1、bigint
每个bigint存储在8个字节中,其中一个二进制位表示符号位,其它63个二进制位表示长度和大小,可以表示-2的63次方~2的63次方-1范围内的所有整数。
2、int
int或者integer,每个int存储在4个字节中,其中一个二进制位表示符号位,其它31个二进制位表示长度和大小,,可以表示-2的31次方~2的31次方-1范围内的所有整数。
3、smallint
每个smallint类型的数据占用了两个字节的存储空间,其中一个二进制位表示整数值的正负号,其它15个二进制位表示长度和大小,,可以表示-2的15次方~2的15次方-1范围内的所有整数。
4、tinyint
每个tinyint类型的数据占用了一个字节的存储空间,可以表示0~255范围内的所有整数。
Ⅵ sql server 2008如何插入大数据
大数据是指什么啊,你会一次存入很多条数据吗?你可以直接传给sql一个table,你创建一个存储过程,然后直接insert into 表 select 你传入的table就行了
Ⅶ 利用MySQL数据库如何解决大数据量存储问题
照你的需求来看,可以有两种方式,一种是分表,另一种是分区 首先是分表,就像你自己所说的,可以按月分表,可以按用户ID分表等等,至于采用哪种方式分表,要看你的业务逻辑了,分表不好的地方就是查询有时候需要跨多个表。 然后是分区,分区可以将表分离在若干不同的表空间上,用分而治之的方法来支撑无限膨胀的大表,给大表在物理一级的可管理性。将大表分割成较小的分区可以改善表的维护、备份、恢复、事务及查询性能。分区的好处是分区的优点: 1 增强可用性:如果表的一个分区由于系统故障而不能使用,表的其余好的分区仍然可以使用; 2 减少关闭时间:如果系统故障只影响表的一部分分区,那么只有这部分分区需要修复,故能比整个大表修复花的时间更少; 3 维护轻松:如果需要重建表,独立管理每个分区比管理单个大表要轻松得多; 4 均衡I/O:可以把表的不同分区分配到不同的磁盘来平衡I/O改善性能; 5 改善性能:对大表的查询、增加、修改等操作可以分解到表的不同分区来并行执行,可使运行速度更快; 6 分区对用户透明,最终用户感觉不到分区的存在。
Ⅷ sql server 数据量庞大,怎么存储
控制sql容量
整个库日志文件是最大的
控制了容量
sql会定时清理以前的日志制订个计划
每天自动做增量备份就可以了
Ⅸ 如何解决执行sql存储过程(大数据量复杂的sql计算操作)时,不影响用户使用
对实时性不是非常必须的功能,不要放在主业务集中操作的同时操作。这个需要引导客户。
系统的开销就在那里摆着,没有别的办法,一运行资源就占了,CPU 资源,数据库资源,内存资源。
两个办法:一个是做一个数据库复制,可以半天复制一次,也可以一天复制一次(闲时复制),根据用户对数据的敏感度决定,存储过程运行不限时间,运行时访问复制数据库,不影响主数据库。需要额外资源:数据库服务器,数据库复制时间和网络资源开销;
第二个是定制成任务,闲时执行结果放到指定表中,或者直接以文件形式导出在服务器指定位置。用的人直接读记录或者读文件就OK 了。
请参考。
Ⅹ sql数据库数据量庞大时怎么处理。
1.表字段类型、长度、默认值这些都要按实际情况去写,不要瞎填;
2.能存英文就尽量不存中文,能存数字尽量不存英文;(数据库查询速度数字查询速度最快,英文次之,中文最后)
3.索引要优化,按实际要求去创建索引,主键等;
4.sql语句要精简,能不用*就尽量不用,想要什么字段查什么字段,不要怕多写,尽量少用联表查询,多表查询,尤其在大数据访问的时候;
5.合理使用缓存技术,有模板缓存,数据库查询结果缓存。