导航:首页 > 数据处理 > 数据如何存储

数据如何存储

发布时间：2022-04-04 17:02:06

① 数据是如何存储的

转自网友文章: 大型网站数据库优化
千万人同时访问的网站，一般是有很多个数据库同时工作，说明白一点就是数据库集群和并发控制，这样的网站实时性也是相对的。这些网站都有一些共同的特点：数据量大，在线人数多，并发请求多，pageview高，响应速度快。总结了一下各个大网站的架构，主要提高效率及稳定性的几个地方包括：1、程序
程序开发是一方面，系统架构设计（硬件+网络+软件）是另一方面。软件架构方面，做网站首先需要很多web服务器存储静态资源，比如图片、视频、静态页等，千万不要把静态资源和应用服务器放在一起。一个好的程序员写出来的程序会非常简洁、性能很好，一个初级程序员可能会犯很多低级错误，这也是影响网站性能的原因之一。
网站要做到效率高，不光是程序员的事情，数据库优化、程序优化这是必须的，在性能优化上要数据库和程序齐头并进！缓存也是两方面同时入手。第一，数据库缓存和数据库优化，这个由dba完成（而且这个有非常大的潜力可挖，只是由于我们都是程序员而忽略了他而已）。第二，程序上的优化，这个非常的有讲究，比如说重要一点就是要规范ＳＱＬ语句，少用in 多用or，多用preparestatement，另外避免程序冗余如查找数据少用双重循环等。另外选用优秀的开源框架加以支持，我个人认为中后台的支持是最最重要的，可以选取spring＋ibatis。因为ibatis直接操作SQL并有缓存机制。spring的好处就不用我多说了，ＩＯＣ的机制可以避免new对象，这样也节省开销。据我分析，绝大部分的开销就是在NEW的时候和连接数据库时候产生的，请尽量避免。另外可以用一些内存测试工具来做一个demo说明hibernate和ibatis谁更快！前台你想用什么就用什么，struts,webwork都成，如果觉得自己挺牛X可以试试用tapestry。用数据库也未必不能解决访问量巨大所带来的问题，作成静态文件硬盘的寻址时间也未必少于数据库的搜索时间，当然对资料的索引要下一翻工夫。我自己觉得门户往往也就是当天、热门的资料点击率较高，将其做缓存最多也不过1~2G的数据量吧，举个例子：◎ 拿网易新闻来说 http://news.163.com/07/0606/09/3GA0D10N00011229.html
格式化一下，方便理解：http://域名/年/月日/新闻所属分类/新闻ID.html
可以把当天发布的、热门的、流揽量大的作个缓寸，用hashtable（key：年-月-日-分类-ID，value：新闻对象），静态将其放到内存（速度绝对快过硬盘寻址静态页面）。通常是采用oracle存储过程＋2个weblogic，更新机制也几乎一样每签发一条新闻，就会生成静态页面，然后发往前端的web服务器，前端的web都是做负载均衡的。另外还有定时的程序，每5-15分钟自动生成一次。在发布新闻的同时将数据缓存。当然缓存也不会越来越大，在个特定的时间段（如凌晨）剔除过期的数据。做一个大的网站远没有想象中那么简单，服务器基本就要百十个的。这样可以大大增加一台计算机的处理速度，如果一台机器处理不了，可以用httpserver集群来解决问题了。2、网络
中国的网络分南北电信和网通，访问的ip就要区分南北进入不同的网络。3、集群通常会使用CDN与GSBL与DNS负载均衡技术，每个地区一组前台服务器群，例如：网易，网络使用了DNS负载均衡技术，每个频道一组前台服务器，一搜使用了DNS负载技术，所有频道共用一组前台服务器集群。网站使用基于Linux集群的负载均衡，失败恢复，包括应用服务器和数据库服务器，基于linux-ha的服务状态检测及高可用化。
应用服务器集群可以采用apache+tomcat集群和weblogic集群等；web服务器集群可以用反向代理，也可以用NAT的方式，或者多域名解析都可以；Squid也可以，方法很多，可以根据情况选择。4、数据库因为是千万人同时访问的网站，所以一般是有很多个数据库同时工作的，说明白一点就是数据库集群和并发控制，数据分布到地理位置不同的数据中心，以免发生断电事故。另外还有一点的是，那些网站的静态化网页并不是真的，而是通过动态网页与静态网页网址交换做出现的假象，这可以用urlrewrite这样的开源网址映射器实现。这样的网站实时性也是相对的，因为在数据库复制数据的时候有一个过程，一般在技术上可以用到hibernate和ecache，但是如果要使网站工作地更好，可以使用EJB和websphere，weblogic这样大型的服务器来支持，并且要用oracle这样的大型数据库。
大型门户网站不建议使用Mysql数据库，除非你对Mysql数据的优化非常熟悉。Mysql数据库服务器的master-slave模式，利用数据库服务器在主从服务器间进行同步，应用只把数据写到主服务器，而读数据时则根据负载选择一台从服务器或者主服务器来读取，将数据按不同策略划分到不同的服务器（组）上，分散数据库压力。
大型网站要用oracle，数据方面操作尽量多用存储过程，绝对提升性能；同时要让DBA对数据库进行优化，优化后的数据库与没优化的有天壤之别；同时还可以扩展分布式数据库，以后这方面的研究会越来越多；如果我来设计一个海量数据库，可能首先考虑的就是平行扩容性，原因很简单，我没有办法预估将来的数据规模，那我也就没有边界可言，因此，基本上首选dbm类哈希型数据库，甚至，对于实时性要求很高的数据库，可能会自行设计库。当我们使用业务描述脚本、事务批处理机、目录服务、底层存取来划分一个数据库系统之后，其实，所谓的海量数据需求，也就不是那么难办到了。嗯，这样还有一个额外的好处，就是由于平行扩容性很好，因此，前期可以以较低成本搭建一个简单的架子，后期根据业务量逐出扩容。这对很多企业来说，就是入门门槛很低，便于操作，且商业风险也小。MySQL比起动辄几十万美金，搭建豪华的Oracle平台，成本低多了。

② 怎样存储大数据

PB或多PB级基础设施与传统大规模数据集之间的差别简直就像白天和黑夜的差别，就像在笔记本电脑上处理数据和在RAID阵列上处理数据之间的差别。"
当Day在2009年加入Shutterfly时，存储已经成为该公司最大的开支，并且以飞快的速度增长。
"每N个PB的额外存储意味着我们需要另一个存储管理员来支持物理和逻辑基础设施，"Day表示，"面对大规模数据存储，系统会更频繁地出问题，任何管理超大存储的人经常都要处理硬件故障。大家都在试图解决的根本问题是：当你知道存储的一部分将在一段时间内出现问题，你应该如何确保数据可用性，同时确保不会降低性能？"RAID问题解决故障的标准答案是复制，通常以RAID阵列的形式。但Day表示，面对庞大规模的数据时，RAID解决问题的同时可能会制造更多问题。在传统RAID数据存储方案中，每个数据的副本都被镜像和存储在阵列的不同磁盘中，以确保完整性和可用性。但这意味着每个被镜像和存储的数据将需要其本身五倍以上的存储空间。随着RAID阵列中使用的磁盘越来越大（从密度和功耗的角度来看，3TB磁盘非常具有吸引力），更换故障驱动器的时间也将变得越来越长。
"实际上，我们使用RAID并不存在任何操作问题，"Day表示，"我们看到的是，随着磁盘变得越来越大，当任何组件发生故障时，我们回到一个完全冗余的系统的时间增加。生成校验是与数据集的大小成正比的。当我们开始使用1TB和2TB的磁盘时，回到完全冗余系统的时间变得很长。可以说，这种趋势并没有朝着正确的方向发展。"
对于Shutterfly而言，可靠性和可用性是非常关键的因素，这也是企业级存储的要求。Day表示，其快速膨胀的存储成本使商品系统变得更具吸引力。当Day及其团队在研究潜在技术解决方案以帮助控制存储成本时，他们对于一项叫做纠删码（erasure code）的技术非常感兴趣。
采用擦除代码技术的下一代存储
里德-所罗门纠删码最初作为前向纠错码（Forward Error Correction, FEC）用于不可靠通道的数据传输，例如外层空间探测的数据传输。这项技术还被用于CD和DVD来处理光盘上的故障，例如灰尘和划痕。一些存储供应商已经开始将纠删码纳入他们的解决方案中。使用纠删码，数据可以被分解成几块，单块分解数据是无用的，然后它们被分散到不同磁盘驱动器或者服务器。在任何使用，这些数据都可以完全重组，即使有些数据块因为磁盘故障已经丢失。换句话说，你不需要创建多个数据副本，单个数据就可以确保数据的完整性和可用性。
基于纠删码的解决方案的早期供应商之一是Cleversafe公司，他们添加了位置信息来创建其所谓的分散编码，让用户可以在不同位置（例如多个数据中心）存储数据块或者说数据片。
每个数据块就其自身而言是无用的，这样能够确保隐私性和安全性。因为信息分散技术使用单一数据来确保数据完整性和可用性，而不是像RAID一样使用多个副本，公司可以节省多达90%的存储成本。
"当你将试图重组数据时，你并不一定需要提供所有数据块，"Cleversafe公司产品策略、市场营销和客户解决方案副总裁Russ Kennedy表示，"你生成的数据块的数量，我们称之为宽度，我们将重组数据需要的最低数量称之为门槛。你生成的数据块的数量和重组需要的数量之间的差异决定了其可靠性。同时，即使你丢失节点和驱动器，你仍然能够得到原来形式的数据。"

③ 数据结构如何存储数据

存储数据是磁盘的技术
数据结构存储一般就是数组、结构体、
结构体串起来有用数组，链表的形式
链表结构复杂化就出现了树和图
所以数据结构只管数据之间的关系

④ 计算机中如何存储数据

集中存储数据的方法是以二进制存储所有信息，并且以文件的方式来存取的

⑤ 内存存储数据，是怎么存储的存储的是什么样的数据是101001010010之类的吗

1、内存条是一个非常精密的部件，包含了上亿个电子元器件，它们很小，达到了纳米级别。这些元器件，实际上就是电路；电路的电压会变化，要么是 0V，要么是 5V，只有这两种电压。5V 是通电，用1来表示，0V 是断电，用0来表示。所以，一个元器件有2种状态，0 或者 1。

2、我们通过电路来控制这些元器件的通断电，会得到很多0、1的组合。例如，8个元器件有 28=256 种不同的组合，16个元器件有 216=65536 种不同的组合。虽然一个元器件只能表示2个数值，但是多个结合起来就可以表示很多数值了。

3、我们可以给每一种组合赋予特定的含义，例如，可以分别用 1101000、00011100、11111111、00000000、01010101、10101010 来表示我、是、一、个、好、人这几个字，那么结合起来 1101000 00011100 11111111 00000000 01010101 10101010 就表示“我是一个好人”

4、一般情况下我们不一个一个的使用元器件，而是将8个元器件看做一个单位，即使表示很小的数，例如 1，也需要8个，也就是 00000001。1个元器件称为1比特（Bit）或1位，8个元器件称为1字节（Byte），那么16个元器件就是2Byte，32个就是4Byte，以此类推：

8×1024个元器件就是1024Byte，简写为1KB；

8×1024×1024个元器件就是1024KB，简写为1MB；

8×1024×1024×1024个元器件就是1024MB，简写为1GB。

5、介绍一下单位换算：

1Byte = 8 Bit

1KB = 1024Byte = 210Byte

1MB = 1024KB = 220Byte

1GB = 1024MB = 230Byte

1TB = 1024GB = 240Byte

1PB = 1024TB = 250Byte

1EB = 1024PB = 260Byte

6、我们平时使用计算机时，通常只会设计到 KB、MB、GB、TB 这几个单位，PB 和 EB 这两个高级单位一般在大数据处理过程中才会用到。

7、在内存中没有abc这样的字符，也没有gif、jpg这样的图片，只有0和1两个数字，计算机也只认识0和1。所以，计算机使用二进制，而不是我们熟悉的十进制，写入内存中的数据，都会被转换成0和1的组合。

⑥ 数据库是如何实现数据的存储的

数据库的存储文件是以页为单位(8K)存储在硬盘上....
http://blog.csdn.net/feixianxxx/archive/2010/01/24/5249919.aspx

⑦ 计算机是怎么存储数据的

数据结构为计算机存储、组织数据的方式。数据结构指相互之间存在一种或多种特定关系的数据元素的集合。通常情况下，精心选择的数据结构可以带来更高的运行或者存储效率。数据结构往往同高效的检索算法和索引技术有关。

数据存储对象包括数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。数据以某种格式记录在计算机内部或外部存储介质上。数据存储要命名，这种命名要反映信息特征的组成含义。数据流反映了系统中流动的数据，表现出动态数据的特征；数据存储反映系统中静止的数据，表现出静态数据的特征。

(7)数据如何存储扩展阅读

磁盘和磁带都是常用的存储介质。数据存储组织方式因存储介质而异。在磁带上数据仅按顺序文件方式存取；在磁盘上则可按使用要求采用顺序存取或直接存取方式。数据存储方式与数据文件组织密切相关，其关键在于建立记录的逻辑与物理顺序间对应关系，确定存储地址，以提高数据存取速度。

⑧ 计算机是如何存储数据的

计算机只能存储数字。其他数据都需要转换成数字进行存储。
计算机的每个存储单元有两种状态:充电和不充电，利用充电和不充电分别表示0和1，所以存储数字,只需要将数字转换为二进制的0和1就可以了。
存储英文则利用ASCⅡ将字母转化为数字存储。
存储中文最开始利用GB2312/GBK，现在用unicode字符集转换成数字存储。unicode字符集包含所有字符；

⑨ 硬盘是如何存储数据的

硬盘数据存储原理

硬盘是一种采用磁介质的数据存储设备，数据存储在密封于洁净的硬盘驱动器内腔的若干个磁盘片上。这些盘片一般是在以铝为主要成分的片基表面涂上磁性介质所形成，在磁盘片的每一面上，以转动轴为轴心、以一定的磁密度为间隔的若干个同心圆就被划分成磁道（track），每个磁道又被划分为若干个扇区（sector），数据就按扇区存放在硬盘上。在每一面上都相应地有一个读写磁头（head），所以不同磁头的所有相同位置的磁道就构成了所谓的柱面（cylinder）。传统的硬盘读写都是以柱面、磁头、扇区为寻址方式的（CHS寻址）。硬盘在上电后保持高速旋转（5400转/min以上），位于磁头臂上的磁头悬浮在磁盘表面，可以通过步进电机在不同柱面之间移动，对不同的柱面进行读写。所以在上电期间如果硬盘受到剧烈振荡，磁盘表面就容易被划伤，磁头也容易损坏，这都将给盘上存储的数据带来灾难性的后果。

硬盘的第一个扇区（0道0头1扇区）被保留为主引导扇区。在主引导区内主要有两项内容：主引导记录和硬盘分区表。主引导记录是一段程序代码，其作用主要是对硬盘上安装的操作系统进行引导；硬盘分区表则存储了硬盘的分区信息。计算机启动时将读取该扇区的数据，并对其合法性进行判断（扇区最后两个字节是否为0x55AA或0xAA55 ），如合法则跳转执行该扇区的第一条指令。所以硬盘的主引导区常常成为病毒攻击的对象，从而被篡改甚至被破坏。可引导标志：0x80为可引导分区类型标志；0表示未知；1为FAT12；4为FAT16；5为扩展分区等等。

硬盘信息与硬盘数据恢复

在计算机的CMOS中也存储了硬盘的信息，主要有硬盘类型、容量、柱面数、磁头数、每道扇区数、寻址方式等内容，对硬盘参数加以说明，以便计算机正确访问硬盘。当CMOS因故掉电或发生错误时，硬盘设置可能会丢失或错误，硬盘访问也就无法正确进行。这种情况我们就必须重新设置硬盘参数，如果事先已记下硬盘参数或者有某些防病毒软件事先备份的CMOS信息，只需手工恢复即可；否则也可使用BIOS设置（setup）中的“自动检测硬盘类型”（HD type auto detection）的功能，一般也能得到正确的结果。
硬盘故障大体上可以分为软故障和硬故障两大类，具体有硬盘操作系统被损坏、硬盘主引导区被破坏、 FAT表表被破坏、CMOS硬盘参数不正确、硬盘控制器与硬盘驱动器未能正常连接、硬盘驱动器或硬盘控制器硬件故障、主板故障等情况。比如：
开机自检过程中，屏幕提示“Hard disk drive failure”或类似信息，则可以判断为硬盘驱动器或硬盘控制器（提示“Hard drive controller failure”）硬件故障。
开机自检过程中，屏幕提示“Hard disk not present”或类似信息，则可能是CMOS硬盘参数设置错误或硬盘控制器与硬盘驱动器连接不正确。
开机自检过程中，屏幕提示“Missing operating system”、“Non OS” 、“Non system disk or disk error，replace disk and press a key to reboot”等类似信息，则可能是硬盘主引导区分区表被破坏、操作系统未正确安装或者CMOS硬盘参数设置错误等。
开机用软盘启动后无法进入C盘，可能是分区表被破坏，硬盘数据恢复是可以的。

阅读全文

与数据如何存储相关的资料

热点内容

达州肉禽批发市场有哪些地方发布：2025-03-14 04:27:57 浏览：664

安信国际交易宝如何销户发布：2025-03-14 02:18:06 浏览：86

西门子828d子程序能用什么开头发布：2025-03-14 02:15:01 浏览：392

时光代理人ed歌词有多少句发布：2025-03-14 01:37:39 浏览：121

健康产品加盟怎么代理发布：2025-03-14 00:49:11 浏览：897

正规的钙片批发适合哪些人代理发布：2025-03-14 00:47:09 浏览：198

太豆期货怎么交易发布：2025-03-14 00:30:18 浏览：212

王义聊营销如何开发新产品发布：2025-03-14 00:13:18 浏览：571

一个数据分析怎么做发布：2025-03-14 00:07:24 浏览：83

化州哪个市场比较多人发布：2025-03-13 23:55:05 浏览：842

小米平衡车怎么代理发布：2025-03-13 22:45:55 浏览：136

如何写申请律师代理协议书发布：2025-03-13 22:38:18 浏览：564

三支一扶信息在哪里查询发布：2025-03-13 22:29:33 浏览：598

降序后数据错乱是怎么回事发布：2025-03-13 22:25:07 浏览：386

如何判断微信号是否真实信息发布：2025-03-13 21:59:52 浏览：71

信息检索有哪些实用工具发布：2025-03-13 21:59:48 浏览：184

柜体设计封边信息怎么填发布：2025-03-13 21:44:47 浏览：74

芜湖有哪些花鸟鱼虫市场发布：2025-03-13 21:26:02 浏览：929

王俊凯主要做哪些数据发布：2025-03-13 21:24:27 浏览：931

大数据中心重难点和亮点有哪些发布：2025-03-13 21:06:00 浏览：978