导航:首页 > 数据处理 > 文字数据有哪些

文字数据有哪些

发布时间:2022-12-30 16:04:02

Ⅰ 什么是文字型数据

文字型数据应该就是用文字表达的数据,文本型数据就是这些数据是当作文本存在的。具体你何以找 易捷PDF转换 他们介绍的会比较详细一点。

Ⅱ EXCEL电子表格中有哪些数据类型

Excel中的数据类型包括数值、文本、日期时间及逻辑值和错误值。
1、数值。数值是指所有代表数量的数字形式,如企业的产值和利润、学生成绩、个人的身高体重等。数值可以是正数,也可以是负数,并且都可以用于计算。除了普通的数字外,还有一些带有特殊符号的数字也会被Excel识别为数值,如百分号。
2、文本。文本通常是指一些非数值性的文字、符号等,如企业名称、驾校考试科目、员工姓名等。此外,很多不需要进行数值计算的数字也可以保存为文本形式,如电话号码、身份证号码、银行卡号等。
3、日期和时间。在Excel中,日期和时间是以一种特殊的“序列值”形式存储的。在Windows操作系统上所使用的Excel版本中,日期系统默认为“1900日期系统”,即以1900年1月1日作为序列值的基准日期,这一天的序列值计为1,这之后的日期均以距离基准日期的天数作为其序列值。

Ⅲ 文字大数据是指文学作品

10年前,《纽约时报》刊文描述了大数据技术对社会生活诸多方面的影响,认为“大数据时代”已经来临,但并没有引发大规模讨论和预想的轰动效应,回应者寥寥无几。这种平静表明人们已经适应和融入了大数据生活,不再感觉陌生和惊奇。“大数据”已经从一个全新的学理概念、政策制度和发展战略,转变为确定的生活常识。在全新的时代语境中,大数据技术也改变了文学创作,产生了文学新样态及其相关数据。例如,游戏文学、界面文学和赛博格文学等。这些文学的写作主体、叙述内容、审美原则、传播机制和读者接受都发生了革新。可以说,大数据技术对文学生态产生了颠覆式影响。

利用计算机技术,以量化统计的方式研究文学,是否行得通

为了应对这些新变,文学批评需要及时调整批评方法。这也是文学批评的技术化转向和文学计算兴起的重要原因之一。传统意义上,“文学数据”是指文学作品和文学研究文献电子化后产生的数据,具有体量小、易分析和好管理等特征,集中体现为各种类型的文学数据库和文学研究数据库。例如,鲁迅文学作品及其研究资料电子化后形成的鲁迅文学数据库和鲁迅研究数据库。

而“文学大数据”是指文学作品和文学研究文献在互联网、物联网和社交网传播过程中产生的文学数据,具有体量大、动态化、类型多、提取难、价值密度低和不易管理等特征。例如,一部文学作品在微信、微博等社交网络传播后,会产生关于此作品的海量评价,除了文字评价,还包括图片、音乐、链接、表情包、弹幕、点赞等多种数据。分析这些大数据,可以获取读者的年龄、职业和地域,文学作品表达的思想情感是否与社会提倡的价值观念相吻合,此部文学作品讲述的故事与哪些中外文学作品相似,读者是否喜欢这类文学作品等诸多内容。这些海量数据的整理和分析单纯依靠人工难以完成,需要相关计算技术的支撑。因此,文学计算应运而生。

简单而言,文学计算是指利用计算机技术,以量化统计的方式研究文学,具有明显的跨学科性。文学计算在古代文学研究中应用较为广泛,尤其在唐诗和明清小说研究方面发力较深,涉及版本考证、作者辨伪和人物功能分析等多个领域。例如,20世纪80年代陈大康、钱峰等人曾提出文学研究与计算机科学相结合的观念,并以量化统计方法研究《红楼梦》。通过统计词频、词长和段落长度变化,考证《红楼梦》作者,分析审美特征等。但受制于计算技术,只分析了《红楼梦》一部作品。直至新世纪,随着计算技术和通信技术的快速发展,以及文学计算理论的普及,文学计算才大范围崛起。刘石、赵薇、王贺等一批学者深耕此领域,取得了开创性成果,推动了国内文学计算的发展。

大数据介入文学批评,可能带来思维上的变革

文学计算不仅是批评方法的转向,而且是批评思维的变革。首先,从主观理论建构到客观数据实证。一般意义上,文学批评注重文学理论和审美建构,阐释对象以单篇或同一类型的文学作品为主。带有很强的个人主观性,难免形成视域盲区,理论的有效性经常受到质疑。例如,文学批评在建构现实主义文学理论时,经常以巴尔扎克的《人间喜剧》、托尔斯泰的《战争与和平》等作品为例。以此得出的观点可以适用西方19世纪现实主义文学,但对中国现实主义文学不一定适用。或者说,文学批评的理论和审美建构因缺乏大规模文学作品的支撑,提出的观点只契合小部分作品,无法真正构建普遍适用于“世界文学”的理论。

计算技术提升了整理和分析大规模文学作品的能力。谷歌图书在2010年已经收集了全球1.3亿册图书数据,而且每年都在成倍增长。因而,文学批评不再局限于小部分文学作品分析,可以把批评对象延伸到世界文学作品,让全球文学数据自己“说话”。在此基础上,可以得出更为客观和普遍有效的结论。

其次,从确证因果关系到呈现相关关系。确证因果关系是指批评者通过分析文学作品,证实文学作品与具体历史和现实事件之间的因果联系。这种批评思维对小部分文学作品有效,但面对大规模的文学作品则难以实践。例如,文学批评在阐释20世纪30年代乡土小说时,致力于确证乡土小说与日本侵华战争的因果关系。因此,解读的重心就放在乡土小说反抗日本殖民统治和表现强烈民族意识上。这种批评思维可以适用于萧红的《生死场》和萧军的《八月的乡村》,却无法用来解读同时期沈从文的《边城》和师陀的《果园城记》等作品。

而文学相关关系是指文学作品与历史和现实事件之间的数值关系。当一部文学作品数值增加时,相关历史社会和现实事件也随之增加,意味着它们之间的相关关系强,反之则亦然。例如,在互联网搜索“乡土小说”时,出现的信息既包括鲁迅、彭家煌等作家作品,又包括五四运动、封建专制文化等历史事件和背景。当这些作家作品和历史事件共同且持续出现在不同的“乡土小说”词条中时,它们之间的相关关系就强。也就是说,文学计算不再需要主观确证文学与历史和现实之间的因果联系,只需通过分析文学数据之间的相关关系,就可以客观呈现这种因果联系,相对更客观和不受主观偏见的影响。

再次,从单向度的文学思维转向多维度的跨文学思维。本质上,文学批评始终在追问“文学是什么”的问题。回答的角度、逻辑和结论都与文学的审美性和精神性相关。但这也忽略了文学之外的众多因素。出现这种状况的重要原因之一是在互联网、物联网兴起之前,没有出现真正的文学大数据和缺乏分析文学大数据的工具。随着这一困境的解决,非文学数据也可以参与回答“文学是什么”的问题。这样,就可以突破文学的边界,进入自然科学、社会科学和艺术学等其他领域来重新界定文学及其相关知识,构建新的文学批评阐释框架和理论基础,重建学科体系、学术体系和话语体系。

例如,文学批评可以借助神经科学分析人物情感,利用数学建模分析人物社会网络,运用自然语言科学分析文学叙述语言审美特性等。以此为研究者提供多维度、差异化的研究视角和材料,拓展文学批评边界,提升重释文学的能力。同样,文学也可以进入其他学科,以自身独特的人文性为其他学科注入精神和审美因素,实现文学批评的跨学科发展。

力求有效调和“人文文化”与“科学文化”之间的矛盾关系

文学批评的技术化有诸多优势,但也存在需要调整和修正的局限。文学计算的基本原理是依据计算模型分析文学数据是否符合计算规则,但无法判断数据的真假和分析其中蕴含的主观观念。或者说,文学计算只负责回答与规则对应的文学数据“怎么样”的问题,而无法阐述“为什么”的问题。例如,文学计算可以统计出在20世纪40年代有哪些作家到过上海、写了哪些文学作品,并以可视地图方式呈现出现,却无法回答为什么这些作家作品会在这个时间集中出现在上海,与上海有何种关系等问题。这样就需要批评主体凭借自身的主观智能找出其中的原因。

文学计算指涉的对象是文学数据,而非文学数据背后的精神意义。例如,文学计算可以统计鲁迅《秋夜》中有两棵枣树,但无法呈现两颗枣树蕴含的孤独体验。这也是文学计算备受诟病的致命缺陷。因此需要批评主体赋予文学数据以价值导向和精神内涵。

文学计算始终秉持“非此即彼”的极化思维。符合规则的为“是”,反之为“否”,排除了规则之外的中间化和模糊化的文学数据,使文学批评滑向判断文学数据“真”和“假”的游戏。例如,如果文学计算设置“牺牲”为判定革命英雄人物的规则,那么符合此规则的为“是”,反之为“否”。但这一规则无法判定《风声》等谍战小说中类似阿炳这样凭借特异天赋成为革命英雄的人物。

文学计算以文学数据的最大公约数为依据阐释文学。但文学本身就是建立在个体对现实差异化理解和表述基础上,充满了变动和偶然,这也是文学的重要魅力。因此,正如学者张福贵所说,文学计算能否“从历史的长线来对文学史现象和作家作品做出相对超越性的评价,是存有疑问和不无难度的”。

虽然文学批评的技术化转向存在诸多问题,但这不是我们否认它的理由,应该辩证看待这种转向,既要汲取它的合理性,也要寻找解决问题的路径。事实上,这些问题都是“人文文化”与“科学文化”矛盾关系的体现。从20世纪五六十年代提出人文与科学冲突的命题至今,这种二元对立思维始终没能有效调和。关于文学批评技术化的争议也多与此有关。如果我们能摆脱这种极化思维,以文学大数据和文学计算作为验证文学人文思想的基础和方法,以人文思想丰富文学大数据和文学计算的精神价值,实现二者的对话和融通,那么文学批评技术化转向就有无限美好的未来。

(作者:杨丹丹,系河南师范大学文学院副教授,本文系国家社会科学基金项目“人工智能写作本体研究”〔20BZW175〕阶段性研究成果)

打开App看更多精彩内容
热门新闻打开App看热榜话题 >
郭台铭,输了
市场资讯300条评论2022-12-21 20:34:06
央企重组大动作 中国中钢整体划入中国宝武
中证报23条评论2022-12-22 05:29:03
默沙东新冠口服药国产仿制药将上市?专家称存在专利侵权风险
界面新闻297条评论2022-12-21 17:10:13
暴涨近250%!监管出手 “跨年大妖”还有戏吗?知名烤鸭也卖白酒?回应来了!
市场资讯45条评论2022-12-22 07:34:51
国务院批准,重磅重组!涉及12家上市公司,又一央企巨无霸诞生!
上海证券报14条评论2022-12-21 18:02:38
重磅!证监会出手,五方面推动资本市场改革,涉及注册制、房地产市场、中长期资金入市…看十大关键点
券商中国91条评论2022-12-22 00:49:58

热门评论
目前没有热门评论,去评论

快来发表你的观点
推荐阅读

身陷瓶颈的文具产业,能“写”出怎样的文章?
市场资讯2022-11-07 15:02:33

后疫情时代 大学生如何应对数字化生存
中国青年报2022-11-04 05:53:08

“现实可比书里精彩太多了!”
媒体滚动2022-11-12 16:03:54

不确定性时代,个体应变的七条指南 | 长江读书378期
长江商学院2022-10-15 12:55:35

李扬:在普及数字化发展的同时,要启动前瞻性研究,关注数字化带来的新问题
新浪财经2022-11-16 17:16:54

AI绘画兴起 内容产业迎变革前夜
中国经营报2022-11-06 09:28:17

中国数字经济发展有“换道超车”的机会 | 行业观察
巴伦周刊2022-11-12 23:55:53

网文撕裂,阅文挣扎
创事记2022-11-10 11:54:42

为什么说“数字化”是今天的一切,未来的开端?
节点财经2022-11-11 18:34:29

李彦宏:要卷就卷创新
智趣财经社2022-11-09 17:25:10
说说你的看法...
A-A+

Ⅳ 数据包括什么和什么

数据(data)是对客观事物的符号表示,是用于表示客观事物的未经加工的原始素材,如图形符号、数字、字母等。或者说,数据是通过物理观察得来的事实和概念,是关于现实世界中的地方、事件、其他对象或概念的描述。

在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。是组成地理信息系统的最基本要素。种类很多,按性质分为:①定位的,如各种坐标数据;②定性的,如表示事物属性的数据(居民地、河流、道路等);③定量的,反映事物数量特征的数据,如长度、面积、体积等几何量或重量、速度等物理量;④定时的,反映事物时间特性的数据,如年、月、日、时、分、秒等。按表现形式分为:①数字数据,如各种统计或量测数据;②模拟数据,由连续函数组成,又分为图形数据(如点、线、面)、符号数据、文字数据和图像数据等。按记录方式分为地图、表格、影像、磁带、纸带。按数字化方式分为矢量数据、格网数据等。在地理信息系统中,数据的选择、类型、数量、采集方法、详细程度、可信度等,取决于系统应用目标、功能、结构和数据处理、管理与分析的要求。

Ⅳ 基本数据类型有哪些

基本数据类型:byte、short、int、long、float、double、boolean、char。

任何数据类型的数组都需要20个字节的内存空间,加上每一数组维数占4个字节,再加上数据本身所占用的空间。数据所占用的内存空间可以用数据元数目乘上每个元素的大小加以计算。

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。

数据可以是连续的值,比如声音、图像,称为模拟数据;也可以是离散的,如符号、文字,称为数字数据。

在计算机系统中,数据以二进制信息单元0、1的形式表示。

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。

它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,“0、1、2…”、“阴、雨、下降、气温”、“学生的档案记录、货物的运输情况”等都是数据。数据经过加工后就成为信息。

在计算机科学中,数据是所有能输入计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。计算机存储和处理的对象十分广泛,表示这些对象的数据也随之变得越来越复杂。

Ⅵ 什么是plc的字数据

结合信捷PLC可以看出,能表示状态的软元件有X、Y、M、S、T、C这些,我们也称这些软元件为位软元件。 (可以结合 计算机 以二进制处理数据来理解) 2、字 字是由16个位组合构成的,字用来存放数据的软元件,存放数据时,最高位为符号位。 结合信捷PLC可以看出能存数据的软元件有数据寄存器D等,我们也称D为字软元件。 3、双字 双字是由2个字构成,也就是 …

Ⅶ 目前常用的手写字体(数字,字母,汉字)数据集有哪些

1 cifar10数据库

60000张32*32 彩色图片 共10类

50000张训练

10000张测试

下载cifar10数据库

这是binary格式的,所以我们要把它转换成leveldb格式。

2 在../caffe-windows/examples/cifar10文件夹中有一个 convert_cifar_data.cpp

将他include到MainCaller.cpp中。如下:

编译....我是一次就通过了 ,在bin文件夹里出现convert_cifar_data.exe。然后 就可以进行格式转换。binary→leveldb

可以在bin文件夹下新建一个input文件夹。将cifar10.binary文件放在input文件夹中,这样转换时就不用写路径了。

cmd进入bin文件夹

执行后,在output文件夹下有cifar_train_leveldb和cifar_test_leveldb两个文件夹。里面是转化好的leveldb格式数据。

当然,也可以写一个bat文件处理,方便以后再次使用。

3 下面我们要求数据图像的均值

编译../../tools/comput_image_mean.cpp

编译成功后。接下来求mean

cmd进入bin。

执行后,在bin文件夹下出现一个mean.binaryproto文件,这就是所需的均值文件。

4 训练cifar网络

在.../examples/cifar10文件夹里已经有网络的配置文件,我们只需要将cifar_train_leveldb和cifar_test_leveldb两个文件夹还有mean.binaryproto文件拷到cifar0文件夹下。

修改cifar10_quick_train.prototxt中的source: "cifar-train-leveldb" mean_file: "mean.binaryproto" 和cifar10_quick_test.prototxt中的source: "cifar-test-leveldb"
mean_file: "mean.binaryproto"就可以了,

后面再训练就类似于MNIST的训练。写一个train_quick.bat,内容如下:

[plain] view plain
..\\..\\bin\\MainCaller.exe ..\\..\\bin\\train_net.exe
SET GLOG_logtostderr=1
"../../bin/train_net.exe" cifar10_quick_solver.prototxt
pause

Ⅷ 数据什么是数值型数据什么时候是字符型数据请举例说明

数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值,现实中所处理的大多数都是数值型数据。如收入300元、年龄2岁、考试分数100分、重量3公斤等,这些数值就是数值性数值。

字符型数据是不具计算能力的文字数据类型,用字母C表示。它包括中文字符、英文字符、数字字符和其他ASCⅡ字符,其长度(即字符个数)范围是0-255个字符,即0x00至0xFF。

(8)文字数据有哪些扩展阅读:

数值型数据它包括中文字符、英文字符、数字字符和其他ASCⅡ字符,其长度(即字符个数)范围是0-255个字符,即0x00至0xFF。

数据分析过程中,往往需要对数据作基本的探索性分析,查看数据是否存在问题,如缺失值数量、是否存在明显的异常值、数据是如何分布的、数据的集中趋势和离散趋势等。

Ⅸ 在excel2016中文字数据包括

在excel2016中文字数据包括:汉字,英文字母,文本型数字,标点符号组成。Excel的数据类型主要分为文本、数值、逻辑值和错误值四种类型,其中,文本型数据主要包括汉字、英文字母和文本型数字字符串,在单元格中,输入中文或英文字符串时,Excel可自动识别为文本,在默认的单元格格式下,文本数据在单元格中左对齐。

阅读全文

与文字数据有哪些相关的资料

热点内容
验证机顶盒信息需要多久 浏览:615
同行恶意败坏产品如何处理 浏览:911
俯卧撑一天做多少合适官方数据 浏览:73
版本信息里哪个是屏幕信息 浏览:627
潍坊旧货市场在哪里都卖什么 浏览:147
如何避免产品刺伤 浏览:807
以前收到的信息如何删除 浏览:104
自己配眼镜框需要哪些数据 浏览:983
嘉寓的基本信息是什么 浏览:643
山楂树下如何做代理 浏览:354
信息类是什么样子 浏览:503
酱香型酒代理多少钱 浏览:418
刚毕业程序员进公司一般怎么安排 浏览:152
九州证券股票交易佣金是多少 浏览:950
纺纱厂技术人员都有哪些 浏览:425
如何查看一个程序的ip 浏览:196
基金交易不分红怎么办 浏览:997
汽车美容抛光技术没人教怎么办 浏览:786
头条二十亿参加活动产品有哪些 浏览:826
省市总代理需要多少钱 浏览:509