在大模型训练中,数据分析是确保模型性能和训练效率的关键步骤。通过对训练数据进行全面的分析,可以发现潜在的问题和优化空间,提高模型的整体效果。以下是数据分析过程中需要重点关注的方面及其要点:
数据质量
准确性:检查数据是否有错误、错别字或不正确的标签。错误的数据会误导模型学习,降低其准确性。
完整性:确保数据集的完整性,避免缺失值或不完整的样本。缺失数据可能导致训练偏差。
数据分布
类别分布:分析分类任务中的类别分布,确保数据集中的类别分布均衡。如果类别不均衡,模型可能会偏向多数类别。
特征分布:对于回归或其他任务,检查特征的分布情况,确保没有异常值或过度偏斜的分布。
数据多样性
文本多样性:在NLP任务中,检查文本的多样性,包括词汇、句法结构和主题。多样性高的数据集有助于提高模型的泛化能力。
样本多样性:确保数据集中包含足够多样的样本,以覆盖不同的场景和情况。
文本长度
长度分布:分析文本长度的分布情况,确定合适的最大长度和最小长度。这有助于设定模型输入的最大序列长度,优化资源使用。
截断和填充:研究需要截断和填充的样本比例,确保截断和填充策略不会显著影响 ...
我们组的项目是基于大模型的知识问答教育系统,我在前期的任务是数据采集和处理清洗,以便于构建数据集训练大模型。
基于调查研究,我对于数据收集的关键点做出了以下归纳。
准确性:确保数据来源可靠,内容准确无误。错误的信息会导致模型输出错误答案,影响用户体验和教育效果。
更新性:确保数据是最新的,特别是对于动态变化的领域,如科技、法律等。
教育层次:覆盖从基础教育到高等教育的内容,适应不同学习阶段的用户需求。
结构化数据:优先选择结构化数据(如数据库、表格),便于处理和分析。
隐私保护:确保用户数据的匿名化处理,避免泄露个人信息。
合规性:遵守数据保护法律法规,如GDPR等,确保数据收集和使用过程中的合法合规性。
在开始的时候,我准备从百度百科、csdn等知识网站上收集数据,但是我发现这些网站上的数据质量良莠不齐,有的甚至有常识性错误,难以在爬取的时候进行分辨;并且这些数据的格式不一致,在后期处理的时候会造成麻烦,于是放弃。
然后我找到了Hugging Face 的 Datasets 库,这个库提供了大量预构建的数据集,涵盖了广泛的任务和领域,包括文本分类、情感分析、机器翻译、 ...
记录我大三下学期网络安全课程的作业及实验
作业要求作业目的
试用iptables命令的基本参数和配置功能,为其他实验项目准备;
练习git提交作业的方法
任务内容在自己的笔记本机器上,
使用vmware建立linux虚拟机实验环境,
先执行“iptables -F”清除可能已有的规则,
然后自己设计实验步骤和操作命令,通过检查“五元组”实现防火墙的基本功能,包括但不限于:
关闭或开放某个服务(端口)
关闭或开放某个主机(ip)
关闭或开放某个协议
其他配置功能
进阶功能:可选
部署和测试NAT功能
试用Nftables/nft
git提交撰写md格式或doc格式(不是docx格式)完成报告,提交到git。
DDL下次课(3.20)之前,git自动记录提交时间。
报告另起文档,格式可以采用技术博客风格,或者学院实验报告模板。
实验内容储备知识
在进行实验前,我先对iptables的知识进行了回顾和查阅拓展,对于其概念和用法有了更清晰的认识。
什么是 iptables?iptables 是一个用于配置 Linux 内核中 IPv4 数据包过滤器和网络地址转 ...
1.各种aaS2.传统ACID原子性:undolog ——在SQL执行前先于数据持久化到磁盘
持久性:都要过磁盘IO(巨大开销)——引入BufferPool机制
隔离性:隔离级别越高开销越大,同时并发程度下降
一致性:一致性是事务追求的最终目标,前面提到的原子性、持久性和隔离性,都是为了保证数据库状态的一致性
支持事务就意味着ACID
3.why NoSQL关系型数据库瓶颈在上面可以看到,传统数据库为了保证其ACID特性开销是相当大的,几乎所有操作都要到磁盘I/O当中,因此在高并发条件下,磁盘I/O就很容易导致性能瓶颈。【最终表现是在高并发条件下读写慢,即使有各类缓冲池存在,(设计初衷不同,对内存的优化不够好)】
此外,在基于web的结构当中,数据库是最难进行横向扩展的,当一个应用系统的用户量和访问量与日俱增的时候,数据库却没有办法像web server和app server那样简单的通过添加更多的硬件和服务节点来扩展性能和负载能力。对于很多需要提供24小时不间断服务的网站来说,对数据库系统进行升级和扩展是非常痛苦的事情,往往需要停机维护和数据迁移。
对网站来说, ...
这门课知识体系实在很杂,涉及到大数据、sql&nosql、机器学习很多领域,而且深度不一,浅到概念深到算法原理,整理起来实在麻烦。于是秉承着极简的理念整理了这份概念文档,应付考试绰绰有余了,对某个点感兴趣的自行搜索。
第一二讲 引言总体上是概论部分,可能考的也就名词解释了,总结如下:
什么是大数据,大数据的界限,4V大数据是一种数据规模大到 在数据的获取管理,存储处理,分析计算都远远超过传统数据库软件工具处理范围的 数据集合。
大数据的界限是PB
4V: 体量巨大、速度极快(高实时性)、模态多样、价值密度低(但商业价值高)
什么是数据科学 基于传统的数学,统计学的理论和方法,运用计算机技术进行大规模的数据计算,分析,应用的学科
数据处理的一般步骤是什么 采集,表示与存储,预处理(清洗,集成等),建模分析,可视化,决策
第四五讲 数据采集与整理数据预处理基本方法:数据清理,数据集成,数据变换,数据规约
why预处理因为有脏数据,在数据挖掘工作中,脏数据是指不完整、含噪声、不一致的数据
why脏数据?
不完整,有些数据属性的值丢失或不确定;缺失必要数据,例:缺失学生成绩
不准 ...
本文档是根据任课老师所给提纲及课件等资料进行整理的,对于名词解释和简答题基本做到了全覆盖。但判断和选择题非常灵活,这份文档就显得不够用了。
标题后带*号的为次重点
复习建议:1.按照老师纲要整理知识点,全文背诵。2.注意对概念的理解,应对选择判断
第一章 软件工程概述1.1软件工程(SE)的定义、目的、方法及作用定义:在将有关软件开发与应用的概念科学体系化的基础上,研究如何有计划、有效率、 经济地开发和利用能在计算机上正确运行的软件理论和技术工程的方法学,以及一些开发和维护软件的方法、过程、原则等。它是一个系统工程,既有对技术问题的综合分析,也有对开发过程和参与者的管理。
目的:以计算机科学理论和计算机功能为基础,通过对要解决问题的本质的了解,采用相应的工具和技术,实现设计方案,推出高质量的软件产品。在给定成本、进度的前提下,开发出具有适用性、有效性、可修改性、可靠性、可理解性、可维护性、可重用性、可移植性、可追踪性、可互操作性和满足用户需求的软件产品。追求这些目标有助于提高软件产品的质量和开发效率,减少维护的困难。
方法:面向对象模式,结构化模式,基于过程的模式等。
作用:付 ...
经过前面对物理层、数据链路层、网络层的学习,我们明白了如何实现点到点的可靠的传输,明白了网络中的一系列路由算法,走进传输层,我们首先要明白这一层实现的是端到端的可靠的传输,是基于不可靠的网络层之上的。
为什么之前为确保可靠而使用的超时重传和确认机制在这里会导致不可靠呢?这是因为与简单的主线(Bus)相比,我们这里所处于的是网络之中,网络里的节点是具备缓存能力的,由此可能导致分组的滞留,而简单的超时重传等机制产生的重复分组会在网络通信中引发很大的问题。基于这个现状,我们聪慧的前辈们想出利用选号和三次握手机制建立和拆除TCP 连接的方法克服了网络中重复分组引发的问题,在不可靠的IP 层之上实现的可靠的数据传输协议TCP。
本章还涉及了UDP 协议的相关内容,与TCP 面向连接、可靠的特点相比较,UDP 是一个无连接的、不可靠的传输层协议。
上图为本章考试重点,非原书结构,仅供参考。
传输协议的要素建立连接
图6-1 是正常的三次握手建立连接的过程。(此图中的ack 值为下一次想要接收的第一个字节编号减一所得,下图亦然)。
图6-2 这种情况是老的CR(Connection Reque ...
这一章我们要详细分析软件工程中的各种步骤的组织方式,以便我们协调各种活动。面对的主要问题有如何理解过程模型,如何应对软件开发过程中的种种状况,为此我们首先要解释过程模型的意义,然后为大家介绍各种模型的思想,为了响应变化和规避风险,会涉及到原型化和迭代开发的思想。关键在于思想的理解,模型是固化的,思想运用是灵活的。本章重点在过程与生命周期和过程模型。
章节框架:
过程与生命周期过程的定义一组有序的任务,它涉及活动、约束和资源使用的一系列步骤,用于产生某种想要的输出。
过程不仅仅是步骤,过程是步骤的集合,它将步骤组织起来使人们能够生产满足一系列目标和标准的产品。
软件生命周期软件开发过程描述了软件产品从概念到实现、交付、使用和维护的整个过程,因此,有时把软件开发过程称为软件生命周期。
过程的重要意义
它强制活动具有一致性和一定的结构。
过程结构允许我们分析、理解、控制和改进组成过程的活动,并以此来指导我们的活动。
它使我们获取经验并把经验传授给他人。
过程模型为何需要为过程建立模型:
达成共识:开发团队在记录开发过程的描述时,自然的对软件所涉及到的活动,资源,约束等达成共识, ...
当我学到这个跟我专业名字一模一样的课程时,我的心情真是很复杂:一方面不知不觉已经学到了我专业的本命课程,这个大一时看课程计划觉得无比重要的课,倍感岁月不饶人;另一方面,当我们学完这学期再审视这门课,又觉得它像Apple的一句广告:“说简单,也高深”。说它简单,觉得它在一开始复习时恍惚有种背政治的感觉,比起烧脑的程序设计和巧妙计算来说真的很轻松;说它高深,是因为如果让所有就业的软件工程毕业生投票自己最后悔没好好学的课,它一定是champion。
当你抱着一颗佛系的心看这些知识时,你会觉得它那么教条;但当你真的准备干点大事,带着挚友们开发个软件时,你会觉得它说的是那么针针见血:如果你是负责人,你如何知道你需要什么招什么样的人来组成一个开发团队?你就是有了合适的团队你靠什么告诉客户你会花多长时间多少钱去完成这个项目才让他们放心把项目交给你?你就是拿到了项目你怎么让客户客观理性准确无误地告诉你他们的需求是什么?你就是得到了明确无疑的需求你怎么确定为了实现这个你该怎么设计这些功能?你就是得到了一份巧夺天工的设计你怎么保证你的程序员们能高效合作地把这些设计准确实现出来?你就是有了一批勤恳踏实的程 ...
数据链路层保证了数据在相邻节点的可靠传输,网络层关注的是如何将源端数据包经过网络上的节点一路送到接收方。为了实现这个目标,网络层必须知道网络拓补结构,并从中选出适当的路径。本章包含到路由算法、拥塞控制、服务质量、网络互连和IP 协议。
上图为本章考试重点,非原书结构,仅供参考。
网络层两类服务
无连接服务——数据报网络
特点:所有的数据包都被独立地注入到网络中,并且每个数据包独立路由,不需要提前建立任何设置。在这样的上下文中,数据包通常称为数据报,对应的网络称为数据报网络。
面向连接服务——虚电路网络
特点:发送数据报前,首先建立一条从源到目标的路径,每条报文都沿这条路径传送。这个连接称为虛电路,对应的网络称为虚电路网络。
路由算法——基于最优路径的路由算法最优化原则遵循最优化原则以破除环路,方便设计路由算法。
最优化原则:如果J 在从I 到K 的最优路径上,那么从J 到K 的最优路径也必定遵循相同的路由。即最优路径的子路径还是最优路径。
汇集树:依照最优化原则,从所有的源到一个指定目标的最优路径的集合构成一颗以目标节点为根的树。
泛洪算法泛洪路由的基本想法是源节点将消 ...