景联文科技始终关注人工智能领域数据需求的前沿动态,近日推出了涵盖中文题库数据集、英文题库数据集、算法代码数据库、英文语料库、中文语料库、特定领域数据以及小语种数据的七大系列高品质数据集产品。
此次推出的数据集适用于众多应用领域,经过细致的清洗和规范化处理,保证了数据信息的精确性、丰富性和合法性。
全方位支持科研机构、科技企业以及开发者,在自然语言处理、智能教育、代码解析、跨语言建模等多个领域,进行模型训练及其实际应用推广。
1. 大模型训练-中文题库数据集
逻辑题库
数据详尽,涵盖了各类题型,题量充足,解析详尽,构建了一个逻辑推理题库体系。该体系具有“一级+二级”的结构化分类标签,能够有效提升模型的推理能力。总计包含13万道题目,其中多模态试题2道,文本类试题11万道。
数据格式:JSON、IMG
大学数学题库
数据内容丰富,囊括了22万道精心挑选的题目,构建了涵盖微积分、线性代数、概率统计等关键学科领域的系统化教学资料库,有效支持了精确的评估和个性化的自适应学习过程。
可满足高校数学教育智能化需求。
数据格式:JSON、IMG
中文教育题库K12题库
数据内容涵盖K12阶段所有科目的试题、升学考试的真实试卷以及自行构建的竞赛题目,分为三大类。总计达到了3052万道试题。
格式:PDF、JSON、IMG
公考题库
数据详尽,囊括九万道公务员考试题目,其中约七千道为多模态题型。这些内容为大模型构建了融合数学推演、语言理解及考试策略分析的综合性训练素材。
可全面提升大模型的多模态理解与解题能力。
格式:JSON
MU官方经典服饰,画面还原度高,提供10倍击杀爆率及百倍经验值,畅玩体验极佳!
大家爱看 . 广告x
2. 大模型训练-英文题库数据集
大学英文教育题库
数据详尽,囊括了我国各大学科领域的英语教育试题英语聊天机器人英语聊天机器人,共计九万道题目,整体难度处于中等水平。
此题库专门为针对英语语言的解题训练大型模型量身定制,能够充分满足高等教育阶段英语题目的解题训练要求。
格式:JSON
K12英文教育题库
数据详尽,囊括了小学、初中、高中各阶段试题的英文教育题库,总题目量达到5637万道。其中,模态试题超过229万道,这些试题均源自海外教育体系中的实际考题,并非翻译而来。
可满足不同教育阶段英文题目解题训练需求。
格式:JSON、IMG
3. 大模型训练-算法代码数据库
数据内容丰富,囊括了二十万道算法题目以及十二万份详尽的答案解析,这些优质的数据资源能够显著增强大型模型的逻辑思维、解题技巧,同时还有助于提升其代码的生成和优化能力。
格式:JSON
80后怀旧者必玩!经典网页传奇回归,召唤你的战斗热情!
大家爱看 . 广告x
4. 大模型训练-英文语料
英文期刊
数据内容详尽,涵盖了800万篇来自权威英文期刊的论文资料,这些资料横跨自然科学、工程技术以及医学健康等多个学科领域。
适用于科研方法论的培养、专业术语的深入理解、以及技术原理推理能力的增强等场景。
格式:PDF
英文剧本
数据信息涵盖了1.4万部高质量的英文剧本,内容丰富多样,包括电视剧、电影、话剧以及舞台剧等多个领域的剧本资料。
可用于故事生成 agent 提升和模型对话 prompt。
格式:TXT、EXCEL
英文书籍
数据信息涵盖了180万本英文电子书的资料,这些资料中包含了众多学科领域的专业文本内容。
适用于自然语言处理研究、大模型训练及语言生成优化场景。
格式:TXT、PDF、MOBI、EPUB
5. 大模型训练-中文语料
中文剧本
数据详尽:囊括了两万三千余部上乘的中文剧本学英语,内容涵盖电视剧、电影、话剧以及舞台剧等多个领域。
可用于故事生成 agent 提升和模型对话 prompt。
格式:TXT、EXCEL
多轮对话
数据统计显示,共有1467.3万组多轮对话文本被收录,这些对话涵盖了客服交流、情感表达以及日常交谈,三者之间的比例为1:1:1。
本模型适用于智能客服系统、聊天机器人、虚拟助理以及个人助手等领域的prompt设计。
格式:JSON、TXT
裁判文书数据
数据信息详尽,囊括了8000万份法律文件英语聊天机器人,内容涵盖民事、刑事、行政等各类案件类型。
这类数据专门用于增强模型对法律条文的理解、裁判逻辑的推理以及文书撰写的技能,涉及多个专属的细分领域。
格式:EXCEL
硕博论文
数据详尽:囊括了23万篇理工科领域的中文硕士及博士学位论文,内容广泛涉及基础科学、工程技术以及信息科技等多个前沿学科。
可用于提升模型理解推理能力,推动跨领域应用。
格式:PDF
热血完整客户端下载正版授权-三端互通
大家爱看 . 广告x
6. 大模型训练-多垂直领域知识教材书籍数据
管理科学知识
数据信息涵盖:总计纳入303本管理科学领域的教材资料,这些数据既包括与该学科相关的文献资料,亦囊括了管理学科的知识图谱。
适用于教育领域大型模型训练任务,智能教学系统的研发,以及涉及跨语言教育的A1级应用场景。
格式:PDF、EXCEL、Word
K12中英文教辅教材
数据信息显示,共有11655册中英文教辅教材被收录,其中包含10225册中文教辅资料和1430册英文教辅资料英语,这些资料涵盖了K12阶段的全学科内容。
适用于教育领域的大规模模型训练、智能教学系统的研发以及涉及跨语言教育的AI应用场合。
格式:PDF
工业书籍
数据信息涵盖:总计3.4万本专业工业类书籍,内容广泛涉及多个学科领域,包括中英文版的专业文献。
此模型适用于工业领域的大型人工智能模型训练、智能决策系统的开发以及专业技术知识服务的应用场景。
格式:PDF、Word
7. 大模型训练-小语种数据
小语种数字专利
数据信息显示英语聊天机器人,共收录了131.4万条小语种专业资料,这些资料涵盖了多个国家的语言,并且触及了众多技术领域。
该模型适用于对大型模型进行跨文化理解能力培养、适应多种语言模式以及应用于专业领域的AI技术场景。
格式:PDF
小语种平行语料
数据资料涵盖:总计110万条小语种平行语料,内容涉及阿拉伯语、波兰语、德语、俄语、法语、马来语、泰语、土耳其语、西班牙语、意大利语以及英语,共计11种语言文本。
此方案适用于进行跨文化理解能力的培养、多语言模式的适应训练英语聊天机器人 解锁 AI 无限潜能!景联文科技数据产品矩阵如何再升级?,以及针对小语种的人工智能应用场景。
格式:EXCEL
AI应用领域的不断延伸英语培训,促使对高品质、涵盖多种语言、针对特定专业领域的数据资料的需求不断上升。
景联文科技将始终坚持“打造人工智能领域的关键动力,助力每一条数据充分展现AI的巨大潜力”的宏伟目标,持续改进和完善数据产品架构,以适应模型训练对复杂性和多样性不断增长的要求。