LLM

【LangChain】与文档聊天：将OpenAI与LangChain集成的终极指南

欢迎来到人工智能的迷人世界，在那里，人与机器之间的通信越来越模糊。在这篇博客文章中，我们将探索人工智能驱动交互的一个令人兴奋的新前沿：与您的文本文档聊天！借助OpenAI模型和创新的LangChain框架的强大组合&#x…

BERT（从理论到实践）: Bidirectional Encoder Representations from Transformers【3】

这是本系列文章中的第3弹，请确保你已经读过并了解之前文章所讲的内容，因为对于已经解释过的概念或API，本文不会再赘述。本文要利用BERT实现一个“垃圾邮件分类”的任务，这也是NLP中一个很常见的任务：Text Classification。我们的实验环境仍然是Python3+Tensorflow/Keras…

【LMM 011】MiniGPT-5：通过 Generative Vokens 进行交错视觉语言生成的多模态大模型

论文标题：MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens 论文作者：Kaizhi Zheng* , Xuehai He* , Xin Eric Wang 作者单位：University of California, Santa Cruz 论文原文：https://arxiv.org/ab…

LLM、AGI、多模态AI 篇四：ChatGLM3部署和应用

文章目录系列简介部署和运行推荐硬件要求部署步骤配置Python环境下载模型文件克隆项目代码安装依赖运行Demo修改demo源代码运行Demo可执行文件应用代码调用Langchain+RAG+ChatGLM3OpenAI API 支持

【2023 CSIG垂直领域大模型】大模型时代，如何完成IDP智能文档处理领域的OCR大一统？

目录一、像素级OCR统一模型：UPOCR1.1、为什么提出UPOCR？1.2、UPOCR是什么?1.2.1、Unified Paradigm 统一范式1.2.2、Unified Architecture统一架构1.2.3、Unified Training Strategy 统一训练策略 1.3、UPOCR效果如何？ 二、OCR大一统模型前…

用通俗易懂的方式讲解：ChatGPT 开放的多模态的DALL-E 3功能，好玩到停不下来！

最近 ChatGPT 对 Plus 用户逐步开放一些多模态的功能，包括 （图像生成）、 GPT-4V（图像识别）等，很多网友乐此不疲地对这些新功能进行试用， 目前已经解锁了不少有趣的玩法，我将这些好玩…

【AI视野·今日NLP 自然语言处理论文速览第六十七期】Mon, 1 Jan 2024

AI视野今日CS.NLP 自然语言处理论文速览 Mon, 1 Jan 2024 Totally 42 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Principled Gradient-based Markov Chain Monte Carlo for Text Generation Authors Li Du, Afra Amini, Lucas…

【NLP】2024年改变人工智能的前六大NLP语言模型

在快速发展的人工智能领域，自然语言处理已成为研究人员和开发人员关注的焦点。作为这一领域显著进步的证明，近年来出现了几种开创性的语言模型，突破了机器能够理解和生成的界限。在本文中，我们将深入研究大规模语言模型的最新进展…

Retrieval-Augmented Generation for Large Language Models: A Survey

PS: 梳理该 Survey 的整体框架，后续补充相关参考文献的解析整理。本文的会从两个角度来分析总结，因此对于同一种技术可能在不同章节下都会有提及。第一个角度是从整体框架的迭代来看（对应RAG框架章节），第二个是从RAG中…

ubuntu22.04CPU部署ChatGLM笔记

ChatGLM官方Github链接 https://github.com/THUDM/ChatGLM-6B 我就是一步步按照官方部署教程完成ChatGLM部署。对于官方文档里面详细描述的部署步骤不进一步赘述。这里主要记录几个自己遇到的问题 1 安装环境及依赖 ChatGLM部署需要安装python, pytorch等环境，为…

【AI视野·今日NLP 自然语言处理论文速览第六十六期】Tue, 31 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Tue, 31 Oct 2023 (showing first 100 of 141 entries) Totally 100 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers The Eval4NLP 2023 Shared Task on Prompting Large Language Models a…

【LLM】自主GPT-4：从ChatGPT到AutoGPT、AgentGPT、BabyAGI、HuggingGPT等

LangChain和LlamaIndex集成趋势后，GPT-4的新兴任务自动化和人工智能代理 ChatGPT和LLM技术的出现是革命性的。这些最先进的语言模型席卷了世界，激励开发人员、爱好者和组织探索集成和构建这些尖端模型的创新方法。因此，LangChain和LlamaIndex…

GPT属于AI，是LLM的一种实现

GPT（Generative Pre-trained Transformer）作为一种创新的语言模型，既属于人工智能（AI）的一部分，也是大规模语言模型（LLM）的一种实现。本文将探讨GPT在AI和LLM领域的重要性和影响。 …

大模型的实践应用10-大模型领域知识与参数高效微调(PEFT)技术的详解，并利用PEFT训练自己的大模型

大家好，我是微学AI，今天给大家介绍一下大模型的实践应用10-大模型领域知识与参数高效微调(PEFT)技术的详解，并利用PEFT训练自己的大模型。大模型领域的参数高效微调技术(PEFT)是指通过对大规模神经网络模型进行高效率的参数微调，以提高模型性能和效率的一种方法。PEFT技术通…

【LLM】浅谈 StreamingLLM中的attention sink和sink token

前言 Softmax函数 SoftMax ( x ) i e x i e x 1 ∑ j 2 N e x j , x 1 ≫ x j , j ∈ 2 , … , N \text{SoftMax}(x)_i \frac{e^{x_i}}{e^{x_1} \sum_{j2}^{N} e^{x_j}}, \quad x_1 \gg x_j, j \in 2, \dots, N SoftMax(x)iex1∑j2Nexjexi,x1≫xj,j∈2,……

【AI视野·今日NLP 自然语言处理论文速览第四十一期】Tue, 26 Sep 2023

AI视野今日CS.NLP 自然语言处理论文速览 Tue, 26 Sep 2023 Totally 75 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Physics of Language Models: Part 3.1, Knowledge Storage and Extraction Authors Zeyuan Allen Zhu, Yuanz…

大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测

基于OpenCompass大模型评测关于评测的三个问题Why/What/How Why What 有许多任务评测，包括垂直领域 How 包含客观评测和主观评测，其中主观评测分人工和模型来评估。提示词工程主流评测框架 OpenCompass 能力框架模型层能力层方法层工具层支持丰富…

【AI视野·今日NLP 自然语言处理论文速览第四十五期】Mon, 2 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Mon, 2 Oct 2023 Totally 44 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Efficient Streaming Language Models with Attention Sinks Authors Guangxuan Xiao, Yuandong Tian, Beidi C…

LLM：Scaling Laws for Neural Language Models （上）

论文：https://arxiv.org/pdf/2001.08361.pdf 发表：2020 摘要1：损失与模型大小、数据集大小以及训练所用计算量成比例，其中一些趋势跨越了七个量级以上。 2：网络宽度或深度等其他架构细节在很大范围内影响较小。3&…

#AIGC##VDB# 【一篇入门VDB】矢量数据库-从技术介绍到选型方向

文章概览： 这篇文章深入探讨了矢量数据库的基本概念、工作原理以及在人工智能领域的广泛应用。首先，文章解释了矢量的数学和物理学概念，然后引入了矢量在数据科学和机器学习中的应用。随后，详细介绍了什么是矢量数据库&#xff0…

GPT实战系列-实战Qwen在Cuda 12+24G部署方案

GPT实战系列-实战Qwen在Cuda1224G部署方案 ChatGLM4进行新闻发布，但还没有开源更新，在此之际，实战部署测试Qwen大模型。目前Qwen的口碑貌似还不错，测试显卡内存24G，毕竟有限，排除了Qwen14非量化方案Qwen-1…

PromptCast-时间序列预测的好文推荐

前言这是关于大语言模型和时间序列预测结合的好文推荐，发现这篇文章，不仅idea不错和代码开源维护的不错，论文也比较详细（可能是顶刊而不是顶会，篇幅大，容易写清楚），并且关于它的Br…

文献阅读：RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

文献阅读：RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback 1. 文章简介2. 方法介绍 1. 整体方法说明 3. 实验结果 1. RLHF vs RLAIF2. Prompt的影响3. Self-Consistency4. Labeler Size的影响5. 标注数据的影响 4. 总结 & 思考文…

【AI视野·今日NLP 自然语言处理论文速览第六十九期】Wed, 3 Jan 2024

AI视野今日CS.NLP 自然语言处理论文速览 Wed, 3 Jan 2024 Totally 24 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers An Autoregressive Text-to-Graph Framework for Joint Entity and Relation Extraction Authors Zaratiana Ur…

【AI视野·今日NLP 自然语言处理论文速览第四十四期】Fri, 29 Sep 2023

AI视野今日CS.NLP 自然语言处理论文速览 Fri, 29 Sep 2023 Totally 45 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers MindShift: Leveraging Large Language Models for Mental-States-Based Problematic Smartphone Use Interve…

大模型学习之书生·浦语大模型2——趣味Demo

文章目录 Demo效果目录大模型及InternLM模型介绍InterLM-Chat-7B智能对话DemoLagent智能体工具调用Demo浦语灵笔图文创作理解Demo通用环境配置实践智能对话Demo1 创建开发机2 进入开发机并创建环境及安装依赖3 模型下载4 代码准备5 终端运行6 web demo运行 Lagent智能体工具调用…

Prompt Engineering 可能会是 2024 年最热门的“编程语言”？

编者按：“Prompt Engineering”是否已经过时？模型本身的能力是否已经足够，不再需要特意设计 prompt？ 我们今天为大家带来的文章，作者认为 Prompt Engineering 不会过时，相反随着模型能力的增强，…

【AI视野·今日NLP 自然语言处理论文速览第六十八期】Tue, 2 Jan 2024

AI视野今日CS.NLP 自然语言处理论文速览 Tue, 2 Jan 2024 Totally 48 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers A Computational Framework for Behavioral Assessment of LLM Therapists Authors Yu Ying Chiu, Ashish Shar…

【LMM 003】生物医学领域的垂直类大型多模态模型 LLaVA-Med

论文标题：LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day 论文作者：Chunyuan Li∗, Cliff Wong∗, Sheng Zhang∗, Naoto Usuyama, Haotian Liu, Jianwei Yang Tristan Naumann, Hoifung Poon, Jianfeng Gao 作…

【AI视野·今日NLP 自然语言处理论文速览第四十期】Mon, 25 Sep 2023

AI视野今日CS.NLP 自然语言处理论文速览 Mon, 25 Sep 2023 Totally 46 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs Authors Justin C…

【LLM】人工智能应用构建的十大预训练NLP语言模型

在人工智能领域，自然语言处理（NLP）被广泛认为是阅读、破译、理解和理解人类语言的最重要工具。有了NLP，机器可以令人印象深刻地模仿人类的智力和能力，从文本预测到情感分析再到语音识别。什么是自然语言处理&#xf…

#LLMOps##AIGC# Dify_构建本地知识库问答应用-生成Al应用的创新引擎用于构建助手API和GPT的开源开发平台

github： https://github.com/langgenius/dify/blob/main/README_CN.md 介绍文档：https://docs.dify.ai/getting-started/readme Dify 介绍 Dify 笔记 Dify 是什么？ 开源的大语言模型（LLM）应用开发平台融合了后端即服…

Flash-Attention

这是一篇硬核的优化Transformer的工作。众所周知，Transformer模型的计算量和储存复杂度是 O ( N 2 ) O(N^2) O(N2) 。尽管先前有了大量的优化工作，比如LongFormer、Sparse Transformer、Reformer等等，一定程度上减轻了Transformer的资源消耗…

【AI视野·今日CV 计算机视觉论文速览第266期】Thu, 12 Oct 2023

AI视野今日CS.CV 计算机视觉论文速览 Thu, 12 Oct 2023 Totally 100 papers 👉上期速览✈更多精彩请移步主页 Daily Computer Vision Papers PAD: A Dataset and Benchmark for Pose-agnostic Anomaly Detection Authors Qiang Zhou, Weize Li, Lihan Jiang, Guoli…

【AI视野·今日NLP 自然语言处理论文速览第四十六期】Tue, 3 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Tue, 3 Oct 2023 (showing first 100 of 110 entries) Totally 100 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Its MBR All the Way Down: Modern Generation Techniques Through the …

react+星火大模型，构建上下文ai问答页面（可扩展）

前言最近写的开源项目核心功能跑通了，前两天突发奇想。关于项目可否介入大模型来辅助用户使用平台，就跑去研究了最近比较活火的国内大模型–讯飞星火大模型。大模型api获取控制台登录地址：https://console.xfyun.cn/app/myapp 新建应…

学习教授LLM逻辑推理11.19

学习教授LLM逻辑推理摘要1 引言2前言2.1事件关系提取2.2 演绎推理 3 揭示逻辑推理中的LLMS3.1 LLM如何执行任务3.1.1数据源3.1.2实验装置3.1.3 分析 3.2 LLM如何执行抽象多跳推理？3.2.1数据来源3.2.2 实验装置。3.2.3 分析。 4 逻辑推理教学4.1 LLM的上下文学习4.2…

LLM系列 | 23：多模态大模型：浦语·灵笔InternLM-XComposer解读、实战和思考

引言简介模型解读模型架构训练实战环境准备本地实测服务部署总结引言谁念西风独自凉，萧萧黄叶闭疏窗，沉思往事立残阳。 Created by DALLE 3 小伙伴们好，我是《小窗幽记机器学习》的小编：卖热干面的小女孩…

算法备案一定要抓紧了！独立开发者群体观察笔记；关于大模型的36句内幕和真话；电子书-人工智能原理揭秘 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！ 🔥 提个醒！算法备案的事情，要抓紧提上日程，以后审批会越来越紧节前国内AI网站倒了一批又一批&#x…

LLM代码生成器的挑战【GDELT早期观察】

越来越多的研究开始对LLM大模型生成的代码的质量提出质疑，尽管科技行业不断推出越来越多的旨在增强甚至取代人类编码员的工具。随着我们（GDELT）继续探索和评估越来越多的此类工具，以下是我们的一些早期观察结果。在线工具推荐&a…

【LangChain学习之旅】—（6）提示工程（下）：用思维链和思维树提升模型思考质量

【LangChain学习之旅】—（6） 提示工程（下）：用思维链和思维树提升模型思考质量什么是 Chain of ThoughtFew-Shot CoTZero-Shot CoTChain of Thought 实战CoT 的模板设计程序的完整框架Tree of Thought总结 Reference&a…

认识 AIGC ，浅淡 AIGC 的那些事—— AIGC：用 AI 创造万物

文章目录 🎨关于封面🔥关于活动📋前言🎯什么是 AIGC ？🧩AIGC：用 AI 创造万物🧩AIGC 的意义与发展 🎯AIGC 的发展历程🧩人工智能生成内容的发展历程与概念&…

大语言模型向量数据库

大语言模型&向量数据库 LARGE LANGUAGE MODELSA. Vector Database & LLM WorkflowB. Vector Database for LLMC. Potential Applications for Vector Database on LLMD. Potential Applications for LLM on Vector DatabaseE. Retrieval-Based LLMF. Synergized Exampl…

大模型应用时代，百度开了个头

“只有最好的大模型，才能长出最好的人工智能原生应用”。随着 8 月底第一批大模型应用通过备案上线，中国人工智能大模型市场进入全新阶段，通过备案的科技公司和机构研发的大模型产品，可以向所有用户提供服务，而之前只…

SGPT: GPT Sentence Embeddings for Semantic Search

简介语义搜索分为两个部分： 1.搜索和query 相关的topk文档。 2.理解文档和query后面隐藏的语义信息，而不是字面含义。这篇论文提出了SGPT模型，只用decoder-only的transformer来进行语义搜索和sentence向量的提取。 1.SGPT-BE：来…

【AI视野·今日NLP 自然语言处理论文速览第七十二期】Mon, 8 Jan 2024

AI视野今日CS.NLP 自然语言处理论文速览 Mon, 8 Jan 2024 Totally 17 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers DeepSeek LLM: Scaling Open-Source Language Models with Longtermism Authors DeepSeek AI Xiao Bi, Deli Ch…

【论文精读】HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face 前言Abstract1 Introduction2 Related Works3 HuggingGPT3.1 Task PlanningSpecification-based InstructionDemonstration-based Parsing 3.2 Model SelectionIn-context Task-model Assignment 3…

PromptRank：使用Prompt进行无监督关键词提取

论文题目：PromptRank: Unsupervised Keyphrase Extraction Using Prompt 论文日期：2023/05/15(ACL 2023) 论文地址：https://arxiv.org/abs/2305.04490 GitHub地址：https://github.com/HLT-NLP/PromptRank 文章目录 Ab…

LLM大语言模型（三）：使用ChatGLM3-6B的函数调用功能前先学会Python的装饰器

目录 ChatGLM3-6B的函数调用模式示例本地启动ChatGLM3-6B工具模式如何在ChatGLM3-6B里新增一个自定义函数呢？ get_weather基于Python的装饰器实现函数注解register_tool 现在我们来自定义一个kuakuawo()函数 ChatGLM3-6B的函数调用模式示例 ChatGLM3-6B目前…

LLM调研笔记

这里写目录标题 LLM调研1. 外挂知识库2. 微调数据prompting和fine-tuning的对比 3. NLP的发展4. 大语言模型的涌现能力5. 大模型的几个关键技术6. 数据预处理7. 主流架构8. 模型训练9. 大模型的微调10. 大模型的使用11. 大模型的评估 LLM调研大模型的不足：在特定的…

AI游戏设计的半年度复盘；大模型+智能音箱再起波澜；昇思大模型技术公开课第2期；出海注册经验分享；如何使用LoRA微调Llama 2 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！ 🔥 进步or毁灭：Nature 调研显示 1600 科学家对AI的割裂态度国际顶级期刊 Nature 最近一项调研很有意思，全球 160…

【LLM】大型语言模型：2023年完整指南

Figure 1: Search volumes for “large language models” 近几个月来，大型语言模型（LLM）引起了很大的轰动（见图1）。这种需求导致了利用语言模型的网站和解决方案的不断开发。ChatGPT在2023年1月创下了用户群增长最快…

大模型fine-tune 微调

大模型的 Fine-tune 我们对技术的理解，要比技术本身更加重要。正如我在《大模型时代的应用创新范式》一文中所说，大模型会成为AI时代的一项基础设施。作为像水、电一样的基础设施，预训练大模型这样的艰巨任务，只会有少数技术…

chatGLM中GLM设计思路

GLM是结合了MLM和CLM的一种预训练方式，其中G为general；在GLM中，它不在以某个token为粒度，而是一个span（多个token），这些span之间使用自编码方式，而在span内部的token使用自回归的方式…

ChatGLM3-6B：新一代开源双语对话语言模型，流畅对话与低部署门槛再升级

项目设计集合（人工智能方向）：助力新人快速实战掌握技能、自主完成项目设计升级，提升自身的硬实力（不仅限NLP、知识图谱、计算机视觉等领域）：汇总有意义的项目设计集合，助力新人快速实…

Text-to-SQL小白入门（七）PanGu-Coder2论文——RRTF

论文概述学习这个RRTF之前，可以先学习一下RLHF。顺带一提：eosphoros-ai组织「DB-GPT开发者」最新有个新项目Awesome-Text2SQL：GitHub - eosphoros-ai/Awesome-Text2SQL: Curated tutorials and resources for Large Language Models, Text2…

LLM - 大模型速递之 Yi-34B 入门与 LoRA 微调

一.引言目前国内大部分开源模型都集中在 7B、13B，而国外开源模型则是集中在 7B、13B、70B 的尺寸范围，算法开发很需要一个介于 13B-70B 的大模型，弥补 13B 模型能力不足和 70B 模型显卡不够的空档。虽然 LLaMA-1-33B 有一些衍生的 Chinese …

【论文阅读】LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?

文章目录 0、基本信息1、研究动机2、创新点2.1、LLM-as-GraphAugmentor2.2、LLM-as-TextEncoder 3、准备3.1、文本属性图3.2、图神经网络3.3、文本属性图上的对比学习 4、LLM4GCL4.1、LLM v.s. Graph Augmentor4.1.1、LLM对特征增广4.1.2、LLM对结构增广 4.2、LLM作为文本编码器…

LLMs高效的多 GPU 计算策略Efficient multi-GPU compute strategies

很有可能在某个时候，您需要将模型训练工作扩展到超过一个GPU。在上一个视频中，我强调了当您的模型变得太大而无法适应单个GPU时，您需要使用多GPU计算策略。但即使您的模型确实适合单个GPU，使用多个GPU加速训练也有好处。即使您正在…

大模型学习之书生·浦语大模型笔记汇总

笔记汇总地址： 大模型学习之书生浦语大模型1——全链路开源体系大模型学习之书生浦语大模型2——趣味Demo大模型学习之书生浦语大模型3——基于InternLM和LangChain搭建知识库大模型学习之书生浦语大模型4——基于Xtuner大模型微调实战大模型学习之书生浦语大模型5…

【LLM】Prompt微调

Prompt 在机器学习中，Prompt通常指的是一种生成模型的输入方式。生成模型可以接收一个Prompt作为输入，并生成与该输入相对应的输出。Prompt可以是一段文本、一个问题或者一个片段，用于指导生成模型生成相应的响应、续写文本等。 Prompt优化…

翻译: Streamlit从入门到精通六实战缓存Cache请求数据

Streamlit从入门到精通系列： 翻译: Streamlit从入门到精通基础控件一翻译: Streamlit从入门到精通显示图表Graphs 地图Map 主题Themes 二翻译: Streamlit从入门到精通构建一个机器学习应用程序三翻译: Streamlit从入门到精通部署一个机器学习应用程序四翻译…

ASR（自动语音识别）任务中的LLM（大语言模型）

一、LLM大语言模型的特点二、大语言模型在ASR任务中的应用浅度融合浅层融合指的是LLM本身并没有和音频信息进行直接计算。其仅对ASR模型输出的文本结果进行重打分或者质量评估。深度融合 LLM与ASR模型进行深度结合，统一语音和文本的编码空间或者直接利用ASR…

LlamaIndex中的CustomLLM（在线加载模型）

一.使用 Flask 将模型封装为 REST 接口主要是将 complete()和 stream_complete()方法封装为 REST 接口，如下所示： from flask import Flask, request, jsonify from transformers import AutoTokenizer, AutoModelForCausalLM app Flask(__name__)cla…

2023 年值得一读的技术文章｜ NebulaGraph 技术社区

在之前的产品篇，我们了解到了 NebulaGraph 内核及周边工具在 2023 年经历了什么样的变化。伴随着这些特性的变更和上线，在【文章】博客分类中，一篇篇的博文记录下了这些功能背后的设计思考和研发实践。当中，既有对内存管理 Memory…

利用GPU加速自定义风格图像生成-利用GPU加速结合了ControlNet/ Lora的Stable Diffusion XL

点击链接完成注册，参加本次在线研讨会 https://www.nvidia.cn/webinars/sessions/?session_id240124-31319 随着AI技术的发展, 数字内容创建业务也变得越来越火热。生成式AI模型的发布, 让我们看到了人工智能在各行各业的潜力。您只需要用语言简单描述自己希望看…

吴恩达ChatGPT《LangChain for LLM Application Development》笔记

基于 LangChain 的 LLM 应用开发 1. 介绍现在，使用 Prompt 可以快速开发一个应用程序，但是一个应用程序可能需要多次写Prompt，并对 LLM 的输出结果进行解析。因此，需要编写很多胶水代码。 Harrison Chase 创建的 LangChain 框…

2023年8月第3周大模型荟萃

Shell-AI：基于LLM实现自然语言理解的CLI工具

一、前言随着AI技术的普及，部分技术领域的门槛逐步降低，比如非科班出身，非技术专业，甚至从未涉足技术领域，完全不懂服务器部署和运维，如今可以依托AI大模型非常轻松的掌握和使用相关技术，来解…

StreamingLLM - 处理无限长度的输入

文章目录关于 StreamingLLM使用关于 StreamingLLM Efficient Streaming Language Models with Attention Sinks GitHub : https://github.com/mit-han-lab/streaming-llm论文：https://arxiv.org/abs/2309.17453在流媒体应用程序（如多轮对话）中部署大型语言模型（LLM）是迫…

prompt工程（持续更新ing...）

诸神缄默不语-个人CSDN博文目录我准备想办法把这些东西整合到我的ScholarEase项目里。到时候按照分类、按照prompt生成方法列一堆选项，用户自己生成prompt后可以选择在ScholarEase里面聊天，也可以复制到别的地方（比如ChatGPT网页版之类的&a…

【AI视野·今日NLP 自然语言处理论文速览第三十八期】Thu, 21 Sep 2023

AI视野今日CS.NLP 自然语言处理论文速览 Thu, 21 Sep 2023 Totally 57 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Chain-of-Verification Reduces Hallucination in Large Language Models Authors Shehzaad Dhuliawala, Mojt…

如何使用 MiniGPT-v2

MiniGPT-v2 是一个基于视觉语言模型（LLM）的多任务学习系统。它可以用于各种视觉语言任务，包括图像描述、图像识别、图像-文本对话等。本文将介绍如何使用 MiniGPT-v2。 MiniGPT-v2 提供了一个简单的在线演示，可以用于测试模型。…

LlamaIndex：将个人数据添加到LLM

推荐：使用 NSDT场景编辑器快速搭建3D应用场景 LlamaIndex是基于大型语言模型（LLM）的应用程序的数据框架。像 GPT-4 这样的 LLM 是在大量公共数据集上预先训练的，允许开箱即用的令人难以置信的自然语言处理能力。但是，…

通往AGI的大模型MultiAgent的RL是对的但HF有上限

OpenAI高管Mira Murati周三告诉员工，一封关于AI取得突破的信件促使董事会采取了解雇行动。一位消息人士透露，OpenAI在Q*项目上取得了进展，内部人士认为这可能是OpenAI在超级智能领域的突破。这名消息人士称，虽然Q*的数学成绩只是小…

LLM 系列 | 21 : Code Llama实战(上篇) : 模型简介与评测

引言小伙伴们好，我是《小窗幽记机器学习》的小编：卖热干面的小女孩。个人CSDN首页：JasonLiu1919_面向对象的程序设计,深度学习,C-CSDN博客今天开始以2篇小作文介绍代码大语言模型Code Llama。上篇主要介绍Code Llama的基本情况并基于Hug…

FinGPT：金融垂类大模型架构

Overview 动机架构底座模型： Llama2Chatglm2 Lora训练技术路径自动收集数据并整理指令微调舆情分析搜新闻然后相似搜索检索增强架构智能投顾 Hugging face 地址学术成果及未来方向参考资料

用好语言模型：temperature、top-p等核心参数解析

编者按：我们如何才能更好地控制大模型的输出? 本文将介绍几个关键参数，帮助读者更好地理解和运用 temperature、top-p、top-k、frequency penalty 和 presence penalty 等常见参数，以优化语言模型的生成效果。文章详细解释了这些参数的作用…

231112-中文错别字识别与纠正问题的大模型与小模型调研

A. 引言当前，以ChatGPT为代表的大语言模型（Large Language Models, LLMs）正引领着新一轮工业革命。ChatGPT最开始的研究领域隶属于NLP的一个子问题，其输入是text，输出也是text。在从文本输入到文本输出的诸多应用场景…

Accelerate 0.24.0文档二：DeepSpeed集成

文章目录一、 DeepSpeed简介二、DeepSpeed集成（Accelerate 0.24.0）2.1 DeepSpeed安装2.2 Accelerate DeepSpeed Plugin2.2.1 ZeRO Stage-22.2.2 ZeRO Stage-3 with CPU Offload2.2.3 accelerate launch参数 2.3 DeepSpeed Config File2.3.1 ZeRO Stage-…

LangChain 16 通过Memory记住历史对话的内容

LangChain系列文章 LangChain 实现给动物取名字，LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain 4用向量数据库Faiss存储，读取YouTube的视频文本搜索I…

【privateGPT】使用privateGPT训练您自己的LLM

了解如何在不向提供商公开您的私人数据的情况下训练您自己的语言模型使用OpenAI的ChatGPT等公共人工智能服务的主要担忧之一是将您的私人数据暴露给提供商的风险。对于商业用途，这仍然是考虑采用人工智能技术的公司最大的担忧。很多时候，你想创建自己…

【LMM 002】大型语言和视觉助手 LLaVA-1.5

论文标题：Improved Baselines with Visual Instruction Tuning 论文作者：Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee 作者单位：University of Wisconsin-Madison, Microsoft Research, Columbia University 论文原文：htt…

LLM系列 | 27 : 天工大模型Skywork解读及揭露刷榜内幕引发的思考

引言简介预训练语料分词器模型架构 Infrastructure 训练细节评测实战总结思考 0. 引言晨起开门雪满山，雪晴云淡日光寒。 Created by DALLE 3 小伙伴们好，我是《小窗幽记机器学习》的小编：卖热干面的小女孩。紧接前…

LLM ReAct: 将推理和行为相结合的通用范式学习记录

LLM ReAct 什么是ReAct? LLM ReAct 是一种将推理和行为相结合的通用范式，可以让大型语言模型（LLM）根据逻辑推理（Reason），构建完整系列行动（Act），从而达成期望目标。LLM ReAct 可以应用于多种语言和决策任务，例如问答、事实验证、交互式决策等，提高了 LLM 的效率、…

$LLM：Scaling Laws for Neural Language Models 理解$

LLM：Scaling Laws for Neural Language Models 理解

核心结论 1：LLM模型的性能主要与计算量C，模型参数量N和数据大小D三者相关，而与模型的具体结构 (层数/深度/宽度) 基本无关。三者满足: C ≈ 6ND 2. 为了提升模型性能，模型参数量N和数据大小D需要同步放大，但模型和数…

Conda python运行的包和环境管理入门

Conda系列： 翻译: Anaconda 与 miniconda的区别Miniconda介绍以及安装 Conda 是一个功能强大的命令行工具，用于在 Windows、macOS 和 Linux 上运行的包和环境管理。本 conda 入门指南介绍了启动和使用 conda 创建环境和安装包的基础知识。 1. 准备…

NLP中大语言模型LLM中的思维链 Chain-of-Thought(CoT) GoT

文章目录介绍思路CoT方法Few-shot CoTCoT Prompt设计CoT投票式CoT-自洽性（Self-consistency）使用复杂的CoT自动构建CoTCoT中示例顺序的影响Zero-shot CoT 零样本思维链 GoT,Graph of Thoughts总结介绍在过去几年的探索中，业界发现了一个现…

【EAI 004】LLM+P：借助LLM和PDDL赋予机器人最优规划能力

论文标题：LLMP: Empowering Large Language Models with Optimal Planning Proficiency 论文作者：Bo Liu, Yuqian Jiang, Xiaohan Zhang, Qiang Liu, Shiqi Zhang, Joydeep Biswas, Peter Stone 作者单位：Department of Computer Science, Th…

文心一言-情感关怀之旅

如何让LLM更有温度。应用介绍

具身智能创新方向研究

LLM：chatgpt不知道自己不知道，如何缓和这个问题，还有幻觉问题。 VLM：效率问题、精确问题 Robots: 效率问题、精确问题 Simulation_Env：通用性(Unity)、方便易用性现实问题：成本、等等

百题千解计划【CSDN每日一练】LLM大语言模型：必练选择题及解析 | “等差数列”多解法：Python、Java、C语言、C++...

月落乌啼霜满天，江枫渔火对愁眠。 🎯作者主页：追光者♂🔥 🌸个人简介： 💖[1] 计算机专业硕士研究生💖 🌟[2] 2022年度博客之星人工智能领域TOP4🌟 🏅[3] 阿里云社区特邀专家博主🏅 🏆[4] CSDN-人工智能领域优质创作者🏆 📝[5] …

OpenLLM大模型应用开发库

OpenLLM是一个用于在生产中操作大型语言模型 (LLM) 的开放平台，可以轻松地微调、服务、部署和监控任何LLM大模型。推荐：用 NSDT编辑器快速搭建可编程3D场景 1、OpenLLM的主要特性借助 OpenLLM，你可以使用任何开源大语言模型运行推理&…

如何使用ChatGPT，而不是生成默认风格的八股文

现在我每天都使用ChatGPT来执行多项任务，包括但不限于内容创建。无论是编写文本还是与我讨论我的业务目标，ChatGPT总是会时不时的用到。但与所有强大的工具一样，ChatGPT 和类似的大型语言模型 (LLM) 也有其局限性。在我从事人工智能工作的过…

LLM-Intro to Large Language Models

LLM some LLM’s model and weight are not opened to user what is? Llama 270b model 2 files parameters file parameter or weight of neural networkparameter – 2bytes, float number code run parameters(inference) c or python, etcfor c, 500 lines code withou…

GPT实战系列-ChatGLM3管理外部借力工具

GPT实战系列-ChatGLM3管理外部借力工具用ChatGLM的工具可以实现很多查询接口和执行命令，外部工具该如何配置使用？如何联合它们实现大模型查询助手功能？例如调用工具实现股票信息查询，网络天气查询等助手功能。 LLM大模型相关文章…

玄学调参实践篇 | 深度学习模型 + 预训练模型 + 大模型LLM

😍 这篇主要简单记录一些调参实践，无聊时会不定期更新~ 文章目录 0、学习率与batch_size判断1、Epoch数判断2、判断模型架构是否有问题3、大模型 - 计算量、模型、和数据大小的关系4、大模型调参相关论文经验总结5、训练时模型的保存 0、学习率与batch_s…

Stable Diffusion (version x.x) 文生图模型实践指南

前言：本篇博客记录使用Stable Diffusion模型进行推断时借鉴的相关资料和操作流程。相关博客： 超详细！DALL E 文生图模型实践指南 DALLE 2 文生图模型实践指南目录 1. 环境搭建和预训练模型准备环境搭建预训练模型下载 2. 代码 1. 环境搭建…

国人的骄傲：LLaVA理解图片的妙用

随着多模态大语言和视觉助手LLaVA的突破性发展，对图像，文本甚至模因的理解变得非常容易。这种先进的人工智能技术能够无缝理解和解释各种形式的媒体，弥合语言和视觉理解之间的差距。其令人难以置信的用例包括增强的图像识别、上下文感知文本分…

Re60：读论文 FILM Adaptable and Interpretable Neural Memory Over Symbolic Knowledge

诸神缄默不语-个人CSDN博文目录诸神缄默不语的论文阅读笔记和分类论文名称：Adaptable and Interpretable Neural Memory Over Symbolic Knowledge 模型名称：Fact Injected Language Model (FILM) NAACL版网址：https://aclanthology.org/2…

翻译: 生成式人工智能项目的生命周期 Lifecycle of a generative AI project

我将分享一下构建生成式AI软件应用程序的过程。首先，我们会确定项目范围，决定软件要实现的功能。例如，你可能决定建立一个餐厅声誉监控系统。接下来是实际的实施阶段。由于生成式AI使构建应用程序变得容易，你通常可以很快构建出一…

Re58：读论文 REALM: Retrieval-Augmented Language Model Pre-Training

诸神缄默不语-个人CSDN博文目录诸神缄默不语的论文阅读笔记和分类论文名称：REALM: Retrieval-Augmented Language Model Pre-Training 模型名称：Retrieval-Augmented Language Model pre-training (REALM) 本文是2020年ICML论文，作者来自…

【AI实战】大语言模型（LLM）有多强？还需要做传统NLP任务吗（分词、词性标注、NER、情感分类、知识图谱、多伦对话管理等）

【AI实战】大语言模型（LLM）有多强？还需要做传统NLP任务吗（分词、词性标注、NER、情感分类、多伦对话管理等） 大语言模型大语言模型有多强？分词词性标注NER情感分类多伦对话管理知识图谱总结大语言模型大…

【AI视野·今日NLP 自然语言处理论文速览第五十五期】Mon, 16 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Mon, 16 Oct 2023 Totally 53 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers PromptRE: Weakly-Supervised Document-Level Relation Extraction via Prompting-Based Data Programming Au…

基于hugging face的autogptq量化实践

1.量化并保存到本地的 #导入库： from transformers import AutoModelForCausalLM, AutoTokenizer, GPTQConfig model_id "facebook/opt-125m"quantization_config GPTQConfig(bits4,group_size128,dataset"c4",desc_actFalse, )tokenizer A…

DeepSpeed教程

DeepSpeed github地址、DeepSpeed 官网、DeepSpeed API文档、huggingface DeepSpeed文档、知乎deepspeed入门教程、微软deepspeed博客文章目录一、DeepSpeed简介和安装1.1 ZREO简介1.2 DeepSpeed简介1.3 DeepSpeed安装二、使用DeepSpeed启动训练2.1 命令行参数配置2.2 多GP…

【AI视野·今日NLP 自然语言处理论文速览第五十四期】Fri, 13 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Fri, 13 Oct 2023 Totally 75 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Tree-Planner: Efficient Close-loop Task Planning with Large Language Models Authors Mengkang Hu, Yao M…

用通俗易懂的方式讲解大模型分布式训练并行技术：序列并行

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此，我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。而利用AI集群&a…

向量数据库如何解决大语言模型的“幻觉”问题

向量数据库如何解决大语言模型的“幻觉”问题向量数据库在解决大语言模型的“幻觉”问题方面可以发挥一定的作用。这个问题通常指的是大型语言模型在生成文本时过度依赖于训练数据，导致生成的内容过于特定，缺乏广泛的泛化性。以下是向量数据库可能采取的…

【LMM 016】3D-LLM：将 3D 点云特征注入 LLM

论文标题：3D-LLM: Injecting the 3D World into Large Language Models 论文作者：Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du, Zhenfang Chen, Chuang Gan 作者单位：University of California, Los Angeles, Shanghai J…

【AI视野·今日NLP 自然语言处理论文速览第五十一期】Tue, 10 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Tue, 10 Oct 2023 (showing first 100 of 172 entries) Totally 100 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Few-Shot Spoken Language Understanding via Joint Speech-Text Model…

【腾讯云云上实验室】向量数据库+LangChain+LLM搭建智慧辅导系统实践

目录一、搭建智慧辅导系统——向量数据库实践指南1.1、创建向量数据库并新建集合1.2、使用 TKE 快速部署 ChatGLM1.3、部署 LangChain PyPDFVectorDB等组件1.4、配置知识库语料1.5、基于 VectorDB LLM 的智能辅导助手二、LLM时代的次世代引擎——向量数据库2.1、向量数据库L…

【AI视野·今日NLP 自然语言处理论文速览第四十八期】Thu, 5 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Thu, 5 Oct 2023 Totally 50 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Retrieval meets Long Context Large Language Models Authors Peng Xu, Wei Ping, Xianchao Wu, Lawrence McA…

【EAI 005】EmbodiedGPT：通过具身思维链进行视觉语言预训练的具身智能大模型

论文描述：EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought 论文作者：Yao Mu, Qinglong Zhang, Mengkang Hu, Wenhai Wang, Mingyu Ding, Jun Jin, Bin Wang, Jifeng Dai, Yu Qiao, Ping Luo 作者单位：The Universi…

[LLM]nanoGPT---训练一个写唐诗的GPT

karpathy/nanoGPT: The simplest, fastest repository for training/finetuning medium-sized GPTs. (github.com) 原有模型使用的莎士比亚的戏剧数据集, 如果需要一个写唐诗机器人，需要使用唐诗的文本数据， 一个不错的唐诗，宋词数据的下载…

思维链（Chain-of-Thought Prompting Elicits Reasoning in Large Language Models）

概括论文主要描述了一种用思维链的提升LLM模型推理能力的方式，并且通过实验的方式，证明了思维链在算术、常识和符号等任务方面的显著效果。仅通过540B大小的PaLM模型，通过8个思维链样例就可以实现在GSM8K上的sota效果。具体工作这篇论文…

LangChain 4用向量数据库Faiss存储，读取YouTube的视频文本搜索Indexes for information retrieve

接着前面的Langchain，继续实现读取YouTube的视频脚本来问答Indexes for information retrieve LangChain 实现给动物取名字，LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗…

Text-to-SQL小白入门（三）IRNet：引入中间表示SemQL

摘要本文主要介绍了IRNet论文的基本信息，比如标题、摘要、数据集、结果&结论，以及论文中提出的不匹配问题和词汇问题以及对应的解决方案，重点学习了中间表示SemQL。引言学习论文时，可以先粗略看看论文标题-摘要-数据集-结…

国货拟人AI绘图；500+AI岗位合辑；百川x亚马逊AI黑客松；企业级AI行业图谱；100+LLM面试题与答案 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！ 🔥 上万人涌入抖音国货直播间，朴实「商战」带火国民品牌谁能想到，李佳琦「华西子事件」意外带火了一众国货品牌的…

LangChain 6根据图片生成推广文案HuggingFace中的image-caption模型

根据图片生成推广文案， 用的HuggingFace中的image-caption模型 LangChain 实现给动物取名字，LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain 4用向量数…

【论文极速读】LVM，视觉大模型的GPT时刻？

【论文极速读】LVM，视觉大模型的GPT时刻？ FesianXu 20231210 at Baidu Search Team 前言这一周，LVM在arxiv上刚挂出不久，就被众多自媒体宣传为『视觉大模型的GPT时刻』，笔者抱着强烈的好奇心，在繁忙工作之…

极智AI | LLM大模型部署框架之OpenLLM

欢迎关注我的公众号 [极智视界]，获取我的更多经验分享大家好，我是极智视界，本文来介绍一下 LLM大模型部署框架之OpenLLM。邀您加入我的知识星球「极智视界」，星球内有超多好玩的项目实战源码下载，链接：https://t.zsxq.com/0aiNxERDq 由于 LLM 大模型在模型结构、模型规…

大模型缩放法则

KM（Kaplan-McCandlish）缩放法则 KM缩放法则是由OpenAI的研究员Jared Kaplan和Sam McCandlish提出的，用于描述大型语言模型（LLMs）如何随着模型大小、数据量和计算资源的增加而提高性能。这个法则基于经验数据表明&…

Llama2-Chinese项目：3.1-全量参数微调

提供LoRA微调和全量参数微调代码，训练数据为data/train_sft.csv，验证数据为data/dev_sft.csv，数据格式如下所示： "<s>Human: "问题"\n</s><s>Assistant: "答案举个例子，如下所…

【LMM 005】LLaVA-Interactive：集图像聊天，分割，生成和编辑三种多模态技能于一体的Demo

论文标题：LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing 论文作者：Wei-Ge Chen, Irina Spiridonova, Jianwei Yang, Jianfeng Gao, Chunyuan Li 作者单位：Microsoft Research, Redmond 论文原…

周鸿祎为360智脑招贤纳士；LLM时代的选择指南；Kaggle大语言模型实战；一文带你逛遍LLM全世界 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！ 🤖 思否「齐聚码力」黑客马拉松，用技术代码让生活变得更美好主页：https://pages.segmentfault.com/google-hacka…

Byte Pair Encoding（BPE）算法及代码笔记

Byte Pair Encoding（BPE）算法 BPE算法是Transformer中构建词表的方法，大致分为如下几个步骤： 将语料中的文本切分为字符统计高频共现二元组将共现频率最高的二元组合并加入词表重复上述第二和第三直到词表规模达到预先设置的数量…

Self-Instruct

本篇工作利用LLM的生成能力，来产生大量指令数据集（指令、输入、输出），无需人工标注数据。其中，在对任务判别的时候，需要区分是输出优先还是输入优先： 输入优先没问题，符合人类直觉…

用LangChain构建大语言模型应用

用LangChain构建大语言模型应用自 ChatGPT 发布以来，大型语言模型 (LLM) 广受欢迎。尽管您可能没有足够的资金和计算资源从头开始训练自己的大语言模型，但您仍然可以使用预训练的大语言模型来构建一些很酷的东西，例如： 可以根据…

【AI视野·今日NLP 自然语言处理论文速览第五十九期】Fri, 20 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Fri, 20 Oct 2023 Totally 74 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers AutoMix: Automatically Mixing Language Models Authors Aman Madaan, Pranjal Aggarwal, Ankit Anand, Sriv…

AI小百科 - 什么是大语言模型（Large Language Model）？

我是一个特殊的机器人助手，名字叫做LLM（Large Language Model）。想象一下，你知道电脑是怎么帮助人们做各种事情的吧？LLM就是一种非常聪明的电脑程序，它被训练得非常聪明，可以回答各种各样的问题…

大模型在广告ctr预估中的应用

背景预训练大模型在ctr预估方面取得了不错的效果，但是应用大模型方面还主要停留在提取离线预训练，然后使用大模型的打分结果或者中间的embedding向量，这种级联的应用方式相对灵活方便。但是这种使用大模型提取特征的方式存在自身的问题&…

【自然语言处理】【大模型】Chinchilla：训练计算利用率最优的大语言模型

Chinchilla：训练计算利用率最优的大语言模型《Training Compute-Optimal Large Language Models》论文地址：https://arxiv.org/pdf/2203.15556.pdf 相关博客【自然语言处理】【大模型】Chinchilla：训练计算利用率最优的大语言模型【自然语言…

预训练模型下载和使用

1 huggingface Huggingface是一家公司，在Google发布BERT模型不久之后，这家公司推出了BERT的pytorch实现，形成一个开源库pytorch-pretrained-bert。后续又实现了其他的预训练模型，如GPT、GPT2、ToBERTa、T5等，便把开源…

熬了一个通宵，把国内外的大模型都梳理完了！

大家好，大模型越来越多了，真的有点让人眼花缭乱。为了让大家清晰地了解大模型，我熬了一个通宵把国内和国外的大模型进行了全面梳理，国内有189个，国外有20，同时包括大模型的来源机构、来源信息和分类等。 …

自然语言处理实战项目16- 基于CPU的大语言模型的实战训练全流程指导，模型调优与评估

大家好，我是微学AI，今天给大家介绍一下自然语言处理实战项目16- 基于CPU的生成式大语言模型的实战训练全流程详细讲解，模型调优与评估。该流程涵盖了数据准备、数据预处理、词表构建、模型选择与配置、模型训练、模型调优和模型评估等步骤。通过不断迭代和优化，可以提高模型…

RLHF讲解

RLHF包含了两个至关重要的步骤： 训练Reward Model用Reward Model和SFT Model构造Reward Function，基于PPO算法来训练LLM frozen RMfrozen SFT ModelActor π Φ R L \pi_{\Phi}^{R L} πΦRL initialized from SFT ModelCritic V η V_\eta Vη i…

极智AI | 有趣的羊驼系列大模型

欢迎关注我的公众号 [极智视界]，获取我的更多经验分享大家好，我是极智视界，本文来介绍一下有趣的羊驼系列大模型。邀您加入我的知识星球「极智视界」，星球内有超多好玩的项目实战源码下载，链接：https://t.zsxq.com/0aiNxERDq "羊驼模型" 在大模型的介绍中应…

中文版大模型 Token 成本计算器

分享一个轻量的小工具，10MB 左右，能够帮助你直观的了解大模型 Token 的计算方法。希望能够帮助到想了解或者正在规划模型 API 使用成本的你。写在前面之所以折腾这个小工具，是因为有朋友和我提问，大模型 API 的 Token 到底是…

翻译: Streamlit从入门到精通部署一个机器学习应用程序四

Streamlit从入门到精通系列： 翻译: Streamlit从入门到精通基础控件一翻译: Streamlit从入门到精通显示图表Graphs 地图Map 主题Themes 二翻译: Streamlit从入门到精通构建一个机器学习应用程序三 1. 5. 如何部署一个Streamlit应用部署是将应用程序从开发…

LLM(5) | Encoder 和 Decoder 架构

LLM(5) | Encoder 和 Decoder 架构文章目录 LLM(5) | Encoder 和 Decoder 架构0. 目的1. 概要2. encoder 和 decoder 风格的 transformer (Encoder- And Decoder-Style Transformers)原始的 transformer (The original transformer)编码器 (Encoders)解码器 (Decoders)编码器和…

Stable Diffusion 提示词技巧

文章目录背景介绍如何写好提示词提示词的语法正向提示词负向提示词随着AI技术的不断发展，越来越多的新算法涌现出来，例如Stable Diffusion、Midjourney、Dall-E等。相较于传统算法如GAN和VAE，这些新算法在生成高分辨率、高质量的图片方面表…

用通俗易懂的方式讲解：大模型向量数据库那么多，我该如何选择？

在一个语义搜索和检索增强生成（RAG）正在重新定义的时代，支持这些进步的支柱往往被忽视：向量数据库。如果您涉足大型语言模型、RAG或任何利用语义搜索的平台，那么你来对地方了。对于那些在这一领域探索的人&#xff0…

LLM - 旋转位置编码 RoPE 代码详解

目录一.引言二.RoPE 理论 1.RoPE 矩阵形式 2.RoPE 图例形式 3.RoPE 实践分析三.RoPE 代码分析 1.源码获取 2.源码分析 3.rotary_emb 3.1 __init__ 3.2 forward 4.apply_rotary_pos_emb 4.1 rotate_half 4.2 apply_rotary_pos_emb 四.RoPE 代码实现 1.Q/K/V …

翻译: LLMs新的工作流程和新的机会 New workflows and new opportunities

生成人工智能正以多种方式引领着不仅仅是成本节约，更是收入增长。但是，就像生成人工智能这样的通用技术创造价值的方式有很多，谈论这些方式是很多的。但在这个视频中，我想看看一些我看到的新兴的，或者更常见的走向这种…

【LM、LLM】浅尝二叉树在前馈神经网络上的应用

前言随着大模型的发展，模型参数量暴涨，以Transformer的为组成成分的隐藏神经元数量增长的越来越多。因此，降低前馈层的推理成本逐渐进入视野。前段时间看到本文介绍的相关工作还是MNIST数据集上的实验，现在这个工作推进到BERT上…

GPT实战系列-Baichuan2等大模型的计算精度与量化

GPT实战系列-Baichuan2等大模型精度与量化不做特别处理，深度学习默认参数精度为浮点32位精度（FP32）。大模型参数庞大，10-1000B级别，如果不注意优化，既耗费大量的显卡资源，也耗费大量的训练时间…

【学习笔记】LLM for Education

ChatGPT has entered the classroom: how LLMs could transform education 前言IntroductionThe risks are realEmbracing LLMsIntroducing the AI tutorAugmenting retrievalWill it catch on?总结前言一篇来自Nature的文章，探讨了教育行业的不同参与者&#x…

翻译: GPT4等大型语言模型的原理解析和未来预测慢思考和模型自我迭代和LLM安全

YouTube: Intro to Large Language Models - YouTube 1. Large Language Model LLM 大家好，最近我做了一个关于大型语言模型的 30 分钟演讲，有点像介绍性演讲，不幸的是，那个演讲没有被录制下来，但很多人在演讲结束后…

[论文阅读] |RAG评估_Retrieval-Augmented Generation Benchmark

写在前面检索增强能够有效缓解大模型存在幻觉和知识时效性不足的问题，RAG通常包括文本切分、向量化入库、检索召回和答案生成等基本步骤。近期组里正在探索如何对RAG完整链路进行评估，辅助阶段性优化工作。上周先对评估综述进行了初步的扫描&#xff0…

LLM推理优化技术综述：KVCache、PageAttention、FlashAttention、MQA、GQA

LLM推理优化技术综述：KVCache、PageAttention、FlashAttention、MQA、GQA 随着大模型被越来越多的应用到不同的领域，随之而来的问题是应用过程中的推理优化问题，针对LLM推理性能优化有一些新的方向，最近一直在学习和研究&#xf…

Nougat：结合光学神经网络，引领学术PDF文档的智能解析、挖掘学术论文PDF的价值

Nougat：结合光学神经网络，引领学术PDF文档的智能解析、挖掘学术论文PDF的价值这是Nougat的官方存储库，Nougat是一种学术文档PDF解析器，可以理解LaTeX数学和表格。 Project page: https://facebookresearch.github.io/nougat/ …

本地运行“李开复”的零一万物 34B 大模型

这篇文章，我们来聊聊如何本地运行最近争议颇多的，李开复带队的国产大模型：零一万物 34B。写在前面零一万物的模型争议有很多，不论是在海外的社交媒体平台，还是在国内的知乎和一种科技媒体上，不论是针对…

chatglm3 vllm部署推理；api访问使用

用fastchat部署暂时有各种问题，参考：https://github.com/lm-sys/FastChat/pull/2622 本篇用vllm运行测试可以使用 1、vllm运行 python -m vllm.entrypoints.api_server --model /***/chatglm/chatglm3-6b/

试过GPT-4V后，微软写了个166页的测评报告，业内人士：高级用户必读

一周之前，ChatGPT迎来重大更新，不管是 GPT-4 还是 GPT-3.5 模型，都可以基于图像进行分析和对话。与之对应的，多模态版GPT-4V模型相关文档也一并放出。当时 OpenAI 放出的文档只有18页，很多内容都无从得知，对…

[算法前沿]--054-大语言模型的学习材料

大语言模型的学习材料 Other Papers If you’re interested in the field of LLM, you may find the above list of milestone papers helpful to explore its history and state-of-the-art. However, each direction of LLM offers a unique set of insights and contribut…

【LLM】chatglm3的agent应用和微调实践

note 知识库和微调并不是冲突的，它们是两种相辅相成的行业解决方案。开发者可以同时使用两种方案来优化模型。例如： 使用微调的技术微调ChatGLM3-6B大模型模拟客服的回答的语气和基础的客服思维。接着，外挂知识库将最新的问答数据外挂给Chat…

【AI视野·今日NLP 自然语言处理论文速览第七十八期】Wed, 17 Jan 2024

AI视野今日CS.NLP 自然语言处理论文速览 Wed, 17 Jan 2024 (showing first 100 of 163 entries) Totally 100 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Deductive Closure Training of Language Models for Coherence, Accur…

BLIP2——采用Q-Former融合视觉语义与LLM能力的方法

BLIP2——采用Q-Former融合视觉语义与LLM能力的方法 FesianXu 20240202 at Baidu Search Team 前言大规模语言模型（Large Language Model,LLM）是当前的当红炸子鸡，展现出了强大的逻辑推理，语义理解能力，而视觉作为人…

Amazon Bedrock ——使用Prompt构建AI软文撰写师的生成式人工智能应用程序

Amazon Bedrock 是一项完全托管的服务，通过单个 API 提供来自 AI21 Labs、Anthropic、Cohere、Meta、Stability AI 和 Amazon 等领先人工智能公司的高性能基础模型（FM），以及通过安全性、隐私性和负责任的 AI 构建生成式人工智能应…

Re55：读论文 Entities as Experts: Sparse Memory Access with Entity Supervision

诸神缄默不语-个人CSDN博文目录诸神缄默不语的论文阅读笔记和分类论文名称：Entities as Experts: Sparse Memory Access with Entity Supervision 模型名称：Entities as Experts (EaE) ArXiv网址：https://arxiv.org/abs/2004.07202 本文…

Chatglm2-6b模型相关问题

Chatglm2-6b模型相关问题 1. Chatglm2-6b模型p-tuning后推理答非所问 1. Chatglm2-6b模型p-tuning后推理答非所问据ChatGLM-6B b站的说法：【官方教程】ChatGLM-6B 微调：P-Tuning，LoRA，Full parameter大概意思就是练了后面的前面…

LLM、AGI、多模态AI 篇三：微调模型

文章目录系列LLM的几个应用层次Lora技术指令设计构建高质量的数据微调步骤系列 LLM、AGI、多模态AI 篇一：开源大语言模型简记 LLM、AGI、多模态AI 篇二：Prompt编写技巧 LLM、AGI、多模态AI 篇三：微调模型 LLM的几个应用层次 AI 端到端应用。是直接面向最终用户的应用程序…

【AI视野·今日NLP 自然语言处理论文速览第六十一期】Tue, 24 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Tue, 24 Oct 2023 (showing first 100 of 207 entries) Totally 100 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers LINC: A Neurosymbolic Approach for Logical Reasoning by Combining …

LLM大模型权重量化实战

大型语言模型 (LLM) 以其广泛的计算要求而闻名。通常，模型的大小是通过将参数数量（大小）乘以这些值的精度（数据类型）来计算的。然而，为了节省内存，可以通过称为量化的过程使用较低精度的数据类…

【AI视野·今日NLP 自然语言处理论文速览第七十四期】Wed, 10 Jan 2024

AI视野今日CS.NLP 自然语言处理论文速览 Wed, 10 Jan 2024 Totally 38 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Model Editing Can Hurt General Abilities of Large Language Models Authors Jia Chen Gu, Hao Xiang Xu, J…

大模型LLM Agent在 Text2SQL 应用上的实践

1.前言在上篇文章中「如何通过Prompt优化Text2SQL的效果」介绍了基于Prompt Engineering来优化Text2SQL效果的实践，除此之外我们还可以使用Agent来优化大模型应用的效果。本文将从以下4个方面探讨通过AI Agent来优化LLM的Text2SQL转换效果。 1 Agent概述2 Lang…

4种最常用的LLM应用文本分块策略

在构建 LLM 应用程序时，分块（Chunking）是将大块文本分解成更小的片段的过程。这是一项重要的技术，一旦我们使用LLM嵌入内容，它有助于优化我们从矢量数据库返回的内容的相关性。在这篇博文中，我们将探讨它…

用LM Studio：2分钟在本地免费部署大语言模型，替代ChatGPT

你想在本地使用类似ChatGPT 的大语言模型么？LM Studio 可以帮你2分钟实现ChatGPT的功能，而且可以切换很多不同类型的大语言模型，同时支持在Windows和MAC上的PC端部署。 LM Studio是一款面向开发者的友好工具，特别适合那些想要探索…

【自然语言处理】【大模型】RWKV：基于RNN的LLM

相关博客【自然语言处理】【大模型】RWKV：基于RNN的LLM 【自然语言处理】【大模型】CodeGen：一个用于多轮程序合成的代码大语言模型【自然语言处理】【大模型】CodeGeeX：用于代码生成的多语言预训练模型【自然语言处理】【大模型】LaMDA&a…

经典算法-遗传算法的解走迷宫例子

经典算法-遗传算法的一个简单例子使用遗传算法走迷宫，如果能从起点顺利走到终点，就能获胜。迷宫如下图所示，绿点为迷宫起点，橙色点为迷宫终点。 LLM大模型相关文章： 大模型查询工具助手之股票免费查询接口 GPT实…

大模型学习之书生·浦语大模型5——基于LMDeploy大模型量化部署实践

目录大模型部署背景 LMDeploy部署量化 TurboMind API server 动手实践环节

LLM大语言模型(典型ChatGPT)入门指南

文章目录一、基础概念学习篇1.1 langchain视频学习笔记1.2 Finetune LLM视频学习笔记二、实践篇2.1 预先下载模型：2.2 LangChain2.3 Colab demo2.3 text-generation-webui 三、国内项目实践langchain-chatchat 一、基础概念学习篇 1.1 langchain视频学习笔记 lan…

翻译: 生成式人工智能的经济潜力第2部分行业影响 The economic potential of generative AI

麦肯锡报告翻译: 生成式人工智能的经济潜力第一部分商业价值 The economic potential of generative AI 1. 行业影响在我们分析的63个使用案例中，生成式人工智能有潜力在各行各业创造2.6万亿至4.4万亿美元的价值。其确切影响将取决于各种因素，比如…

CODE LLM 对比

CODE LLM ModelPass1License机构RespositoryCodeGen-16B-multi19.2开源SalesforceSalesforce/codegen-16B-multi at mainhttps://github.com/salesforce/CodeGenCodeGeeX-13B22.9开源清华大学https://github.com/THUDM/CodeGeeXCodex-12B28.8不开源OpenAICodeT5Plus-16B-mono3…

【AI视野·今日NLP 自然语言处理论文速览第五十六期】Tue, 17 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Tue, 17 Oct 2023 (showing first 100 of 135 entries) Totally 100 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Step-by-Step Remediation of Students Mathematical Mistakes Authors…

LLM文章阅读：Baichuan 2 干货

如有转载，请注明出处。欢迎关注微信公众号：低调奋进。打算开始写LLM系列文章，主要从数据、训练框架、对齐等方面进行LLM整理。 Baichuan 2: Open Large-scale Language Models 原始文章链接 https://cdn.baichuan-ai.com/paper/Baichuan2-…

Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents

ChatSim：首个通过大语言模型实现可编辑逼真3D驾驶场景的仿真论文链接：https://arxiv.org/pdf/2402.05746.pdf 代码链接：https://github.com/yifanlu0227/ChatSim 1. 摘要（Abstract） 自动驾驶中的场景仿真因其生成定制…

【AI视野·今日NLP 自然语言处理论文速览第七十九期】Thu, 18 Jan 2024

AI视野今日CS.NLP 自然语言处理论文速览 Thu, 18 Jan 2024 Totally 35 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Deciphering Textual Authenticity: A Generalized Strategy through the Lens of Large Language Semantics …

GPU深度学习性能的三驾马车：Tensor Core、内存带宽与内存层次结构

编者按：近年来，深度学习应用日益广泛，其需求也在快速增长。那么，我们该如何选择合适的 GPU 来获得最优的训练和推理性能呢？ 今天，我们为大家带来的这篇文章，作者的核心观点是：Tensor…

ChatGPT OpenAI API请求限制尝试解决

1. OpenAI API请求限制 Retrying langchain.chat_models.openai.ChatOpenAI.completion_with_retry.._completion_with_retry in 4.0 seconds as it raised RateLimitError: Rate limit reached for gpt-3.5-turbo-16k in organization org-U7I2eKpAo6xA7RUa2Nq307ae on reques…

腾讯汤道生：大模型只是起点，产业落地是AI更大的应用场景

6月21日，北大光华管理学院联合腾讯，宣布升级“数字中国筑塔计划”，共同推出“企业管理者人工智能通识课”系列课程，助力企业创始人和管理者拥抱AI。在第一课上，腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生&a…

2023人工智能全景报告《State of AI Report》出炉！AI未来一年的10大预测：GPT-4仍是全球最强，GenAI 大爆发，...

文章目录 2023 人工智能全景报告《State of AI Report》出炉！给出AI未来一年的10大预测，GPT-4仍是全球最强，GenAI 大爆发，...1. 研究进展1.1 GPT-4仍是全球最强1.2 闭源模型趋于技术封闭，开源模型紧追不舍1.3 小模型的…

文献阅读：Large Language Models are Null-Shot Learners

文献阅读：Large Language Models are Null-Shot Learners 1. 文章简介2. 方法介绍3. 实验考察 & 结论 1. 基础实验 1. 实验设计2. 实验结果 2. 消融实验 1. 小模型上的有效性2. ∅CoT Prompting3. 位置影响4. 组成内容 4. 总结 & 思考文献链接&#xff1…

Zephyr-7B论文解析及全量训练、Lora训练

文章目录一、Zephyr：Direct Distillation of LM Alignment1.1 开发经过1.1.1 Zephyr-7B-alpha1.1.2 Zephyr-7B-beta 1.2 摘要1.3 相关工作1.4 算法1.4.1 蒸馏监督微调（dSFT）1.4.2 基于偏好的AI反馈 (AIF）1.4.3 直接蒸馏偏好优化&…

Sora 技术实现

Sora 技术实现 Sora 的发布宛如一枚核弹，受到各行各业的追捧和关注。不可否认，Sora 生成的视频效果确实太炸裂了，甩开之前文生视频模型几条街。下面是 Sora vs. Pika vs. RunwayML vs. Stable Video 生成视频效果对比 Sora vs. Pika vs. Run…

【AI视野·今日NLP 自然语言处理论文速览第六十四期】Fri, 27 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Fri, 27 Oct 2023 Totally 80 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers torchdistill Meets Hugging Face Libraries for Reproducible, Coding-Free Deep Learning Studies: A Case …

LLM系列 | 11: LangChain危矣？亲测ChatGPT函数调用功能：以天气问答为例

简介春水碧于天，画船听雨眠。小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖五连鞭的小男孩。紧接前面几篇ChatGPT Prompt工程和应用系列文章： 04:ChatGPT Prompt编写指南05:如何优化ChatGPT Prompt？06:C…

【AI视野·今日NLP 自然语言处理论文速览第三十七期】Thu, 21 Sep 2023

AI视野今日CS.NLP 自然语言处理论文速览 Thu, 21 Sep 2023 Totally 57 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Chain-of-Verification Reduces Hallucination in Large Language Models Authors Shehzaad Dhuliawala, Mojt…

Langchain访问OpenAI ChatGPT API Account deactivated的另类方法，访问跳板机API

笔者曾经写过 ChatGPT OpenAI API请求限制尝试解决 Account deactivated. Please contact us through our help center at help.openai.com if you need assistance. 结果如何？ 没有啥用。目前发现一条曲线救国的方案。 1. 在官方 openai 库中使用此处为最新Op…

LangChain 35: 安全最佳实践深度防御Security

LangChain系列文章 LangChain 实现给动物取名字，LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain 4用向量数据库Faiss存储，读取YouTube的视频文本搜索I…

Agent举例与应用

什么是Agent OpenAI 应用研究主管 Lilian Weng 在一篇长文中提出了 Agent LLM（大型语言模型）记忆规划技能工具使用这一概念，并详细解释了Agent的每个模块的功能。她对Agent未来的应用前景充满信心，但也表明到挑战无处不在。现…

AIGC 实战：如何使用 Docker 在 Ollama 上离线运行大模型（LLM）

Ollama简介 Ollama 是一个开源平台，用于管理和运行各种大型语言模型 (LLM)，例如 Llama 2、Mistral 和 Tinyllama。它提供命令行界面 (CLI) 用于安装、模型管理和交互。您可以使用 Ollama 根据您的需求下载、加载和运行不同的 LLM 模型。 Docker简介 D…

使用 MediaPipe 轻松实现设备端机器学习

MediaPipe介绍 MediaPipe是由Google开发的开源机器学习框架，旨在简化计算机视觉和媒体处理任务的开发。它提供了一种可扩展的方法来处理视觉数据，包括图像和视频，并可以在多种平台上运行，包括Android、iOS、Linux和Windows。以下…

翻译: LLMs离通用人工智能AGI有多远 20个小时学会开车 Artificial General Intelligence

AGI，即人工通用智能，是一个令人兴奋的概念。我认为围绕它的一些混淆源于“通用”这个词的使用。正如您所知，人工智能是一种通用技术，意味着它对许多不同的事情都有用。大型语言模型的崛起导致了像ChatGPT这样的单一模型可以用于许…

序列模型（4）—— Scaling Laws

本文介绍 LLM 训练过程中重要的 Scaling Laws，这是一个经验规律，指出了固定训练成本（总计算量FLOPs） C C C 时，如何调配模型规模（参数量） N N N 和训练 Token 数据量 D D D，才能实现…

LLM - 批量加载 dataset 并合并

目录一.引言二.Dataset 生成 1.数据样式 2.批量加载 ◆ 主函数调用 ◆ 基础变量定义 ◆ 多数据集加载 3.数据集合并 ◆ Concat ◆ interleave ◆ stopping_strategy ◆ interleave_probs 三.总结一.引言 LLM 模型基于 transformer 进行训练，需要先…

2023年5月第4周大模型荟萃

Ubuntu 22.04 配置LLM大语言模型环境

本文介绍了清洁安装的Ubuntu Server 22.04 LTS安装NVIDIA显卡驱动、CUDA 12.1、cuDNN的方法及ChatGLM3、百川2、FastChat等大语言模型的部署使用方法。安装NVIDIA驱动禁用nouveau sudo vi /etc/modprobe.d/blacklist.conf尾部追加一行 blacklist nouveau执行并重启系统 …

MoE模型性能还能更上一层楼？一次QLoRA微调实践

Fine-Tuning Mixtral 8x7B with QLoRA：Enhancing Model Performance 🚀 编者按：最近，混合专家(Mixture of Experts,MoE)这种模型设计策略展现出了卓越的语言理解能力，如何在此基础上进一步提升 MoE 模型的性能成为业界…

2023年8月第1~2周大模型荟萃

LangChain 10思维链Chain of Thought一步一步的思考 think step by step

LangChain系列文章 LangChain 实现给动物取名字，LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain 4用向量数据库Faiss存储，读取YouTube的视频文本搜索I…

大型语言模型在实体关系提取中的应用探索

如今LLM(大语言模型)的问答与生成能力已被大家所熟知，很多用户已经亲身体会到了LLM为工作、生活带来的变革。其实，作为NLP(自然语言处理)的集大成者，LLM能为我们提供的能力不限于此。其基本胜任传统NLP技术所能承担的所有任务。如&#xff1a…

什么是大模型微调？微调的分类、方法、和步骤

2023年，大模型成为了重要话题，每个行业都在探索大模型的应用落地，以及其能够如何帮助到企业自身。尽管微软、OpenAI、百度等公司已经在创建并迭代大模型并探索更多的应用，对于大部分企业来说，都没有足够的成本来创建独特的基础模型（Foundation Model）：数以百亿计的数据…

Text-to-SQL小白入门（二）——Transformer学习

摘要本文主要针对NLP任务中经典的Transformer模型的来源、用途、网络结构进行了详细描述，对后续NLP研究、注意力机制理解、大模型研究有一定帮助。 1. 引言在上一篇《Text-to-SQL小白入门（一）》中，我们介绍了Text-to-SQL研究…

(三)、基于 LangChain 实现大模型应用程序开发 | 模型链 Chains

😄 为什么我们需要Chains ？ 链允许我们将多个组件组合在一起，以创建一个单一的、连贯的应用程序。链（Chains）通常将一个LLM（大语言模型）与提示结合在一起，使用这个构建块&#xff0…

【OpenAI开发者大会】一张思维导图带你看首届OpenAI开发者大会（11月7日）

更多优质内容： 奇想星球WaytoAGI

2023年12月上旬大模型新动向集锦

翻译: LLM大语言模型图像生成原理Image generation

文本生成是许多用户正在使用的，也是所有生成式人工智能工具中影响最大的。但生成式人工智能的一部分兴奋点也在于图像生成。目前也开始出现一些可以生成文本或图像的模型，这些有时被称为多模态模型，因为它们可以在多种模式中操作，…

【LangChain学习之旅】—（3） LangChain快速构建本地知识库的智能问答系统

【LangChain学习之旅】—（3） LangChain快速构建本地知识库的智能问答系统项目及实现框架开发框架核心实现机制数据准备及加载加载文本文本的分割向量数据库存储文本的“嵌入”概念向量数据库概念相关信息获取RetrievalQA生成回答并展示示例小结 Refere…

文献阅读：Transformers are Multi-State RNNs

文献阅读：Transformers are Multi-State RNNs 1. 内容简介2. 方法介绍 1. 基础回顾 1. RNN2. Transformer 2. Transformer解构 1. MSRNN2. Transformer 3. TOVA 1. 现有转换策略2. TOVA 3. 实验考察 & 结论 1. 实验设计2. 实验结果 1. LM2. 长文本理解3. 文本生…

Prompt进阶3:LangGPT(构建高性能质量Prompt策略和技巧2)--稳定高质量文案生成器

Prompt进阶3:LangGPT(构建高性能质量Prompt策略和技巧2)–稳定高质量文案生成器 1.LangGPT介绍现有 Prompt 创建方法有如下缺点： 缺乏系统性：大多是细碎的规则，技巧，严重依赖个人经验缺乏灵活性：对他人分享的优质 …

概念解析 | LoRA:低秩矩阵分解在神经网络微调中的作用

注1:本文系“概念解析”系列之一,致力于简洁清晰地解释、辨析复杂而专业的概念。本次辨析的概念是:基于低秩矩阵分解的神经网络微调方法LoRA LoRA: Low-Rank Adaptation of Large Language Models LoRA由如下论文提出，详细信息请参见论文原文 https://arxiv.org/abs/2106.0968…

【Agent模型1】MemGPT: Towards LLMs as Operating Systems

论文标题：MemGPT: Towards LLMs as Operating Systems 论文作者：Charles Packer, Vivian Fang, Shishir G. Patil, Kevin Lin, Sarah Wooders, Joseph E. Gonzalez (UC Berkeley) 论文原文：https://arxiv.org/abs/2310.08560 论文出处&#x…

『大模型笔记』大模型中的Scaling Law(规模法则)

大模型中的Scaling Law(规模法则) 文章目录一. 核心结论二. 大模型中的Scaling Law三. 参考文献Scaling Laws简单介绍就是：随着模型参数量大小、数据集大小和用于训练的浮点数计算量的增加，模型的性能会提高。并且为了获得最佳性能，所有三个因素必须同时放大。当不受其他两…

【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版)

ChatGLM-6B模型结构代码解析(单机版) 本文介绍ChatGLM-6B的模型结构，代码来自https://huggingface.co/THUDM/chatglm-6b/blob/main/modeling_chatglm.py。相关博客【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版) 【自然语言处理】【大模型】BL…

GPT实战系列-探究GPT等大模型的文本生成

GPT实战系列-探究GPT等LLM文本生成 GPT专栏文章： GPT实战系列-Baichuan2等大模型的计算精度与量化-CSDN博客 GPT实战系列-GPT训练的Pretraining，SFT，Reward Modeling，RLHF-CSDN博客 GPT实战系列-ChatGLM3本地部署CUDA111080Ti…

LangChain 20 Agents调用google搜索API搜索市场价格 Reason Action：在语言模型中协同推理和行动

LangChain系列文章 LangChain 实现给动物取名字，LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain 4用向量数据库Faiss存储，读取YouTube的视频文本搜索I…

极智芯 | 解读近存计算AI芯势力Groq LPU

欢迎关注我的公众号「极智视界」，获取我的更多技术分享大家好，我是极智视界，本文分享一下解读近存计算AI芯势力Groq LPU。邀您加入我的知识星球「极智视界」，星球内有超多好玩的项目实战源码和资源下载，链接：https://t.zsxq.com/0aiNxERDq 当然，标题用了 "一语…

ChatGPT一周年：开源语言大模型的冲击

自2022年末发布后，ChatGPT给人工智能的研究和商业领域带来了巨大变革。通过有监督微调和人类反馈的强化学习，模型可以回答人类问题，并在广泛的任务范围内遵循指令。在获得这一成功之后，人们对LLM的兴趣不断增加，新的LL…

文献阅读：Sparse Low-rank Adaptation of Pre-trained Language Models

文献阅读：Sparse Low-rank Adaptation of Pre-trained Language Models 1. 文章简介2. 具体方法介绍 1. SoRA具体结构2. 阈值选取考察 3. 实验 & 结论 1. 基础实验 1. 实验设置2. 结果分析 2. 细节讨论 1. 稀疏度分析2. rank分析3. 参数位置分析4. 效率考察 4.…

文献阅读：LIMA: Less Is More for Alignment

文献阅读：LIMA: Less Is More for Alignment 1. 内容简介2. 实验设计 1. 整体实验设计2. 数据准备3. 模型准备4. metrics设计 3. 实验结果 1. 基础实验2. 消解实验3. 多轮对话 4. 结论 & 思考文献链接：https://arxiv.org/abs/2305.11206 1. 内容简…

生成式AI - 基于大模型的应用架构与方案

这篇文章探讨了使用文档加载器、嵌入、向量存储和提示模板构建基于语言模型(LLM)应用程序的过程。由于其生成连贯且上下文相关的文本的能力，LLM在自然语言处理任务中变得越来越受欢迎。本文讨论了LLM的重要性，比较了微调和上下文注入方法，介绍…

LLM大语言模型（一）：ChatGLM3-6B本地部署

目录前言本机环境 ChatGLM3代码库下载模型文件下载修改为从本地模型文件启动启动模型网页版对话demo 超参数设置 GPU资源使用情况 （网页对话非常流畅） 前言 LLM大语言模型工程化，在本地搭建一套开源的LLM，方便后续的…

吴恩达ChatGPT《Finetuning Large Language Models》笔记

课程地址：https://learn.deeplearning.ai/finetuning-large-language-models/lesson/1/introduction Introduction 动机：虽然编写提示词（Prompt）可以让LLM按照指示执行任务，比如提取文本中的关键词，或者对…

LLM大模型开源案例集，需带有：数据集+模型微调+项目代码（三）

文章目录 1 ChatGLM-Med: 基于中文医学知识的ChatGLM模型微调1.1 数据集1.2 ChatGLM+P-tuning V2微调1.3 Llama + Alpaca的Lora微调版本2 LawGPT_zh：中文法律大模型（獬豸）2.1 数据集2.1.1 利用ChatGPT清洗CrimeKgAssitant数据集得到52k单轮问答：2.1.2 带有法律依据的情景问…

Python 基于pytorch从头写GPT模型；实现gpt实战

1.定义缩放点积注意力类 import numpy as np # 导入 numpy 库 import torch # 导入 torch 库 import torch.nn as nn # 导入 torch.nn 库 d_k 64 # K(Q) 维度 d_v 64 # V 维度 # 定义缩放点积注意力类 class ScaledDotProductAttention(nn.Module):def __init__(self):super…

【LMM 008】Instruction Tuning with GPT-4

论文标题：Instruction Tuning with GPT-4 论文作者：Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao 作者单位：Microsoft Research 论文原文：https://arxiv.org/abs/2304.03277 论文出处：– 论文…

LLM大语言模型（一）：ChatGLM3-6B试用

前言 LLM大语言模型工程化，在本地搭建一套开源的LLM，方便后续的Agent等特性的研究。本机环境 CPU：AMD Ryzen 5 3600X 6-Core Processor Mem：32GB GPU：RTX 4060Ti 16G ChatGLM3代码库下载 # 下载代码库 git c…

Stable Diffusion 微调及推理优化实践指南

随着 Stable Diffsuion 的迅速走红，引发了 AI 绘图的时代变革。然而对于大部分人来说，训练扩散模型的门槛太高，对 Stable Diffusion 进行全量微调也很难入手。由此，社区催生了一系列针对 Stable Diffusion 的高效微调方案&#xf…

关于fine-tune “微调”

大模型的 Fine-tune 我们对技术的理解，要比技术本身更加重要。正如我在《大模型时代的应用创新范式》一文中所说，大模型会成为AI时代的一项基础设施。作为像水、电一样的基础设施，预训练大模型这样的艰巨任务，只会有少数技术…

LangChain 12调用模型HuggingFace中的Llama2和Google Flan t5

LangChain系列文章 LangChain 实现给动物取名字，LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain 4用向量数据库Faiss存储，读取YouTube的视频文本搜索I…

(八)、基于 LangChain 实现大模型应用程序开发 | 基于知识库的个性化问答 (检索 Retrieval)

检索增强生成（RAG）的整体工作流程如下： 在构建检索增强生成 (RAG) 系统时，信息检索是核心环节。检索是指根据用户的问题去向量数据库中搜索与问题相关的文档内容，当我们访问和查询向量数据库时可能会运用到如下几种技术…

LangChain 11实现思维树Implementing the Tree of Thoughts in LangChain’s Chain

思维之树（ Tree of Thoughts ToT）是一个算法，它结合了普林斯顿大学和谷歌DeepMind在本文中提出的大型语言模型（LLMs）和启发式搜索。看起来这个算法正在被实现到谷歌正在开发的多模式生成AI Gemini中。现在&#xff0…

开源大模型LLM大爆发，数据竞赛已开启！如何使用FuseLLM实现大语言模型的知识融合？

开源大模型LLM大爆发，数据竞赛已开启！如何使用FuseLLM实现大语言模型的知识融合？ 现在大多数人都知道LLM是什么，以及可以做什么。人们讨论着它的优缺点，畅想着它的未来， 向往着真正的AGI，又有…

倚天屠龙：Github Copilot vs Cursor

武林至尊，宝刀屠龙。号令天下，莫敢不从。倚天不出，谁与争锋！ 作为开发人员吃饭的家伙，一款好的开发工具对开发人员的帮助是无法估量的。还记得在学校读书的时候，当时流行CS架构的RAD，Delphi和V…

Re59：读论文 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

诸神缄默不语-个人CSDN博文目录诸神缄默不语的论文阅读笔记和分类论文名称：Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 模型开源地址：https://huggingface.co/facebook/rag-token-nq ArXiv下载地址：https://arxi…

大模型笔记【2】 LLM in Flash

Apple最近发表了一篇文章，可以在iphone, MAC 上运行大模型：【LLM in a flash: Efficient Large Language Model Inference with Limited Memory】。主要解决的问题是在DRAM中无法存放完整的模型和计算，但是Flash Memory可以存放完整的模型。…

【AI视野·今日NLP 自然语言处理论文速览第七十一期】Fri, 5 Jan 2024

AI视野今日CS.NLP 自然语言处理论文速览 Fri, 5 Jan 2024 Totally 28 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers LLaMA Pro: Progressive LLaMA with Block Expansion Authors Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, …

2023年6月第3周大模型荟萃

Prompt的技巧持续总结

Prompt 有很多网站已经收录了，比如：aimappro 有些直接抄上述网站的作业即可，不过也来看看， 有一些日常提问大概的咒语该怎么写。 1 三种微调下的提示写法 chatgpt时代的创新：LLM的应用模式比较实际案例说明AI时代大…

LLM、AGI、多模态AI 篇五：基于LoRA微调ChatGLM3

文章目录系列LLaMA-Factory简介推荐硬件要求环境搭建数据准备指令微调数据集偏好数据集自定义数据集指令监督微调合并 LoRA 权重并导出模型其他（训练全流程）预训练奖励模型训练PPO 强化学习训练DPO 强化学习训练通过一站式网页界面快速上手

Accelerate 0.24.0文档三：超大模型推理（内存估算、Sharded checkpoints、bitsandbytes量化、分布式推理）

文章目录一、内存估算1.1 Gradio Demos1.2 The Command 二、使用Accelerate加载超大模型2.1 模型加载的常规流程2.2 加载空模型2.3 分片检查点（Sharded checkpoints）2.4 示例：使用Accelerate推理GPT2-1.5B2.5 device_map 三、bitsandbytes量…

LangChain 25: SQL Agent通过自然语言查询数据库sqlite

LangChain系列文章 LangChain 实现给动物取名字，LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain 4用向量数据库Faiss存储，读取YouTube的视频文本搜索I…

LangChain 26: 回调函数callbacks打印prompt verbose调用

LangChain系列文章 LangChain 实现给动物取名字，LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain 4用向量数据库Faiss存储，读取YouTube的视频文本搜索I…

LoRA：语言模型微调的计算资源优化策略

编者按：随着数据量和计算能力的增加，大模型的参数量也在不断增加，同时进行大模型微调的成本也变得越来越高。全参数微调需要大量的计算资源和时间，且在进行切换下游任务时代价高昂。本文作者介绍了一种新方法 LoRA，可…

大语言模型初学者指南 (2023)

大语言模型 (LLM) 是深度学习的一个子集，它正在彻底改变自然语言处理领域。它们是功能强大的通用语言模型，可以针对大量数据进行预训练，然后针对特定任务进行微调。这使得LLM能够拥有大量的一般数据。如果一个人想将LLM用于特定目的&#xff…

翻译: LLM工具使用和代理Tool use and agents

欢迎来到本周的最后一个视频。在这个视频中，我想与您分享LLM（大型语言模型）开始能够使用工具的情况，以及讨论一下前沿的“代理”主题，这是让LLM自己决定下一步采取什么行动的领域。让我们来看看。在早期的食物订单接收…

【llm 使用llama 小案例】

huggingfacehttps://huggingface.co/meta-llama from transformers import AutoTokenizer, LlamaForCausalLMPATH_TO_CONVERTED_WEIGHTS PATH_TO_CONVERTED_TOKENIZER # 一般和模型地址一样model LlamaForCausalLM.from_pretrained(PATH_TO_CONVERTED_WEIGHTS) tokenize…

精进语言模型：探索LLM Training微调与奖励模型技术的新途径

大语言模型训练（LLM Training） LLMs Trainer 是一个旨在帮助人们从零开始训练大模型的仓库，该仓库最早参考自 Open-Llama，并在其基础上进行扩充。有关 LLM 训练流程的更多细节可以参考【LLM】从零开始训练大模型。使用仓库之…

Streamlit项目：基于讯飞星火认知大模型开发Web智能对话应用

文章目录 1 前言2 API获取3 官方文档的调用代码4 Streamlit 网页的搭建4.1 代码及效果展示4.2 Streamlit相关知识点 5 结语 1 前言科大讯飞公司于2023年8月15日发布了讯飞认知大模型V2.0，这是一款集跨领域知识和语言理解能力于一体的新一代认知智能大模型。前日&a…

【AI视野·今日NLP 自然语言处理论文速览四十九期】Fri, 6 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Fri, 6 Oct 2023 Totally 44 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning Authors Ke Wang, Houxi…

【大模型】更强的开源可商用的中英文大语言模型baichuan2来了，从零开始搭建

【大模型】更强的开源可商用的中英文大语言模型baichuan2来了，从零开始搭建 Baichuan 2 介绍技术报告github 地址模型下载开放协议协议测试评估通用领域测试7B 模型结果13B 模型结果法律、医疗7B 模型结果13B 模型结果数学、代码7B 模型结果13B 模型结果多语言…

2023年11月下旬大模型新动向集锦

小白学大模型LLMs：文本分词方法

本文介绍了各种类型的分词（tokenization），用于将单词拆分为一个或多个标记（token），因为单词和分词之间存在一对多的关系。什么是预分词（Pre-tokenization） 预分词是在处理基于文本…

fill-in-the-middle(FIM) 实现与简单应用

1 背景传统训练的 GPT 模型只能根据前文内容预测后文内容，但有些应用比如代码生成器，需要我们给出上文和下文，使模型可以预测中间的内容，传统训练的 GPT 就不能完成这类任务。传统训练的 GPT 只能根据上文预测下文使用 FIM…

Text-to-SQL小白入门（八）RLAIF论文：AI代替人类反馈的强化学习

学习RLAIF论文前，可以先学习一下基于人类反馈的强化学习RLHF，相关的微调方法（比如强化学习系列RLHF、RRHF、RLTF、RRTF）的论文、数据集、代码等汇总都可以参考GitHub项目：GitHub - eosphoros-ai/Awesome-Text2SQL: Cur…

大型语言模型在实体关系提取中的应用探索(二)

上一篇文章我们探讨了如何使用大语言模型进行实体关系的抽取。本篇文章我们将进一步探索这个话题。比较一下国内外几款知名大模型在相同的实体关系提取任务下的表现。由于精力有限，我们无法全面测试各模型的实体关系抽取能力，因此，看到的效果…

文献阅读：LONGNET: Scaling Transformers to 1,000,000,000 Tokens

文献阅读：LONGNET: Scaling Transformers to 1,000,000,000 Tokens 1. 文章简介2. 方法原理 1. 方法思路2. Dilated Attention 1. 具体原理2. 多头实现3. 复杂度分析 3. 训练方法 3. 实验结果4. 结论 & 思考5. 参考链接文献链接：https://arxiv.org…

LangChain 31 模块复用Prompt templates 提示词模板

LangChain系列文章 LangChain 实现给动物取名字，LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain 4用向量数据库Faiss存储，读取YouTube的视频文本搜索I…

LLM在text2sql上的应用 | 京东云技术团队

一、前言： 目前，大模型的一个热门应用方向text2sql它可以帮助用户快速生成想要查询的SQL语句。那对于用户来说，大部分简单的sql都是正确的，但对于一些复杂逻辑来说，需要用户在产出SQL的基础上进行简单修改&#xff0c…

【AI视野·今日CV 计算机视觉论文速览第262期】Fri, 6 Oct 2023

AI视野今日CS.CV 计算机视觉论文速览 Fri, 6 Oct 2023 Totally 73 papers 👉上期速览✈更多精彩请移步主页 Daily Computer Vision Papers Improved Baselines with Visual Instruction Tuning Authors Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee大型多模…

文档向量化工具（二）：text2vec介绍

目录前言 text2vec开源项目核心能力文本向量表示模型本地试用安装依赖下载模型到本地（如果你的网络能直接从huggingface上拉取文件，可跳过） 运行试验代码前言在上一篇文章中介绍了，如何从不同格式的文件里提取…

七天入门大模型：大模型自动评估理论和实战

文章目录背景技术交流群LLM评估的方法论1.2.1 模型效果评估1.2.2 模型性能评估 LLM评估实战背景大语言模型（LLM）评测是LLM开发和应用中的关键环节。目前评测方法可以分为人工评测和自动评测，其中，自动评测技术相比人工评测来讲…

LLM：Vicuna 7B模型简单部署体验

0、引入1、保存权重文件到阿里云盘2、部署环境3、上传权重文件到30904、下载安装源码4.1 下载编译安装源码4.2 安装5、开始使用6、直接使用我的镜像立即开启人机对话Debug：可能的报错0、引入随着ChatGPT的火热，科技公司们各显神通，针对大语…

零一万物模型折腾笔记：官方 Yi-34B 模型基础使用

当争议和流量都消失后，或许现在是个合适的时间点，来抛开情绪、客观的聊聊这个 34B 模型本身，尤其是实践应用相关的一些细节。来近距离看看这个模型在各种实际使用场景中的真实表现和对硬件的性能要求。或许，这会对也想在本地私有…

LLM的未来会如何影响我们呢？

今天早上看了一篇比尔盖茨写的关于LLM的文章。里面有不少跟我感同身受的内容。 ChatGPT前段时间的更新，确实让人再次眼前一亮。模型的能力又上了一个档次。如之前所预想的，文档输入功能（本质还是文字）和图片输入功能也都集成了…

【LLM大模型】LLM模型和指令微调方法

note 文章目录 note零、AIGC生成式模型1. 核心要素2. LLM evolutionary tree3. 几个bigScience里的概念二、LLM大模型1. ChatGLM（1）GLM-130B（2）ChatGLM-6B 2. LLaMA3. RoBERTa4. Bloom5. PaLM 三、模型指令微调1. 指令微调的注意…

OpenAI发布ChatGPT企业级版本

本周一（2023年8月28日）OpenAI 推出了 ChatGPT Enterprise，这是它在 4 月份推出的以业务为中心的订阅服务。该公司表示，根据新计划，不会使用任何业务数据或对话来训练其人工智能模型。 “我们的模型不会从你的使用情况中…

GPT实战系列-如何用自己数据微调ChatGLM2模型训练

GPT实战系列-如何用自己数据微调ChatGLM2模型训练目录 GPT实战系列-如何用自己数据微调ChatGLM2模型训练1、训练数据广告文案生成模型训练和测试数据组织： 2、训练脚本3、执行训练调整运行 4、问题解决问题一问题二问题三问题四 1、训练数据广告文案生成模型输…

中文大语言模型汇总

推荐一篇非常棒的github：Awesome-Chinese-LLM 另附语言模型排行榜：FastChat 里面总结了几乎所有目前主流的中文大语言模型。在此记录一下，方便以后慢慢学习。

【AI Agent】Agent的原理介绍与应用发展思考

文章目录 Agent是什么？最直观的公式Agent决策流程 Agent 大爆发人是如何做事的？如何让LLM替代人去做事?来自斯坦福的虚拟小镇架构记忆（Memory）反思（Reflection）计划（Plan） 类 LangC…

概念解析 | LoRA:低秩矩阵分解在神经网络微调中的魔力

注1:本文系“概念解析”系列之一,致力于简洁清晰地解释、辨析复杂而专业的概念。本次辨析的概念是:基于低秩矩阵分解的神经网络微调方法LoRA LoRA:低秩矩阵分解在神经网络微调中的魔力 Low-Rank Adaptation of Large Language Models LoRA由如下论文提出，详细信息请参见论文原…

OpenAI发布Sora模型，可根据文字生成逼真AI视频

早在2022年11月30日，OpenAI第一次发布人工智能聊天机器人ChatGPT，随后在全世界掀起了人工智能狂潮，颠覆了一个又一个行业。在过去的一年多的时间里，chatGPT的强大功能改变了越来越多人的工作和生活方式，成为了世界上用…

【LLM】2023年大型语言模型训练

2022年底，大型语言模型（LLM）在互联网上掀起了风暴，OpenAI的ChatGPT在推出5天后就达到了100万用户。ChatGPT的功能和广泛的应用程序可以被认可为GPT-3语言模型所具有的1750亿个参数尽管使用像ChatGPT这样的最终产品语言模型很容易…

Agent开发的一小步，大模型应用的一大步

https://www.sohu.com/a/708426242_425761 Chat GPT带起飞的大模型无疑是上半年最火热的赛道，随着GPT-4的发布，各大互联网巨头、科技公司等纷纷入局。而在国内市场，过去几个月间大模型就已密集“涌现”。不得不说，ChatGPT是大模…

【论文极速读】Prompt Tuning——一种高效的LLM模型下游任务适配方式

【论文极速读】Prompt Tuning——一种高效的LLM模型下游任务适配方式 FesianXu 20230928 at Baidu Search Team 前言 Prompt Tuning是一种PEFT方法（Parameter-Efficient FineTune），旨在以高效的方式对LLM模型进行下游任务适配，本…

【AI视野·今日Robot 机器人论文速览第四十五期】Mon, 2 Oct 2023

AI视野今日CS.Robotics 机器人学论文速览 Mon, 2 Oct 2023 Totally 42 papers 👉上期速览✈更多精彩请移步主页 Interesting: 📚PONG, Probabilistic Object Normals for Grasping 用于抓取的概率目标归一化，根据目标表面法向量获取的不确定…

文档理解的新时代：LayOutLM模型的全方位解读

一、引言在现代文档处理和信息提取领域，机器学习模型的作用日益凸显。特别是在自然语言处理（NLP）技术快速发展的背景下，如何让机器更加精准地理解和处理复杂文档成为了一个挑战。文档不仅包含文本信息，还包括布局、图…

【EAI 019】Eureka: Human-Level Reward Design via Coding LLM

论文标题：Eureka: Human-Level Reward Design via Coding Large Language Models 论文作者：Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar 作者单位&#xff…

文献阅读：Improving Language Understanding by Generative Pre-Training

文献阅读：Improving Language Understanding by Generative Pre-Training 1. 文章简介2. 模型介绍3. 实验考察 1. 训练数据2. 实验结果3. 消解实验 4. 总结 & 思考文献链接：https://cdn.openai.com/research-covers/language-unsupervised/languag…

LP（六十九）智能文档助手升级

本文在笔者之前研发的大模型智能文档问答项目中，开发更进一步，支持多种类型文档和URL链接，支持多种大模型接入，且使用更方便、高效。项目介绍在文章NLP（六十一）使用Baichuan-13B-Chat模型构建智能文档中…

NLP（六十九）智能文档问答助手升级

本文在笔者之前研发的大模型智能文档问答项目中，开发更进一步，支持多种类型文档和URL链接，支持多种大模型接入，且使用更方便、高效。项目介绍在文章NLP（六十一）使用Baichuan-13B-Chat模型构建智能文档中…

【吴恩达deeplearning.ai】基于LangChain开发大语言应用模型（下）

以下内容均整理来自deeplearning.ai的同名课程 Location 课程访问地址 DLAI - Learning Platform Beta (deeplearning.ai) LangChain for LLM Application Development 基于LangChain开发大语言应用模型（上） 一、LangChain: Q&A over Documents基于文…

LLM - 大模型评估指标之 BLEU

目录一.引言二.BLEU 简介 1.Simple BLEU 2.Modified BLEU 3.Modified n-gram precision 4.Sentence brevity penalty 三.BLEU 计算 1.计算句子与单个 reference 2.计算句子与多个 reference 四.总结一.引言机器翻译的人工评价广泛而昂贵，且人工评估可…

一文入门最热的LLM应用开发框架LangChain

在人工智能领域的不断发展中，语言模型扮演着重要的角色。特别是大型语言模型（LLM），如 ChatGPT，已经成为科技领域的热门话题，并受到广泛认可。在这个背景下，LangChain 作为一个以 LLM 模型为核…

LLM 生成式配置的推理参数温度 top k tokens等 Generative configuration inference parameters

在这个视频中，你将了解一些方法和相关的配置参数，这些参数可以用来影响模型在下一个词生成时的最终决策方式。如果你在Hugging Face网站或AWS的游乐场中使用过LLMs，你可能已经看到了这些控制选项，用来调整LLM的行为。每个模型都暴…

LLM - 大模型技术报告与训练细节 By Baichuan2

目录一.引言二.Introduction - LLM 相关进展 1.模型参数越大，模型能力越强 2.开源模型促进 LLM 领域快速发展 3.开源模型集中在英文领域，其他语言能力有限 4.训练数据 2.6 亿 Token 遥遥领先 5.优化人类指令发布对应 Chat 模型 6.公布了训练过…

【AI视野·今日NLP 自然语言处理论文速览第四十二期】Wed, 27 Sep 2023

AI视野今日CS.NLP 自然语言处理论文速览 Wed, 27 Sep 2023 Totally 50 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models Authors Mert …

向量数据库 Milvus：实现高效向量搜索的技术解析

引言随着人工智能、机器学习和深度学习技术的不断发展，越来越多的应用开始使用向量表示数据。向量数据具有高维、稀疏和相似性等特点，传统的关系型数据库和键值存储在处理这类数据时面临许多挑战。为了满足大规模、高并发的向量搜索需求，出现…

ChatGPT时代的我的博客

好久没有在CSDN写原创文章了。 ChatGPT出来之后，肯定对CSDN这样的平台有很大的冲击性。我平时在CSDN写的文章，大多是翻译和一些平时编程遇到的代码问题。小部分是一些自己的经验和总结。这些文章会被ChatGPT，或者更通用的说，…

聊聊具身智能怎么实现？

当学习GPT技术时，我们会思考GPT发展的最终目标是什么？答案是“具身智能”，它是一种通用人工智能，可以像人一样能够和环境交互感知、自主规划、决策、行动。 GPT的诞生要归功于NLP技术的快速发展，从2018年到2021年&…

AIGC 实战：Ollama 和 Hugging Face 是什么关系？

Ollama和 Hugging Face 之间存在着双重关系： 1. Ollama是 Hugging Face 开发并托管的工具： Ollama是一个由 Hugging Face 自行开发的开源项目。它主要用于在本地运行大型语言模型 (LLM)，特别是存储在 GPT 生成的统一格式 (GPT-Generated Un…

Re45：读论文 GPT-1 Improving Language Understanding by Generative Pre-Training

诸神缄默不语-个人CSDN博文目录诸神缄默不语的论文阅读笔记和分类论文全名：Improving Language Understanding by Generative Pre-Training 论文下载地址：https://www.mikecaptain.com/resources/pdf/GPT-1.pdf 本文是2018年OpenAI的工作&#xff0c…

AIGC之常见LLM免费使用

文章目录 1.前言2.常见LLM免费使用方法(部分网站需要使用魔法)2.1 GPT-4/GPT-3.5-16k国内镜像2.2 GPT-3.5 国内镜像2.3 LLM国外综合网站 3.总结 1.前言自从ChatGPT在2022年底横空出世以来，一股大模型浪潮席卷全球，各大领域AIGC概念火爆。与此同时&…

提示词4大经典框架；将AI融入动画工作流的案例和实践经验；构建基于LLM的系统和产品的模式；提示工程的艺术 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！ 🤖 高效提示词的4大经典框架：ICIO、CRISPE、BROKE、RASCEF ICIO 框架 Intruction (任务) ：你希望AI去做的任务&am…

Text-to-SQL小白入门（四）指令进化大模型WizardLM

摘要本文主要对大模型WizardLM的基本信息进行了简单介绍，展示了WizardLM取得的优秀性能，分析了论文的核心——指令进化方法。论文概述基本信息英文标题：WizardLM: Empowering Large Language Models to Follow Complex Instructions中…

CopilotHub招聘产品设计师；大模型岗位面试官的一线分享；AI应用创业的共识与非共识；LangChain学习手册 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！ 🤖 CopilotHub 招聘产品设计师，AI Agent C 端产品、远程工作、无限制带薪假期 https://app.copilothub.ai 这是一家成立于202…

【RapidAI】P1 中文文本切割程序

中文文本切割程序基本信息代码解析相关包获取 yaml 关键文件类的构造函数切分语句部分特殊处理 PDF重点切分去除数组中空字符串再度切分后长度附录附录一：完整代码附录二：可继续思考问题基本信息文件名： chinese_text_splitter.py 文件地…

乘骐骥以驰骋兮，来吾道夫先路——2023年大模型技术基础架构盘点与开源工作速览

目录一、模型基本架构1.1、自回归（Autoregressive）模型架构1.2、自编码（Autoencoder）模型架构1.3、完整的编码-解码模型架构二、典型开源工作速览2.1、LLaMA-22.2、baichuan-22.3、Falcon2.4、BLOOM 最后在过去的一年里&#x…

GPT实战系列-大模型为我所用之借用ChatGLM3构建查询助手

GPT实战系列-https://blog.csdn.net/alex_starsky/category_12467518.html 如何使用大模型查询助手功能？例如调用工具实现网络查询助手功能。目前只有 ChatGLM3-6B 模型支持工具调用，而 ChatGLM3-6B-Base 和 ChatGLM3-6B-32K 模型不支持。定义好工具的…

【LLM】Windows本地CPU部署民间版中文羊驼模型踩坑记录

目录前言准备工作 Git Python3.9 Cmake 下载模型合并模型部署模型前言想必有小伙伴也想跟我一样体验下部署大语言模型, 但碍于经济实力, 不过民间上出现了大量的量化模型, 我们平民也能体验体验啦~, 该模型可以在笔记本电脑上部署, 确保你电脑至少有16G运行…

LangChain学习笔记；给老师的ChatGPT使用指南；中国大模型顶级闭门会交流笔记；飞桨开源任务挑战大赛 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！ 🤖 飞桨PaddlePaddle开源任务挑战大赛，首届「开放原子开源大赛」等你参与官网：https://competition.atomgit.com…

Fastchat：基于fastapi构建大模型加载服务

Fastchat：基于fastapi构建大模型加载服务 Fastapi LLM支持FastChat 服务架构安装方法一：pip方法二：源文件加载大模型推理1.命令行2.Web启动控制器启动模型工作启动 Gradio Web 服务器注册多个模型 3.兼容 OpenAI 的 RESTful API RESTful API…

Llama2-Chinese项目：1-项目介绍和模型推理

Atom-7B与Llama2间的关系：Atom-7B是基于Llama2进行中文预训练的开源大模型。为什么叫原子呢？因为原子生万物，Llama中文社区希望原子大模型未来可以成为构建AI世界的基础单位。目前社区发布了6个模型，如下所示： FlagAl…

请体验一下falcon 180b 大语言模型的感觉

引言由Technology Innovation Institute(T四训练的开源大模型Falcon 180B登陆Hugging Face!Falcon180B为开源大模型树立了全新的标杆。作为当前最大的开源大模型，有l80B参数并且是在在3.5万亿token的TII RefinedWeb数据集上进行训练，这也是目前…

【AI视野·今日NLP 自然语言处理论文速览第四十三期】Thu, 28 Sep 2023

AI视野今日CS.NLP 自然语言处理论文速览 Thu, 28 Sep 2023 Totally 38 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard Parameter Sharing Authors Brian Yan,…

AI小镇Generative Agents: Interactive Simulacra of Human Behavior

文章目录 1 Introduction2 Related Works2.1 Human-AI Interaction2.2 Belivable Proxies for Human Behavior2.3 Large Language Model and Human Behavior 3 Generative agent behavior and interaction（行为与交互）3.1 Agent Avatar and Communicatio…

论文阅读：Editing Large Language Models: Problems, Methods, and Opportunities

Editing Large Language Models: Problems, Methods, and Opportunities 论文链接代码链接摘要由于大语言模型（LLM）中可能存在一些过时的、不适当的和错误的信息，所以有必要纠正模型中的相关信息。如何高效地修改模型中的相关信息而不影…

港大提出图结构大语言模型：GraphGPT

1. 引言图神经网络（Graph Neural Networks）已经成为分析和学习图结构数据的强大框架，推动了社交网络分析、推荐系统和生物网络分析等多个领域的进步。图神经网络的主要优势在于它们能够捕获图数据中固有的结构信息和依赖关系。利用消息传递…

模型剪枝Lab

这里是MIT 6.5940 Fall 2023的第一个实验Lab1的一些笔记，课程传送门：Han Lab Setup First, install the required packages and download the datasets and pretrained model. Here we use CIFAR10 dataset and VGG network which is the same as what…

基于LLM的数据漂移和异常检测

大型语言模型 (LLM) 的最新进展被证明是许多领域的颠覆性力量（请参阅：通用人工智能的火花：GPT-4 的早期实验）。和许多人一样，我们非常感兴趣地关注这些发展，并探索LLM影响数据科学和机器学习领域的工作流程…

DALL·E 2 文生图模型实践指南

前言：本篇博客记录使用dalle2模型进行推断时借鉴的相关资料和DEBUG流程。相关博客：超详细！DALL E 文生图模型实践指南目录 1. 环境搭建和预训练模型准备环境搭建预训练模型下载 2. 代码3. BUG&DEBUGURLErrorCUDA errorRuntimeErrorPyd…

微软开源 JARVIS 用 ChatGPT 控制 AI 模型

微软亚洲研究院和浙江大学的研究团队近日发布的一篇论文 ——《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace》介绍了一个大模型协作系统该系统提出了一种让 LLM 充当控制器的新方法，让 LLM 来管理现有的 AI 模型，来完成…

大模型之PaLM2简介

1 缘起大模型时代。时刻关注大模型相关的研究与进展， 以及科技巨头的商业化大模型产品。作为产品&技术普及类文章，本文将围绕PaLM2是什么、特点、如何使用展开。想要了解更多信息的可以移步官方网站提供的参考文档，后文会给出相关链…

【promptulate专栏】ChatGPT框架——两行代码构建一个强大的论文总结助手

本文节选自笔者博客：https://www.blog.zeeland.cn/archives/019hasaa 💖 作者简介：大家好，我是Zeeland，开源建设者与Python领域优质创作者。📝 CSDN主页：Zeeland🔥📣 我的…

【AI视野·今日NLP 自然语言处理论文速览第六十三期】Thu, 26 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Thu, 26 Oct 2023 Totally 89 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers LLM-FP4: 4-Bit Floating-Point Quantized Transformers Authors Shih yang Liu, Zechun Liu, Xijie Huang, P…

LLM 相关资料备忘

1：Transformer 零基础解析教程 https://zhuanlan.zhihu.com/p/609271490 如何从浅入深理解transformer？ https://www.zhihu.com/question/471328838/answer/3011638037 2：Prompt工程如此强大，我们还需要模型训练吗&#xff…

AI工程师招募；60+开发者AI工具清单；如何用AI工具读懂插件源码；开发者出海解读；斯坦福LLM课程 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！ 🤖 一则AI工程师招募信息：新领域需要新技能 Vision Flow (目的涌现) 是一家基于 AGI 原生技术的创业公司，是全球探…

2023年8月第4周大模型荟萃

大型语言模型与知识图谱的完美结合：从LLMs到RAG，探索知识图谱构建的全新篇章

最近，使用大型语言模型（LLMs）和知识图谱（KG）开发 RAG（Retrieval Augmented Generation）流程引起了很大的关注。在这篇文章中，我将使用 LlamaIndex 和 NebulaGraph 来构建一个关于费城费利斯队（Philadelphia Phillies）的 RAG 流程。我们用的是开源的 NebulaGraph 来…

LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字

上一节实现了 LangChain 实现给动物取名字， 实际上每次给不同的动物取名字，还得修改源代码，这周就用模块化template来实现。 1. 添加promptTemplate from langchain.llms import OpenAI # 导入Langchain库中的OpenAI模块 from langchain.p…

[深度学习]大模型训练之框架篇--DeepSpeed使用

现在的模型越来越大，动辄几B甚至几百B。但是显卡显存大小根本无法支撑训练推理。例如，一块RTX2090的10G显存，光把模型加载上去，就会OOM，更别提后面的训练优化。作为传统pytorch Dataparallel的一种替代，D…

LangChain 18 LangSmith监控评估Agent并创建对应的数据库

LangChain系列文章 LangChain 实现给动物取名字，LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain 4用向量数据库Faiss存储，读取YouTube的视频文本搜索I…

ChatGPT等大语言模型为什么没有智能

今天我们来闲聊聊chatGPT，然后带出一些目前神经网络或者更大一些人工智能存在的问题，仅作抛砖引玉。我不管OpenAI用什么方式炒作，Q*也好，AI自我意识也好，董事会内斗也罢；首先它的成绩还是非常出色的&#x…

基于Amazon Bedrock的企业级生成式AI平台

【LLM】大模型之RLHF和替代方法（DPO、RAILF、ReST等）

note SFT使用交叉熵损失函数，目标是调整参数使模型输出与标准答案一致，不能从整体把控output质量，RLHF（分为奖励模型训练、近端策略优化两个步骤）则是将output作为一个整体考虑，优化目标是使模型生成高质量…

WavJourney：进入音频故事情节生成世界的旅程

推荐：使用 NSDT场景编辑器快速搭建3D应用场景若要正确查看音频生成的强大功能，请考虑以下方案。我们只需要提供一个简单的指令，描述场景和场景设置，模型就会生成一个扣人心弦的音频脚本，突出与原始指令的最高上下文相…

Text-to-SQL小白入门（六）Awesome-Text2SQL项目介绍

项目介绍项目地址 GitHub地址：GitHub - eosphoros-ai/Awesome-Text2SQL: Curated tutorials and resources for Large Language Models, Text2SQL, and more. 项目首页欢迎大家围观参与、使用、贡献。项目理念这个项目主要收集了针对大型语言模型和Text2SQ…

Llama2-Chinese项目：2.3-预训练使用QA还是Text数据集？

Llama2-Chinese项目给出pretrain的data为QA数据格式，可能会有疑问pretrain不应该是Text数据格式吗？而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术，给出pretrain的data为Text数据格式。所以推测应该pretrain时QA和Text数据格式…

$LLM：Scaling Laws for Neural Language Models （中）$

LLM：Scaling Laws for Neural Language Models （中）

核心结论 1：LLM模型的性能主要与计算量C，模型参数量N和数据大小D三者相关，而与模型的具体结构 (层数/深度/宽度) 基本无关。三者满足: C ≈ 6ND 2. 为了提升模型性能，模型参数量N和数据大小D需要同步放大，但模型和数…

一分钟！图片生成32种动画；Adobe绘画工具大升级；复盘Kaggle首场LLM比赛；VR科普万字长文 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！ 🔥 Adobe Firefly 大升级！图像高清、操作便利，体验感拉满 https://firefly.adobe.com Adobe Firefly 升级了&…

如何基于LLMs使用LangChain构建强大的差异化应用--LangChain之初体验

近年来，语言模型(LMs)特别是LLMs已经成为最令人兴奋和最有影响力的技术之一。它们可以为各种目的生成自然语言文本，例如回答问题、撰写摘要、创建故事等等。然而，仅使用LMs还不足以构建真正强大且与众不同的应用程序。您还需要: 将LMs连接到其他数据源，如文档、数据库、网…

【自然语言处理】【大模型】CodeGen：一个用于多轮程序合成的代码大语言模型

CodeGen：一个用于多轮程序合成的代码大语言模型《Code Gen: An Open Large Language Model For Code with Multi-Turn Program Synthesis》论文地址：https://arxiv.org/pdf/2203.13474.pdf?trkpublic_post_comment-text 相关博客【自然语言处理】【大…

提示工程L1：关键原则

提示工程指南：关键原则一、环境配置 chatgpt使用有诸多限制，所以采用国产模型来代替，加载开源的chatGLM模型，使用ChatGLM-6b的INT8版本。 chatGLM6b在LLM匿名竞技场中的排名： import os import torch import war…

LLM之高性能向量检索库

LLM向量数据库高性能向量检索库milvus简介安装调用 faiss简介安装调用高性能向量检索库 milvus 简介 Milvus 是一个开源的向量数据库引擎，旨在提供高效的向量存储、检索和分析能力。它被设计用于处理大规模的高维向量数据，常用于机器学习、计算机视觉…

LLM 系列 | 05：ChatGPT Prompt的迭代优化

简介梅子留酸软齿牙，芭蕉分绿与窗纱。日长睡起无情思，闲看儿童捉柳花。小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖冰棍的小男孩。更多、更新文章欢迎关注微信公众号：小窗幽记机器学习。后续会持续…

ChatGPT实践-构建简单的AI聊天机器人(python)

初始发布：https://blog.pickmind.xyz/article/f9f4cd4b-1dbb-4849-b899-a1333555edf1 本文指导如何通过调用OpenAI的API完成一个简单的聊天机器人。背景知识 API介绍我们可以通过任何语言的 HTTP 请求、官方 Python 、 Node.js 库或社区维护的库与 ChatGPT的A…

FastChat

Fast Chat是一个用于训练/部署和评估基于大型语言模型的聊天机器人的开发平台。其核心功能包括： 最先进模型的权重/训练代码和评估代码(例如Vicuna/FastChat-T5)基于分布式多模型的服务系统，具有Web界面和与OpenAI兼容的RESTful API。安装 pip instal…

LegalAI领域大规模预训练语言模型的整理、总结及介绍（持续更新ing…）

诸神缄默不语-个人CSDN博文目录最近更新日期：2023.6.7 最早更新日期：2023.6.7 文章目录 1. 通用大规模预训练语言模型2. 对话模型3. 分句 1. 通用大规模预训练语言模型英语： LegalBERT 原始论文：(2020 EMNLP) LEGAL-BERT: Th…

GPTQ 和 AWQ：LLM 量化方法的比较

大语言模型（LLM）在自然语言处理（NLP）任务中取得了显著的进展。然而，LLM 通常具有非常大的模型大小和计算复杂度，这限制了它们在实际应用中的部署。量化是将浮点数权重转换为低精度整数的过程，…

ChatGPT新突破：打造自己的智能机器人控制系统

💖 作者简介：大家好，我是Zeeland，全栈领域优质创作者。📝 CSDN主页：Zeeland🔥📣 我的博客：Zeeland📚 Github主页: Undertone0809 (Zeeland) (github.com)&…

给开发者的ChatGPT提示词工程指南

ChatGPT Prompt Engineering for Development 基本大语言模型和指令精调大语言模型的区别： 指令精调大语言模型经过遵从指令的训练，即通过RLHF（基于人类反馈的强化学习）方式在指令上精调过，因而更加有帮助&#xff0…

【论文精读ACL_2021】Prefix-Tuning: Optimizing Continuous Prompts for Generation

【论文精读ACL_2021】Prefix-Tuning: Optimizing Continuous Prompts for Generation 0、前言Abstract1 Introduction2 Related Work2.1 Fine-tuning for natural language generation.2.2 Lightweight fine-tuning2.3 Prompting.2.4 Controllable generation. 3 Problem State…

快上车，LLM专列：想要的资源统统给你准备好了

如有转载，请注明出处。欢迎关注微信公众号：低调奋进。 (嘿嘿，有点标题党了。最近整理了LLM相关survey、开源数据、开源代码等等资源，后续会不断丰富内容，省略大家找资料浪费时间。闲言少叙，正式发车&a…

AI猫咪穿搭也太萌了！用AI写出好故事的22条诀窍；吴恩达AI新课预告；2024年十大战略技术趋势 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！ 🔥 可口可乐与好利来跨界联名，推出与AI共创的新品巧克力继「酱香拿铁」后又有一款跨界合作让人眼前一亮——可口可乐与好利来…

超全总结！大模型算法岗面试指南来了！

大家好，从 2019 年的谷歌 T5 到 OpenAI GPT 系列，参数量爆炸的大模型不断涌现。可以说，LLMs 的研究在学界和业界都得到了很大的推进，尤其2022年11月底对话大模型 ChatGPT 的出现更是引起了社会各界的广泛关注。近些年&#xff0…

坦克世界WOT知识图谱之知识图谱篇

文章目录关于Neo4j1. neo4j安装及配置：2. 确定三元组3. 代码实现结束语关于Neo4j Neo4j是一个高性能的，NOSQL图形数据库。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做…

GPT实战系列-LangChain + ChatGLM3构建天气查询助手

GPT实战系列-LangChain ChatGLM3构建天气查询助手用ChatGLM的工具可以实现很多查询接口和执行命令，而LangChain是很热的大模型应用框架。如何联合它们实现大模型查询助手功能？例如调用工具实现网络天气查询助手功能。 LLM大模型相关文章： …

AIGC 实战：如何使用 Ollama 开发自定义的大模型（LLM）

虽然 Ollama 提供了运行和交互式使用大型语言模型（LLM）的功能，但从头开始创建完全定制化的 LLM 需要 Ollama 之外的其他工具和专业知识。然而，Ollama 可以通过微调在定制过程中发挥作用。以下是细分说明： 预训练模型选…

PromptCast：基于提示学习的时序预测模型！

目前时序预测的SOTA模型大多基于Transformer架构，以数值序列为输入，如下图的上半部分所示，通过多重编码融合历史数据信息，预测未来一定窗口内的序列数值。受到大语言模型提示工程技术的启发，文章提出了一种时序预测新…

缓解大模型幻觉问题的解决方案

本文记录大模型幻觉问题的相关内容。参考：Mitigating LLM Hallucinations: a multifaceted approach 地址：https://amatriain.net/blog/hallucinations （图：解决大模型幻觉的不同方式） 什么是幻觉？ 幻觉…

GPT实战系列-ChatGLM3部署CUDA11+1080Ti+显卡24G实战方案

目录一、ChatGLM3 模型二、资源需求三、部署安装配置环境安装过程低成本配置部署方案四、启动 ChatGLM3 五、功能测试新鲜出炉，国产 GPT 版本迭代更新啦~清华团队刚刚发布ChatGLM3，恰逢云栖大会前百川也发布Baichuan2-192K，一…

GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案

目录一、ChatGLM3 模型二、资源需求三、部署安装配置环境安装过程低成本配置部署方案四、启动 ChatGLM3 五、功能测试新鲜出炉，国产 GPT 版本迭代更新啦~清华团队刚刚发布ChatGLM3，恰逢云栖大会前百川也发布Baichuan2-192K，一…

【llm 微调code-llama 训练自己的数据集一个小案例】

这也是一个通用的方案，使用peft微调LLM。准备自己的数据集根据情况改就行了，jsonl格式，三个字段：context, answer, question import pandas as pd import random import jsondata pd.read_csv(dataset.csv) train_data data…

#GPU|LLM|AIGC#集成显卡与独立显卡|显卡在深度学习中的选择与LLM GPU推荐

区别核心区别：显存，也被称作帧缓存。独立显卡拥有独立显存，而集成显卡通常是没有的，需要占用部分主内存来达到缓存的目的集成显卡： 是集成在主板上的，与主处理器共享系统内存。一般会在很多轻便薄型的…

【AI视野·今日NLP 自然语言处理论文速览第五十三期】Thu, 12 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Thu, 12 Oct 2023 Totally 69 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers To Build Our Future, We Must Know Our Past: Contextualizing Paradigm Shifts in Natural Language Proces…

【大语言模型】5分钟了解预训练、微调和上下文学习

5分钟了解预训练、微调和上下文学习什么是预训练？什么是微调？什么是上下文学习？相关资料近年来大语言模型在自然语言理解和生成方面、多模态学习等方面取得了显著进展。这些模型通过预训练、微调和上下文学习的组合来学习。本文将快速…

华策影视AIGC工程师招聘；百度大模型创业松；主流大语言模型的技术原理细节；AIGC Prompt的七个缺陷 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！ 🎯 华策影视AIGC工程师招聘，AIGC在「文娱领域」的真正落地逛即刻时发现关注的AI博主杨昌发布了自己公司的招聘信息&#x…

大模型基础之注意力机制和Transformer

【注意力机制】核心思想：在decoder的每一步，把encoder端所有的向量提供给decoder，这样decoder根据当前自身状态，来自动选择需要使用的向量和信息. 【注意力带来的可解释性】 decoder在每次生成时可以关注到encoder端所有位置的…

【AI视野·今日NLP 自然语言处理论文速览第三十六期】Tue, 19 Sep 2023

AI视野今日CS.NLP 自然语言处理论文速览 Tue, 19 Sep 2023 (showing first 100 of 106 entries) Totally 106 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Speaker attribution in German parliamentary debates with QLoRA-ada…

LLM Prompt Technique 论文精读-1

下面为笔者最近看的一些prompt technique领域的新兴论文以及对应的总结，分享给大家一起学习。持续更新中… Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 思维链提示引发大型语言模型的推理能力链接：https://arxiv.org/pd…

基于星火和Gradio的聊天机器人

星火大模型官网：https://xinghuo.xfyun.cn/ 1 创建虚拟环境（windows） conda create -n Gradio python3.8 pip install gradio 中间遇到os报错，解决方案： pip install aiofiles23.2.1 2 代码 SparkDesk.py&#xff1a…

LLM系列 | 20 : Llama2 实战(下篇)-中文语料微调(附完整代码)

简介紧接前文： 万字长文细说ChatGPT的前世今生Llama 2实战(上篇):本地部署(附代码) 上篇主要介绍Llama2的基本情况和基于官方模型实测Llama2在中英上的效果，包括单轮和多轮对话。今天这篇小作文作为Llama2的下篇，主要介绍如何用中文语料对…

LLM - Transformer LLaMA2 结构分析与 LoRA 详解

目录一.引言二.图说 LLM 1.Transformer 结构 ◆ Input、Output Embedding ◆ PositionEmbedding ◆ Multi-Head-Attention ◆ ADD & Norm ◆ Feed Forward ◆ Linear & Softmax 2.不同 LLM 结构 ◆ Encoder-Only ◆ Encoder-Decoder ◆ Decoder-Only …

文献阅读：AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators

文献阅读：AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators 1. 文章简介2. 方法介绍3. 实验考察 1. 实验结果2. 消解实验3. Consistency & Stability 4. 结论 & 思考文献链接：https://arxiv.org/abs/2303.16854 …

大语言模型控制生成的过程Trick：自定义LogitsProcessor实践

前言在大模型的生成过程中，部分原生的大语言模型未经过特殊的对齐训练，往往会“胡说八道”的生成一些敏感词语等用户不想生成的词语，最简单粗暴的方式就是在大模型生成的文本之后，添加敏感词库等规则手段进行敏感词过滤&#xf…

翻译: Streamlit从入门到精通七缓存Cache控制缓存大小和持续时间

Streamlit从入门到精通系列： 翻译: Streamlit从入门到精通基础控件一翻译: Streamlit从入门到精通显示图表Graphs 地图Map 主题Themes 二翻译: Streamlit从入门到精通构建一个机器学习应用程序三翻译: Streamlit从入门到精通部署一个机器学习应用程序四翻译…

【Langchain+Streamlit】打造一个旅游问答AI

利用LangchainStreamlit打造一个交互简单的旅游问答AI机器人，如果你有openai账号,可以按照如下的网址直接体验，如果你没有的话可以站内私信博主要一下临时key体验一下： 产品使用传送门—— http://101.33.225.241:8501/ 这里有演示效果和代码…

大语言模型LLM资源优化与部署：知识蒸馏与模型精简（LLM系列17）

文章目录大语言模型LLM资源优化与部署：知识蒸馏与模型精简（LLM系列17）引言知识蒸馏基本原理ChatGLM3-6B到小型模型的知识迁移策略**知识蒸馏实践：基于DistilBERT的学生模型训练**蒸馏后的小型模型性能评估** 大语言模型LLM资源优…

【AI视野·今日NLP 自然语言处理论文速览第六十二期】Wed, 25 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Wed, 25 Oct 2023 (showing first 100 of 112 entries) Totally 100 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers MuSR: Testing the Limits of Chain-of-thought with Multistep Soft R…

『大模型笔记』测试本地大模型运行框架Ollama(支持macOS/Windows/Linux)

测试本地大模型运行框架Ollama(支持macOS/Windows/Linux) 文章目录一. Ollama介绍1.1. 安装1.1.1. 直接安装1.1.2. Docker安装1.2. 下载和运行模型1.3. Ollama目前支持的模型(截止到2024-03-05，持续更新)1.4. Ollama ModelFile(模型文件)二. Open WebUI2.1. 主要特点2.2. Doc…

LLM | Gemma的初体验

一起来体验一下吧~ google/gemma-7b-it Hugging Face 此型号卡对应于 Gemma 型号的 7B 指令版本。还可以选择 2B 基本模型、7B 基本模型和 2B 指导模型的模型卡。微调使用 QLoRA 对 UltraChat 数据集执行监督微调 （SFT） 的脚本在 TPU 设备上使用 FS…

【LLM】基于LLM的agent应用（上）

note 在未来，Agent 还会具备更多的可扩展的空间。就 Observation 而言，Agent 可以从通过文本输入来观察来理解世界到听觉和视觉的集成；就 Action 而言，Agent 在具身智能的应用场景下，对各种器械进行驱动和操作。 Age…

LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄

接着前两节的Langchain，继续实现Langchain中的Agent LangChain 实现给动物取名字，LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字代码实现 # 从langchain库中导入模块 from langchain.llms import OpenAI # 从langchain.l…

用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

传统搜索系统基于关键字匹配，在面向：游戏攻略、技术图谱、知识库等业务场景时，缺少对用户问题理解和答案二次处理能力。本文探索使用大语言模型（Large Language Model, LLM），通过其对自然语言理解和生成的…

RAG 评估框架 -- RAGAS

原文引入 RAG（Retrieval Augmented Generation）的原因随着ChatGPT的推出，很多人都理所当然直接用LLM当作知识库回答问题。这种想法有两个明显的缺点： LLM无法得知在训练之后所发生的事情，因此无法回答相关的问题存…

文献阅读：Large Language Models as Optimizers

文献阅读：Large Language Models as Optimizers 1. 文章简介2. 方法介绍 1. OPRO框架说明2. Demo验证 1. 线性回归问题2. 旅行推销员问题（TSP问题） 3. Prompt Optimizer 3. 实验考察 & 结论 1. 实验设置2. 基础实验结果 1. GSM8K2. BBH3.…

LLM资料：中文embedding库

Highlight（重点提示） 理解LLM，就要理解Transformer，但其实最基础的还是要从词的embedding讲起。毕竟计算机能处理的只有数字，所以万事开头的第一步就是将要处理的任务转换为数字。面向中文的开源embedding库在自然…

利用Lora调整和部署 LLM

使用 NVIDIA TensorRT-LLM 调整和部署 LoRA LLM 大型语言模型 (LLM) 能够从大量文本中学习并为各种任务和领域生成流畅且连贯的文本，从而彻底改变了自然语言处理 (NLP)。然而，定制LLM是一项具有挑战性的任务，通常需要完整的培训过程&#xf…

SpringAI如何集成Ollama开发AI应用

文章目录 spring AI 介绍1. Spring ML2. Spring Data3. Spring Integration4. Spring Boot5. Spring Cloud如何开始使用 Spring AI注意事项 Spring AI集成Ollama1. 添加依赖2. 配置应用3. 注入和使用 AiClient4. 运行和测试注意事项 spring AI 介绍 Spring AI 是一个基于 Spri…

LLM端侧部署系列 | 如何将阿里千问大模型Qwen部署到手机上？实战演示(下篇)

引言简介编译Android可用的模型转换权重生成配置文件模型编译编译apk 修改配置文件绑定android library 配置gradle 编译apk 手机上运行安装 APK 植入模型效果实测 0. 引言清明时节雨纷纷，路上行人欲断魂。小伙伴们好，我是《小…

『大模型笔记』LLMs入门：从头理解与编码LLM的自注意力机制

LLMs入门：从头理解与编码LLM的自注意力机制这里直接引用我语雀上的的文章：《从头理解与编码LLM的自注意力机制》

谷歌开源的LLM大模型 Gemma 简介

相关链接： Hugging face模型下载地址：https://huggingface.co/google/gemma-7bGithub地址：https://github.com/google/gemma_pytorch论文地址：https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf官方博客&…

langchain主要模块(五)：Agent以及Wandb

langchain2之Agent以及Wandb langchain1.概念2.主要模块模型输入/输出 (Model I/O)数据连接 (Data connection)链式组装 (Chains)代理 (Agents)内存 (Memory)回调 (Callbacks) 3.AgentAction Agent：Plan-and-Execute-Agent：搜索工具 4.wandb1.注册2.安装…

大语言模型的三种主要架构 Decoder-Only、Encoder-Only、Encoder-Decoder

现代大型语言模型（LLM）的演变进化树，如下图： https://arxiv.org/pdf/2304.13712.pdf 基于 Transformer 模型以非灰色显示： decoder-only 模型在蓝色分支， encoder-only 模型在粉色分支， encod…

生成代理:人类行为的交互模拟（Generative Agents: Interactive Simulacra of Human Behavior）

Generative Agents: Interactive Simulacra of Human Behavior 简介论文是斯坦福大学和deepmind团队联合发表，主要介绍了一种利用LLM模型指导生成Agents代理的方法，让代理具有记忆、反思和规划的能力。结合LLM模型创造了一个系统架构，架构…

大模型：如何利用旧的tokenizer训练出一个新的来？

背景： 我们在用chatGPT或者SD的时候，发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多，为什么呢？这其中就有一个叫做tokenizer的东西在作怪。训练一个合适的tokenizer是训练大模型的基础，我们既…

【AI视野·今日NLP 自然语言处理论文速览第八十一期】Mon, 4 Mar 2024

AI视野今日CS.NLP 自然语言处理论文速览 Mon, 4 Mar 2024 Totally 48 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Mitigating Reversal Curse via Semantic-aware Permutation Training Authors Qingyan Guo, Rui Wang, Junlia…

混合输入矩阵乘法的性能优化

作者 | Manish Gupta OneFlow编译翻译｜宛子琳、杨婷 AI驱动的技术正逐渐融入人们日常生活的各个角落，有望提高人们获取知识的能力，并提升整体生产效率。语言大模型（LLM）正是这些应用的核心。LLM对内存的需求很高&…

ChatGPT是如何产生心智的？

一、前言 - ChatGPT真的产生心智了吗？ 来自斯坦福大学的最新研究结论，一经发出就造成了学术圈的轰动，“原本认为是人类独有的心智理论（Theory of Mind，ToM），已经出现在ChatGPT背后的AI模型上”…

Kaggle - LLM Science Exam(二）：Open Book QAdebertav3-large详解

文章目录前言：优秀notebook介绍三、Open Book Q&A3.1 概述3.2 安装依赖，导入数据3.3 数据预处理3.3.1 处理prompt3.3.2 处理wiki数据 3.4 使用faiss搜索获取匹配的Prompt-Sentence Pairs3.5 查看context结果并保存3.6 推理3.6.1 加载测试集3.6.2 定…

Text-to-SQL小白入门（十）RLHF在Text2SQL领域的探索实践

本文内容主要基于以下开源项目探索实践， Awesome-Text2SQL:GitHub - eosphoros-ai/Awesome-Text2SQL: Curated tutorials and resources for Large Language Models, Text2SQL, Text2DSL、Text2API、Text2Vis and more.DB-GPT-Hub：GitHub - eosphoros-ai…

GPTs - 定制版的ChatGPT

GPTs指的是定制版的ChatGPT (Custom versions of ChatGPT)，它试图解决为不同用途定制ChatGPT的需求。为了实现这一点， GPTs 提供了指令 (Instructions)，知识 (Knowledge)，能力 (Capabilities)，动作 (Actions) 等功能&…

【论文阅读】《Graph Neural Prompting with Large Language Models》

文章目录 0、基本信息1、研究动机2、创新点3、准备3.1、知识图谱3.2、多项选择问答3.3、提示词工程（prompt engineering） 4、具体实现4.1、提示LLMs用于问答4.2、子图检索4.3、Graph Neural Prompting4.3.1、GNN Encoder4.3.2、Cross-modality Pooling4.…

『NLP学习笔记』图解 GPT-2(可视化 Transformer 语言模型)

图解 GPT-2(可视化 Transformer 语言模型) 文章目录一. GPT-2和语言模型1.1. 什么是语言模型1.2 Transformer的语言模型1.3 和BERT的不同1.4 Transformer 组件的演变1.4.1 encoder组件1.4.2 decoder组件1.4.3 只有decoder组件的decoder模块1.5 GPT-2内部结构1.6 GPT-2内部结构…

『大模型笔记』Sora：探索大型视觉模型的前世今生、技术内核及未来趋势

Sora：探索大型视觉模型的前世今生、技术内核及未来趋势文章目录一. 摘要二. 引言杨立昆推荐的关于世界模型的真正含义（或应该是什么）的好文章。原文：Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models译文：Sora探索大型…

【自然语言处理】BitNet b1.58：1bit LLM时代

论文地址：https://arxiv.org/pdf/2402.17764.pdf 相关博客【自然语言处理】BitNet b1.58：1bit LLM时代【自然语言处理】【长文本处理】RMT：能处理长度超过一百万token的Transformer 【自然语言处理】【大模型】MPT模型结构源码解析(单机版)…

『大模型笔记』最大化大语言模型(LLM)的性能(来自OpenAI DevDay 会议)

最大化大语言模型(LLM)的性能(来自OpenAI DevDay 会议) 文章目录一. 内容介绍1.1. 优化的两个方向（上下文优化和LLM优化）1.2. 提示工程：从哪里开始1.3. 检索增强生成：拓展知识边界1.4. 微调：专属定制二. 参考文献一. 内容介绍简述如何以可扩展的方式把大语言模型（LLMs）…

GPT实战系列-搭建LangChain流程简单应用

GPT实战系列-搭建LangChain流程简单应用 LLM大模型： GPT实战系列-探究GPT等大模型的文本生成 GPT实战系列-Baichuan2等大模型的计算精度与量化 GPT实战系列-GPT训练的Pretraining，SFT，Reward Modeling，RLHF GPT实战系列-Chat…

LLM春招准备（1）

llm排序 GPT4V GPT-4V可以很好地理解直接绘制在图像上的视觉指示。它可以直接识别叠加在图像上的不同类型的视觉标记作为指针，例如圆形、方框和手绘（见下图）。虽然GPT-4V能够直接理解坐标，但相比于仅文本坐标，GPT-4V在…

Kosmos-2: 在多模态大语言模型中引入基准和指代能力

Kosmos-2: 在多模态大语言模型中引入基准和指代能力 FesianXu 20240304 at Baidu Search Team 前言之前笔者在博文中介绍过kosmos-1模型 [1]，该模型脱胎于MetaLM采用『因果语言模型作为通用任务接口』的思想，采用了多种形式的多模态数据进行训练得到。…

【ReadPapers】A Survey of Large Language Models

LLM-Survey的llm能力和评估部分内容学习笔记——思维导图思维导图参考资料 A Survey of Large Language Models论文的github仓库

LLM--如何使用SentenceTransformer将文本向量化

将文本向量化是自然语言处理（NLP）中的一项关键步骤，其主要目的是将原本难以直接被计算机理解的自然语言文本转换成数值形式的向量，以便于后续的机器学习算法和深度学习模型进行处理、分析和建模 1. 如何安装SentenceTransformer 安装参考： https://pypi.org/project/sen…

LLM--提示词Propmt的概念、作用及如何设计提示词

文章目录 1. 什么是提示词？2. 提示词的作用3. 如何设计提示词？3.1. 提供详细的信息3.2. 指定角色3.3. 使用分隔符和特殊符号3.4. 提供示例3.5. 少量示例的思维链（COT）模型3.6. 思维树（TOT）模型3.7. 自洽性 …

【AI视野·今日NLP 自然语言处理论文速览第八十三期】Wed, 6 Mar 2024

AI视野今日CS.NLP 自然语言处理论文速览 Wed, 6 Mar 2024 Totally 74 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets Authors Hossein Aboutalebi, …

【书生·浦语大模型实战营】学习笔记（一）：全链路开源体系介绍

🎉AI学习星球推荐： GoAI的学习社区知识星球是一个致力于提供《机器学习 | 深度学习 | CV | NLP | 大模型 | 多模态 | AIGC 》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、…

LLM 推理优化探微 (2) ：Transformer 模型 KV 缓存技术详解

编者按：随着 LLM 赋能越来越多需要实时决策和响应的应用场景，以及用户体验不佳、成本过高、资源受限等问题的出现，大模型高效推理已成为一个重要的研究课题。为此，Baihai IDP 推出 Pierre Lienhart 的系列文章，从多个维…

LLM大语言模型（八）：ChatGLM3-6B使用的tokenizer模型BAAI/bge-large-zh-v1.5

背景 BGE embedding系列模型是由智源研究院研发的中文版文本表示模型。可将任意文本映射为低维稠密向量，以用于检索、分类、聚类或语义匹配等任务，并可支持为大模型调用外部知识。 BAAI/BGE embedding系列模型模型列表 ModelLanguageDescriptionq…

Kosmos-1: 通用接口架构下的多模态大语言模型

Kosmos-1: 通用接口架构下的多模态大语言模型 FesianXu 20230513 at Baidu Search Team 前言在大规模语言模型（Large Language Model, LLM）看似要带来新一番人工智能变革浪潮之际，越来越多尝试以LLM作为通用接口去融入各种任务的工作&#…

LLM - 使用 Langchain 实现本地 Naive RAG

目录一.引言二.构建本地 Langchain 库 1.Doc 知识文档 2.Split 文档切分 3.Encode 内容编码 4.Similar 本地库构建三.缓存本地 Langchain 库四.读取本地 Langchain 库 1.Load 读取缓存 2.Similar 预测 3.Add 添加文档五.总结一.引言上一篇博客介绍了当下 R…

Prompt进阶系列1:LangGPT(从编程语言反思LLM的结构化可复用提示设计框架)

Prompt进阶系列1:LangGPT(从编程语言反思LLM的结构化可复用提示设计框架) 大语言模型 (Large Language Models, LLMs) 在不同领域都表现出了优异的性能。然而，对于非AI专家来说，制定高质量的提示来引导 LLMs 是目前AI应用领域的一项重要挑战。现有的提示…

GPT实战系列-LangChain如何构建基通义千问的多工具链

GPT实战系列-LangChain如何构建基通义千问的多工具链 LLM大模型： GPT实战系列-探究GPT等大模型的文本生成 GPT实战系列-Baichuan2等大模型的计算精度与量化 GPT实战系列-GPT训练的Pretraining，SFT，Reward Modeling，RLHF GPT实…

Prompt进阶2:LangGPT(构建高性能Prompt策略和技巧)--最佳实践指南

Prompt进阶2:LangGPT(构建高性能Prompt策略和技巧)–最佳实践指南 0.前言左图右图 prompt 基本是一样的，差别只在提示工程这个词是否用中英文表达。我们看到，一词之差，回答质量天壤之别。为了获得理想的模型结果，我们需要调整设…

大语言模型智能体简介

大语言模型（LLM）智能体，是一种利用大语言模型进行复杂任务执行的应用。这种智能体通过结合大语言模型与关键模块，如规划和记忆，来执行任务。构建这类智能体时，LLM充当着控制中心或“大脑”的角色&#xff0…

Ollama 在本地快速启动并执行LLM【大语言模型】

文章目录 1. 什么是Ollama?1.1. SDK库1.2. 提供的api服务1.3. [支持的LLM](https://ollama.com/library)2. 如何安装2.1.下载docker镜像2.2. 启动docker容器3. 如何使用？3.1. 如何加载模型3.2. 使用 Ollama CLI 进行推理3.3. 使用 Ollama API 进行推理参考1. 什么是Ollama?

机器学习——终身学习

终身学习 AI不断学习新的任务，最终进化成天网控制人类终身学习（LLL），持续学习，永不停止的学习，增量学习用线上收集的资料不断的训练模型问题就是对之前的任务进行遗忘，在之前的任务上表现不好…

【OpenBayes 官方教程】快速部署通义千问 72B 大模型

本教程主要为大家介绍怎样在 OpenBayes 上快速部署通义千文 72B 大模型，新朋友点击下方链接注册后，即可获得 4 小时 RTX 4090 5 小时 CPU 的免费使用时长哦！ 注册链接 https://openbayes.com/console/signup?ryuudi_nBBThttps://openbaye…

【Langchain-Chatchat】部署ChatGLM3-6B-32K教程

介绍 Langchain-Chatchat这个框架可以帮助我们更容易的部署大语言模型，之前也写过ChatGLM传统的部署教程，有兴趣的可以参考【ChatGLM3】第三代大语言模型多GPU部署指南【ChatGLM2-6B】从0到1部署GPU版本借助Langchain-Chatchat框架，可以…

NVIDIA最新 Blackwell架构简介

NVIDIA Blackwell架构简介在AI和大型语言模型（LLMs）迅速发展的领域中，追求实时性能和可扩展性至关重要。从医疗保健到汽车行业，组织正深入探索生成性AI和加速计算解决方案的领域。对生成性AI解决方案的需求激增，促使企…

Multimodal Chain-of-Thought Reasoning in Language Models阅读笔记

论文（2023年）链接：https://arxiv.org/pdf/2302.00923.pdf GitHub项目链接：GitHub - amazon-science/mm-cot: Official implementation for "Multimodal Chain-of-Thought Reasoning in Language Models" (stay tuned a…

基于RAG的大模型知识库搭建

什么是RAG RAG(Retrieval Augmented Generation)，即检索增强生成技术。 RAG优势部分解决了幻觉问题。由于我们可以控制检索内容的可靠性，也算是部分解决了幻觉问题。可以更实时。同理，可以控制输入给大模型上下文内容的时效性&#xff0c…

Llama模型下载

最近llama模型下载的方式又又变了，所以今天简单更新一篇文章，关于下载的，首先上官网，不管在哪里下载你都要去官网登记一下信息：https://llama.meta.com/llama2 然后会出现下面的信息登记网页： 我这里因为待…

2024 年学习 AI 路线图

2024 年学习 AI 路线图一、数学二、工具2.1 Python2.2 PyTorch 三、机器学习3.1 从头开始编写3.2 参加比赛3.3 做副业项目3.4 部署模型3.5 补充材料四、深度学习4.1 fast.ai4.2 多参加一些比赛4.3 论文实现4.4 计算机视觉4.5 强化学习4.6 自然语言处理五、大型语言模型5.1 观…

不使用 Docker 构建 Triton 服务器并在 Google Colab 平台上部署 HuggingFace 模型

Build Triton server without docker and deploy HuggingFace models on Google Colab platform EnvironmentBuilding Triton serverDeploying HuggingFace models客户端推荐阅读参考 Environment 根据Triton 环境对应表 ，Colab 环境缺少 tensorrt-8.6.1&#xff0…

【LLM】Advanced rag techniques: an illustrated overview

note 文章目录 noteAdvanced rag techniques: an illustrated overview基础RAG高级RAG分块和向量化(Chunking & Vectorisation)搜索索引(Search Index)1. 向量存储索引（Vector Store Index）2. 多层索引(Hierarchical Indices)3. 假设问题和HyDE(Hypo…

LLM PreTraining from scratch -- 大模型从头开始预训练指北

最近做了一些大模型训练相关的训练相关的技术储备，在内部平台上完成了多机多卡的llm 预训练的尝试，具体的过程大致如下：数据准备：大语言模型的训练依赖于与之匹配的语料数据，在开源社区有一群人在自发的整理高质量的语料数据，可以通过以下的一些链接获取 liwu/MNBVC…

大语言模型系列-提示工程

文章目录前言一、Prompt Learning二、上下文学习（In-Context Learning）三、指示学习（Instruction Learning）四、思维链（Chain-of-Thought）总结前言前文提到自BERT以来，LLM的训练范式变为预训…

[LLM]大语言模型文本生成—解码策略(Top-k Top-p Temperature)

{"top_k": 5,"temperature": 0.8,"num_beams": 1,"top_p": 0.75,"repetition_penalty": 1.5,"max_tokens": 30000,"message": [{"content": "你好","role": "user&…

LLM流式方案解决方案和客户端解决方案

背景接上一篇《LLM大模型统一封装接口解决方案》架构确定后，流式方案非常规请求，需要特殊处理。本解决方案就是针对上一篇中所需要的流式（打字机效果进行编码） 什么是SSE SSE（Server-Sent Events，服务器发…

GPT实战系列-智谱GLM-4的模型调用

GPT实战系列-智谱GLM-4的模型调用 GPT专栏文章： GPT实战系列-实战Qwen通义千问在Cuda 1224G部署方案_通义千问 ptuning-CSDN博客 GPT实战系列-ChatGLM3本地部署CUDA111080Ti显卡24G实战方案 GPT实战系列-Baichuan2本地化部署实战方案 GPT实战系列-让CodeGeeX2帮…

dialogbot：开箱即用的对话机器人解决方案，涵盖问答型对话、任务型对话和聊天型对话等多种场景，为您提供全方位的对话交互体验。

dialogbot：开箱即用的对话机器人解决方案，涵盖问答型对话、任务型对话和聊天型对话等多种场景，支持网络检索问答、领域知识问答、任务引导问答和闲聊问答，为您提供全方位的对话交互体验。人机对话系统一直是AI的重要方向&#xf…

【Megatron-DeepSpeed】张量并行工具代码mpu详解(四)：张量并行版Embedding层及交叉熵的实现及测试

相关博客【Megatron-DeepSpeed】张量并行工具代码mpu详解(四)：张量并行版Embedding层及交叉熵的实现及测试【Megatron-DeepSpeed】张量并行工具代码mpu详解(三)：张量并行层的实现及测试【Megatron-DeepSpeed】张量并行工具代码mpu详解(一)&#xff1a…

大模型的幻觉 (Hallucination) 因何而来？如何解决幻觉问题？

编者按：目前大模型仍然存在一个非常致命的缺陷——大模型的“幻觉”（Hallucination）问题。为什么 LLM 会出现幻觉？如何缓解这种情况？使用的数据集对此现象的影响几何？今天为大家带来的这篇文章将一一解答。…

星星之火：国产讯飞星火大模型的实际使用体验（与GPT对比）

#AIGC技术内容创作征文｜全网寻找AI创作者，快来释放你的创作潜能吧！# 文章目录 1 前言2 测试详情2.1 文案写作2.2 知识写作2.3 阅读理解2.4 语意测试（重点关注）2.5 常识性测试（重点关注）2.6 代码…

【AI视野·今日NLP 自然语言处理论文速览第五十八期】Thu, 19 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Thu, 19 Oct 2023 Totally 74 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Understanding Retrieval Augmentation for Long-Form Question Answering Authors Hung Ting Chen, Fangyuan…

用Bing绘制「V我50」漫画；GPT-5业内交流笔记；LLM大佬的跳槽建议；Stable Diffusion生态全盘点第一课 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！ 🔥 美国升级AI芯片出口禁令，13家中国GPU企业被列入实体清单 nytimes.com/2023/10/05/technology/chip-makers-china-lobbying…

AI和软件测试结合-使用LLM将自然语言生成TestCase

曾在工作之余，设想过一个能提升测试流程左侧效率的点子，结合人工智能，将自然语言自动转化为通用的功能用例、接口用例、代码单元测试用例等一系列用例，碰上这2年LLM模型大爆发，遂有自己炼一个用例生成的专用模型的想法…

Re44：数据集 GSM8K 和论文 Training Verifiers to Solve Math Word Problems

诸神缄默不语-个人CSDN博文目录论文全名：Training Verifiers to Solve Math Word Problems GSM8K数据集原始论文 OpenAI 2021年的工作，关注解决MWP问题（具体场景是小学（grade school）数学题）&#xff0c…

【AI视野·今日NLP 自然语言处理论文速览第四十七期】Wed, 4 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Wed, 4 Oct 2023 Totally 73 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Contrastive Post-training Large Language Models on Data Curriculum Authors Canwen Xu, Corby Rosset, Luc…

Llama2-Chinese项目：8-TRL资料整理

TRL（Transformer Reinforcement Learning）是一个使用强化学习来训练Transformer语言模型和Stable Diffusion模型的Python类库工具集，听上去很抽象，但如果说主要是做SFT（Supervised Fine-tuning）、RM&#x…

文献阅读：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

文献阅读：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 1. 文章简介2. 具体方法3. 实验结果 1. 数学推理 1. 实验设计2. 实验结果3. 消解实验4. 鲁棒性考察 2. 常识推理 1. 实验设计2. 实验结果 3. 符号推理 1. 实验设计2. 实验结果 4.…

【AI视野·今日NLP 自然语言处理论文速览第五十七期】Wed, 18 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Wed, 18 Oct 2023 Totally 82 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers VeRA: Vector-based Random Matrix Adaptation Authors Dawid Jan Kopiczko, Tijmen Blankevoort, Yuki Marku…

序列模型（3）—— LLM的参数量和计算量

本文说明以下重要结论设模型参数量为 N N N，训练数据量（Token）为 D D D，LLM训练中计算量（FLOPs） C ≈ 6 N D C\approx 6ND C≈6ND 参考： 模型训练计算量到底怎么算分析transformer模型的参数…

XAgent调研

文章目录 1 简介2 快速测试 Quick Start3 结构分析 1 简介 XAgent（链接）是一个开源的，基于大语言模型的agent构建框架；其目标是构建出能够辅助人类处理各类任务的自动助手定位：一个全能的，自动的辅助agen…

GPT实战系列-简单聊聊LangChain

GPT实战系列-简单聊聊LangChain LLM大模型相关文章： GPT实战系列-ChatGLM3本地部署CUDA111080Ti显卡24G实战方案 GPT实战系列-Baichuan2本地化部署实战方案 GPT实战系列-大话LLM大模型训练 GPT实战系列-探究GPT等大模型的文本生成 GPT实战系列-Baichuan2等大模…

【LMM 009】MiniGPT-4：使用 Vicuna 增强视觉语言理解能力的多模态大模型

论文描述：MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models 论文作者：Deyao Zhu∗ Jun Chen∗ Xiaoqian Shen Xiang Li Mohamed Elhoseiny 作者单位：King Abdullah University of Science and Techn…

LLM时代中的分布式AI

深度学习相较传统机器学习模型，对算力有更高的要求。尤其是随着深度学习的飞速发展，模型体量也不断增长。于是，前几年，我们看到了芯片行业的百家争鸣和性能指标的快速提升。正当大家觉得算力问题已经得到较大程度的缓解时&#xf…

OpenAI开发者大会之后，当何去何从？

简介过往总结产品升级 GPT-4 Turbo Agent化此间的未来定制GPT GPT商店 Assistants API 总结与思考简介此次发布会简单总结如下。 1. 发布GPT-4 Turbo： 更长。支持128K上下文输入，标准GPT-4是8K版本，之前升级出了32K版本更…

Llama2通过llama.cpp模型量化 WindowsLinux本地部署

Llama2通过llama.cpp模型量化 Windows&Linux本地部署什么是LLaMA 1 and 2 LLaMA，它是一组基础语言模型，参数范围从7B到65B。在数万亿的tokens上训练的模型，并表明可以专门使用公开可用的数据集来训练最先进的模型，而无需求…

【AI视野·今日NLP 自然语言处理论文速览第六十五期】Mon, 30 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Mon, 30 Oct 2023 Totally 67 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers An Approach to Automatically generating Riddles aiding Concept Attainment Authors Niharika Sri Parasa,…

【AI视野·今日NLP 自然语言处理论文速览第五十二期】Wed, 11 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Wed, 11 Oct 2023 Totally 81 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression Author…

LangChain 实现给动物取名字

mkdir langchain-llm-appcd langchain-llm-app # 用vscode 打开当前目录 code .在macOS上通过终端打开Visual Studio Code（VS Code），您可以按照以下步骤操作： 安装VS Code：首先，确保您已经在Mac上安装了Vis…

(六)、基于 LangChain 实现大模型应用程序开发 | 基于知识库的个性化问答 (文档分割 Splitting)

在上一章中，我们刚刚讨论了如何将文档加载到标准格式中，现在我们要谈论如何将它们分割成较小的块。这听起来可能很简单，但其中有很多微妙之处会对后续工作产生重要影响。文章目录 1、为什么要做文档分割？2、文档分割方式3、基于…

滴滴组建大模型团队；生成式AI没有第二幕；给编程新手的4个锦囊；AI高手成长路线图(2023)；Stanford CS224S 课程 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！ 👀 滴滴组建大模型团队，将落地部分个人出行和企业差旅场景 https://www.36kr.com/p/2519217183041289 11月15日，3…

2023年11月中旬大模型新动向集锦

LangChain 9 模型Model I/O 聊天提示词ChatPromptTemplate, 少量样本提示词FewShotPrompt

LangChain系列文章 LangChain 实现给动物取名字，LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain 4用向量数据库Faiss存储，读取YouTube的视频文本搜索I…

GPT实战系列-GPT训练的Pretraining，SFT，Reward Modeling，RLHF

GPT实战系列-GPT训练的Pretraining，SFT，Reward Modeling，RLHF 文章目录 GPT实战系列-GPT训练的Pretraining，SFT，Reward Modeling，RLHFPretraining 预训练阶段Supervised FineTuning （SFT&#x…

GPT实战系列-大模型训练和预测，如何加速、降低显存

GPT实战系列-大模型训练和预测，如何加速、降低显存不做特别处理，深度学习默认参数精度为浮点32位精度（FP32）。大模型参数庞大，10-1000B级别，如果不注意优化，既耗费大量的显卡资源，…

WebUI工作流插件超越ComfyUI

在AI绘画领域，Stable Diffsion是最受欢迎的，因为它是开源软件。开源有两大优势，一是免费，二是适合折腾。大量的开发者、爱好者投入无尽的热情，来推动Stable Diffsion的快速发展。在图形界面方面，WebU…

人工智能的新篇章：深入了解大型语言模型(LLM)的应用与前景

项目设计集合（人工智能方向）：助力新人快速实战掌握技能、自主完成项目设计升级，提升自身的硬实力（不仅限NLP、知识图谱、计算机视觉等领域）：汇总有意义的项目设计集合，助力新人快速实…

【论文精读】REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS 前言ABSTRACT1 INTRODUCTION2 REACT: SYNERGIZING REASONING ACTING3 KNOWLEDGE-INTENSIVE REASONING TASKS3.1 SETUP3.2 METHODS3.3 RESULTS AND OBSERVATIONS 4 DECISION MAKING TASKS5 RELATED WORK6 CONCLUSI…

翻译: 生成式人工智能的经济潜力第3部分工作和生产力的影响 The economic potential of generative AI

麦肯锡报告翻译: 生成式人工智能的经济潜力第一部分商业价值 The economic potential of generative AI翻译: 生成式人工智能的经济潜力第2部分行业影响 The economic potential of generative AI 1. 工作和生产力的影响技术几十年来一直在改变工作的解剖学。多年来&…

AutoGen多代理对话项目示例和工作流程分析

在这篇文章中，我将介绍AutoGen的多个代理的运行。这些代理将能够相互对话，协作评估股票价格，并使用AmCharts生成图表。我们创建对话的目的是要求代理分析特定公司的股票价格，并制作股票价格图表。为了实现这一目标，…

LLM大语言模型（二）：Streamlit 无需前端经验也能画web页面

目录问题 Streamlit是什么？ 怎样用Streamlit画一个LLM的web页面呢？ 文本输出页面布局滑动条按钮对话框输入框总结问题假如你是一位后端开发，没有任何的web开发经验，那如何去实现一个LLM的对话交互页面呢&…

【大模型应用开发教程】01_大模型简介

C1 大模型简介一. 什么是LLM（大语言模型）？1. 发展历程2. 大语言模型的概念LLM的应用和影响二、大模型的能力和特点1. 大模型的能力1.1 涌现能力（emergent abilities）1.2 作为基座模型支持多元应用的能力1.3 支持对话…

【LLM微调范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation

论文标题：Prefix-Tuning: Optimizing Continuous Prompts for Generation 论文作者：Xiang Lisa Li, Percy Liang 论文原文：https://arxiv.org/abs/2101.00190 论文出处：ACL 2021 论文被引：1588（2023/10/14&…

Kaggle - LLM Science Exam（三）：Wikipedia RAG

文章目录一、赛事概述1.1 OpenBookQA Dataset1.2 比赛背景1.3 评估方法和代码要求1.4 比赛数据集1.5 优秀notebook 二、 [EDA, Data gathering] LLM-SE ~ Wiki STEM | 1k DS2.1 Data overview2.2 Data gathering 三、如何高效收集数据3.1 概述3.2 与训练数据关联的维基百科类别…

LangChain 开发LLM的框架

目录 1、简介 2、LangChain 的主要价值 3、模块 4、安装 4.1 python 版本安装 4.2 TypeScript 版本安装 npm 安装 yarn 安装 pnpm 安装加载库 5、环境设置 6、构建一个应用程序 7、LLMs 8、提示模板 9、输出解析器 10、LLMs 提示模板输出解析器 1、简介 La…

如何使用 Disco 将黑白照片彩色化

Disco 是一个基于视觉语言模型（LLM）的图像彩色化工具。它使用 LLM 来生成彩色图像，这些图像与原始黑白图像相似。本文将介绍如何使用 Disco 将黑白照片彩色化。使用 Disco 提供了一个简单的在线演示，可以用于测试模型。访问…

【safetensor】介绍和基础代码

Hugging Face, EleutherAI, StabilityAI 用的多介绍文件形式 header，体现其特性。如果强行将pickle或者空软连接打开，会出现报错。解决详见：debug 连接到其他教程结构和参数安装 with pip:Copied pip install safetensors with con…

首篇大模型压缩论文综述

首篇大模型压缩综述来啦！！！ 来自中国科学院和人民大学的研究者们深入探讨了基于LLM的模型压缩研究进展并发表了该领域的首篇综述《A Survey on Model Compression for Large Language Models》。 Abstract 大型语言模型（LLMs&a…

文献阅读：The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”

文献阅读：The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A” 1. 文章简介2. 实验 & 结果考察 1. finetune实验2. 真实知识问答 3. 结论 & 思考文献链接：https://arxiv.org/abs/2309.12288 1. 文章简介这篇文章是前…

【AI视野·今日NLP 自然语言处理论文速览第六十期】Mon, 23 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Mon, 23 Oct 2023 (showing first 100 of 108 entries) Totally 100 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Exploring Linguistic Probes for Morphological Generalization Autho…

LLM系列 | 26：阿里千问Qwen模型解读、本地部署

引言简介预训练数据来源预处理分词模型设计外推能力模型训练实验结果部署实测对齐监督微调(SFT) RM 模型强化学习对齐结果(自动和人工评估) 自动评估人工评估部署实测总结引言人生自是有情痴，此恨不关风与月。今天这篇小…

LLM - FastAPI 搭建简易问答 Server

目录一.引言二.辅助函数 1.黑名单 2.清除函数三.模型函数 1.加载模型 2.生成配置四.服务部署 1.post - predict 2.get - clean_cache 3.main - run_app 五.总结一.引言 SFT workflow 微调工作流程一文中我们介绍了模型微调从数据到最终应用的流程 FastAPI …

【AI视野·今日NLP 自然语言处理论文速览第七十期】Thu, 4 Jan 2024

AI视野今日CS.NLP 自然语言处理论文速览 Thu, 4 Jan 2024 Totally 29 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Multilingual Instruction Tuning With Just a Pinch of Multilinguality Authors Uri Shaham, Jonathan Herzi…

GPT实战系列-ChatGLM3管理工具的API接口

GPT实战系列-ChatGLM3管理外部借力工具用ChatGLM的工具可以实现很多查询接口和执行命令，外部工具该如何配置使用？如何联合它们实现大模型查询助手功能？例如调用工具实现股票信息查询，网络天气查询等助手功能。 LLM大模型相关文章…

大模型学习之书生·浦语大模型3——基于InternLM和LangChain搭建知识库

基于InternLM和LangChain搭建知识库 1 大模型开发范式 LLM的局限性知识受限：最新知识无法实时获取专业能力有限：有广度无深度定制化成本高：训练成本高 RAG VS Finetune RAG： 无需重新训练组织外挂加入知识容易受基座模型的影响…

大模型学习之书生·浦语大模型4——基于Xtuner大模型微调实战

基于Xtuner大模型微调实战 Fintune简介海量数据训练的base model指令微调Instructed LLM 增量预训练微调增量数据不需要问题，只需要答案，只需要陈述类的数据指令跟随微调指定角色指定问题给对应的user指定答案给assistant LIaMa2InternLM 不同的模…

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型，到底做了什么？(一)

GPT实战系列-如何使用P-Tuning本地化训练ChatGLM2等LLM模型？ 文章目录 GPT实战系列-如何使用P-Tuning本地化训练ChatGLM2等LLM模型？P-Tuning微调训练概述1、预训练模型或者是torch模型2、训练器的超参数3、数据预处理工具4、加载数据5、分词处理6、数据预…

【AI视野·今日NLP 自然语言处理论文速览第七十三期】Tue, 9 Jan 2024

AI视野今日CS.NLP 自然语言处理论文速览 Tue, 9 Jan 2024 Totally 80 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Infe…

大型语言模型中的幻觉研究综述：原理、分类、挑战和未决问题11.15+11.16+11.17

大型语言模型中的幻觉研究综述：原理、分类、挑战和未决问题11.15 摘要1 引言2 定义2.1 LLM2.3 大语言模型中的幻觉 3 幻觉的原因3.1 数据的幻觉3.1.1 有缺陷的数据源3.1.2 较差的数据利用率3.1.3 摘要 3.2 来自训练的幻觉3.2.1训练前的幻觉3.2.2来自对齐的幻觉3.2.3…

用通俗易懂的方式讲解：对 embedding 模型进行微调，我的大模型召回效果提升了太多了

QA对话目前是大语言模型的一大应用场景，在QA对话中，由于大语言模型信息的滞后性以及不包含业务知识的特点，我们经常需要外挂知识库来协助大模型解决一些问题。在外挂知识库的过程中，embedding模型的召回效果直接影响到大模型的回…

LangChain 74 有用的或者有害的helpful or harmful Scoring Evaluator

LangChain系列文章 LangChain 60 深入理解LangChain 表达式语言23 multiple chains链透传参数 LangChain Expression Language (LCEL)LangChain 61 深入理解LangChain 表达式语言24 multiple chains链透传参数 LangChain Expression Language (LCEL)LangChain 62 深入理解Lang…

LangChain 5易速鲜花内部问答系统

展示了一个完整的问答系统的实现，使用了Flask来构建Web界面、langchain进行文档处理和检索，以及OpenAI的语言模型。代码的复杂性在于集成了多种高级技术和处理大型数据集和语言模型。 LangChain 实现给动物取名字，LangChain 2模块化prompt t…

一文读懂「Large Language Model，LLM」大语言模型

中国大语言模型产业价值链资料艾瑞咨询：https://www.iresearch.com.cn/Detail/report?id4166&isfree0&type

【LangChain学习之旅】—（8）输出解析：用OutputParser生成鲜花推荐列表

【LangChain学习之旅】—（8） 输出解析：用OutputParser生成鲜花推荐列表 LangChain 中的输出解析器Pydantic（JSON）解析器实战第一步：创建模型实例第二步：定义输出数据的格式第三步：创…

ChatGPT规模化服务的经验与教训

2022年11月30日，OpenAI发布ChatGPT，以很多人未曾预料的速度迅速走红。与此同时，由于短时间内用户量的暴涨，导致服务器过载，迫使OpenAI停止新用户的注册。 ChatGPT发布这一年，同样的情景发生了好几次。在最近…

用通俗易懂的方式讲解：使用Llama-2、PgVector和LlamaIndex，构建大模型 RAG 全流程

近年来，大型语言模型（LLM）取得了显著的进步，然而大模型缺点之一是幻觉问题，即“一本正经的胡说八道”。其中RAG（Retrieval Augmented Generation，检索增强生成）是解决幻觉比较有效的…

掌握大语言模型技术: 推理优化

掌握大语言模型技术_推理优化堆叠 Transformer 层来创建大型模型可以带来更好的准确性、少样本学习能力，甚至在各种语言任务上具有接近人类的涌现能力。这些基础模型的训练成本很高，并且在推理过程中可能会占用大量内存和计算资源（经常性成…

LORA概述: 大语言模型的低阶适应

LORA概述: 大语言模型的低阶适应 LORA: 大语言模型的低阶适应前言摘要论文十问实验RoBERTaDeBERTaGPT-2GPT-3 结论代码调用 LORA: 大语言模型的低阶适应前言 LoRA的核心思想在于优化预训练语言模型的微调过程，通过有效地处理权重矩阵的变化（即梯度更新…

基于 GPT 和 Qdrant DB 向量数据库，我构建了一个电影推荐系统

电影推荐系统自从机器学习时代开始以来就不断发展，逐步演进到当前的 transformers 和向量数据库的时代。在本文中，我们将探讨如何在向量数据库中高效存储数千个视频文件，以构建最佳的推荐引擎。在众多可用的向量数据库中，我们将…

【AI视野·今日NLP 自然语言处理论文速览第七十五期】Thu, 11 Jan 2024

AI视野今日CS.NLP 自然语言处理论文速览 Thu, 11 Jan 2024 Totally 36 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Leveraging Print Debugging to Improve Code Generation in Large Language Models Authors Xueyu Hu, Kun K…

翻译: 大语言模型LLMs能做什么和不能做什么保存笔记What LLMs can and cannot do

生成式 AI 是一项惊人的技术，但它并非万能。在这个视频中，我们将仔细看看大型语言模型（LLM）能做什么，不能做什么。我们将从我发现的一个有用的心理模型开始，了解它能做什么，然后一起看看 LLM 的…

『大模型笔记』LLM框架(LangChain、LlamaIndex、Haystack、Hugging Face)哪一个是满足您特定需求的最佳选择？

LLM框架(LangChain、LlamaIndex、Haystack、Hugging Face)哪一个是满足您特定需求的最佳选择？ 文章目录 1. LangChain1.1. 优势1.2. 劣势1.1. 理想用例 2. LlamaIndex2.1. 优势2.2. 劣势2.3. 理想用例 3. Haystack3.1. 优势3.2. 劣势3.3. 理想用例 4. Hugging Face…

Metaphor（EXA）基于大语言模型的搜索引擎

文章目录关于 Metaphor使用示例关于 Metaphor Metaphor是基于大语言模型的搜索引擎，允许用户使用完整的句子和自然语言搜索，还可以模拟人们在互联网上分享和谈论链接的方式进行查询内容。 Metaphor同时还能与LLMs结合使用，允许LLMs连接互联…

LLM大语言模型（五）：用streamlit开发LLM应用

目录背景准备工作切记streamlit开发LLM demo开一个新页面初始化session先渲染历史消息接收用户输入模拟调用LLM 参考背景 Streamlit是一个开源Python库，可以轻松创建和共享用于机器学习和数据科学的漂亮的自定义web应用程序，用户可以在几分钟内构建一…

翻译: ChatGPT Token消耗粗略计算英文就是除以四分之三

在这个视频中，我想带你快速浏览一些例子，以建立对在软件应用中使用大型语言模型的实际成本的直观感受。让我们来看看。这是一些示例价格，用于从不同的大型语言模型获取提示和回应，这些模型对开发者可用。即，如果你在你…

$CMU\谷歌等最新研究综述：面向通用机器人的基础模型$

CMU\谷歌等最新研究综述：面向通用机器人的基础模型

构建能够在任何环境中无缝操作、使用各种技能处理不同物体和完成多样化任务的通用机器人，一直是人工智能领域的长期目标。然而，不幸的是，大多数现有的机器人系统受到限制——它们被设计用于特定任务、在特定数据集上进行训练，并在…

LangChain 30 ChatGPT LLM将字符串作为输入并返回字符串Chat Model将消息列表作为输入并返回消息

LangChain系列文章 LangChain 实现给动物取名字，LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain 4用向量数据库Faiss存储，读取YouTube的视频文本搜索I…

LLaMA-2 下载demo使用

LLaMA-2 下载&demo使用 1. LLaMA-2 下载&demo使用1.1 meta官网1.2 huggingface1.3 其他源1.4 huggingface下载模型和数据加速 1. LLaMA-2 下载&demo使用 1.1 meta官网 llama2下载在meta的官网 Meta website 进行下载申请（注意地区不要选择China会被…

【LLM】Qwen学习

安装依赖 pip install transformers4.32.0 pip install accelerate pip install tiktoken pip install einops pip install transformers_stream_generator0.0.4 pip install scipy pip install auto-gptq optimum使用参见官方介绍模型模型结构 QwenBlock 打印模型 ##…

Science最新研究成果：速度和准确性均超越人类化学家，且具独创性，AI自主化学合成机器人加速化学发现

最近，在光化学和光催化方面的研究出现了惊人的爆发，部分原因在于光作为反应源对环境无害。然而，许多研究展示的是小规模反应，而扩大规模依赖于不同技术的拼凑，可能需要大量的试验和错误来优化。针对复杂光催化反应条…

【自然语言处理】【大模型】 ΨPO：一个理解人类偏好学习的统一理论框架

一个理解人类偏好学习的统一理论框架《A General Theoretical Paradiam to Understand Learning from Human Preferences》论文地址：https://arxiv.org/pdf/2310.12036.pdf 相关博客【自然语言处理】【大模型】 ΨPO：一个理解人类偏好学习的统一理论框…

文献阅读：LoRA: Low-Rank Adaptation of Large Language Models

文献阅读：LoRA: Low-Rank Adaptation of Large Language Models 1. 文章简介2. 方法介绍3. 实验 & 结论 1. 基础实验 1. Bert系列模型2. GPT系列模型 2. 消解实验 1. 作用矩阵考察2. 中间维度考察3. 扰动程度分析 4. 总结 & 思考文献链接：htt…

【话题】ChatGPT等大语言模型为什么没有智能2

我们接着上一次的讨论，继续探索大模型的存在的问题。正巧CSDN最近在搞文章活动，我们来看看大模型“幻觉”。当然，本文可能有很多我自己的“幻觉”，欢迎批评指正。如果这么说的话，其实很容易得出一个小结论——大模型如…

【LLM 】7个基本的NLP模型，为ML应用程序赋能

在上一篇文章中，我们已经解释了什么是NLP及其在现实世界中的应用。在这篇文章中，我们将继续介绍NLP应用程序中使用的一些主要深度学习模型。 BERT 来自变压器的双向编码器表示（BERT）由Jacob Devlin在2018年的论文《BERT:用于语言…

利用提示工程，提升LLM将自然语言转化为SQL的准确性

大型语言模型 (LLM) 已展现出理解自然语言提示并生成连贯响应的卓越能力。这为将自然语言翻译成 SQL 等结构化查询语言开辟了新的可能性。过去，编写 SQL 查询需要技术专业知识，而LLM允许任何人用简单的英语描述他们想要的内容，并自动生成相…

【langchain】入门初探实战笔记（Chain, Retrieve, Memory, Agent）

1. 简介 1.1 大语言模型技术栈大语言模型技术栈由四个主要部分组成： 数据预处理流程（data preprocessing pipeline）嵌入端点（embeddings endpoint ）向量存储（vector store）LLM 终端&#xff…

LLM是一个向量程序库，提示是查询语言

2013 年，Mikolov 等人在 Google。注意到一些值得注意的事情。他们正在构建一个模型，将单词嵌入到向量空间中——这个问题从 20 世纪 80 年代开始就已经有很长的学术历史了。他们的模型使用了一个优化目标，旨在将单词之间的相关关系转化为…

LLM大语言模型（六）：RAG模式下基于PostgreSQL pgvector插件实现vector向量相似性检索

目录 HightLightMac上安装PostgreSQLDBever图形界面管理端创建DB 使用向量检索vector相似度计算近似近邻索引HNSW近似近邻索引示例 HightLight 使用PostgreSQL来存储和检索vector，在数据规模非庞大的情况下，简单高效。可以和在线业务共用一套DB&#…

假期AI新闻热点：亚运会Al技术亮点；微软GPT-4V论文精读；Perplexity推出pplx-api；DALL-E 3多渠道测评 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！ 🔥 科技感拉满，第19届杭州亚运会中的Al技术亮点八年筹备，杭州第19届亚运会开幕式于9月23日晚隆重举行&#xff0…

当大型语言模型（LLM）遇上知识图谱：两大技术优势互补

1 引言大型语言模型（LLM）已经很强了，但还可以更强。通过结合知识图谱，LLM 有望解决缺乏事实知识、幻觉和可解释性等诸多问题；而反过来 LLM 也能助益知识图谱，让其具备强大的文本和语言理解能力。而如果能…

【Langchain Agent研究】SalesGPT项目介绍（五）

【Langchain Agent研究】SalesGPT项目介绍（四）-CSDN博客上节课，我们分析了一下salesGPT项目里源代码的一些问题，重新写了一个运行方法，换了一个模型并修改了一些源代码开始把项目跑起来了，我们已经…

AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.01.01-2024.01.10

1.Pre-trained Large Language Models for Financial Sentiment Analysis 标题:用于金融情感分析的预训练大型语言模型 author:Wei Luo, Dihong Gong date Time:2024-01-10 paper pdf:http://arxiv.org/pdf/2401.05215v1 摘要： 金融情感分析是指将金融文本内容划分…

大语言模型的开山之作—探秘GPT系列：GPT-1-GPT2-GPT-3的进化之路

模型模型参数创新点评价GPT1预训练微调， 创新点在于Task-specific input transformations。GPT215亿参数预训练PromptPredict， 创新点在于Zero-shotZero-shot新颖度拉满，但模型性能拉胯GPT31750亿参数预训练PromptPredict， 创新点…

探秘SuperCLUE-Safety：为中文大模型打造的多轮对抗安全新框架

探秘SuperCLUE-Safety：为中文大模型打造的多轮对抗安全新框架进入2023年以来，ChatGPT的成功带动了国内大模型的快速发展，从通用大模型、垂直领域大模型到Agent智能体等多领域的发展。但是生成式大模型生成内容具有一定的不可控性&#xff0…

Self-attention与Word2Vec

Self-attention（自注意力）和 Word2Vec 是两种不同的词嵌入技术，用于将单词映射到低维向量空间。它们之间的区别： Word2Vec： Word2Vec 是一种传统的词嵌入（word embedding）方法，旨在为…

【论文精读】LLaMA1

摘要以往的LLM（Large Languages Models）研究都遵从一个假设，即更多的参数将导致更好的性能。但也发现，给定计算预算限制后，最佳性能的模型不是参数最大的，而是数据更多的。对于实际场景，首选的…

Datawhale-Sora技术原理分享

目录 Sora能力边界探索 Sora模型训练流程 Sora关键技术拆解物理引擎的数据进行训练个人思考与总结参考 https://datawhaler.feishu.cn/file/KntHbV3QGoEPruxEql2c9lrsnOb

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.02.20-2024.02.25

论文目录~ 1.Representing Online Handwriting for Recognition in Large Vision-Language Models2.Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding3.Fine-tuning CLIP Text Encoders with Two-step Paraphrasing4.…

『大模型笔记』RAG 系统开发中的12大痛点及解决方案

RAG 系统开发中的12大痛点及解决方案文章目录问题引入一. 痛点 1：缺失内容1.1. 数据清洗的重要性1.2. 精心设计的提示（Prompt）有助于提高准确性二. 痛点 2：关键文档被遗漏2.1. 通过调整 chunk_size 和 similarity_top_k 参数优化检索效果2.2. 检索结果的优化排序三. 痛点…

本地快速部署谷歌开放模型Gemma教程(基于WasmEdge)

本地快速部署谷歌开放模型Gemma教程（基于WasmEdge） 一、介绍 Gemma二、部署 Gemma2.1 部署工具2.1 部署步骤三、构建超轻量级 AI 代理四、总结一、介绍 Gemma Gemma是一系列轻量级、最先进的开放式模型，采用与创建Gemini模型相同的研究和技…

WebCPM：首个开源的交互式网页搜索中文问答模型

论文题目：WEBCPM: Interactive Web Search for Chinese Long-form Question Answering 论文日期：2023/05/23(ACL 2023) 论文地址：https://arxiv.org/abs/2305.06849 GitHub地址：https://arxiv.org/abs/2305.06849 文章…

『大模型笔记』RAG应用的12种调优策略指南

RAG应用的12种调优策略指南文章目录一. 概要二. 数据索引2.1. 数据清洗2.2. 分块2.3. 嵌入模型2.4. 元数据（或未向量化的数据）2.5. 多索引2.6. 索引算法三. 推理阶段（检索和生成）3.1. 检索参数3.2. 高级检索策略3.3. 重新排序模型3.5. 大语言模型（LLM）

一文读懂「RLHF，Reinforcement Learning from Human Feedback」基于人类反馈的进行强化学习

一、背景由来过去几年里，以ChatGPT为代表的基于prompt范式的大型语言模型 (Large Language Model，LLM) 取得了巨大的成功。然而，对生成结果的评估是主观和依赖上下文的，这些结果难以用现有的基于规则的文本生成指标 (如 BLUE 和…

LLM@本地大语言模型@Gemma的安装与使用@dockerDesktop的安装和启动

文章目录准备refsollama安装过程2b模型的效果小结👺 ollama的进一步使用帮助文档查看ollama安装了哪些模型使用皮肤来使聊天更易用使用Chatbot UI皮肤安装docker👺启动docker载入和退出dockerchatbot 网页版皮肤使用命令行聊天小结👺 准备…

Re61：读论文 PRP Get an A in Math: Progressive Rectification Prompting

诸神缄默不语-个人CSDN博文目录诸神缄默不语的论文阅读笔记和分类论文名称：Get an A in Math: Progressive Rectification Prompting ArXiv网址：https://arxiv.org/abs/2312.06867 官方实现网站：PRP 官方代码：https://github.…

AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.02.25-2024.03.01

论文目录~ 1.Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards2.Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates3.Meta-Task Prompting Elicits Embedding from Lar…

大模型（LLM）的量化技术Quantization原理学习

在自然语言处理领域，大型语言模型（LLM）在自然语言处理领域的应用越来越广泛。然而，随着模型规模的增大，计算和存储资源的需求也急剧增加。为了降低计算和存储开销，同时保持模型的性能，LLM大模型…

【自然语言处理】【大模型】BitNet：用1-bit Transformer训练LLM

BitNet：用1-bit Transformer训练LLM 《BitNet: Scaling 1-bit Transformers for Large Language Models》论文地址：https://arxiv.org/pdf/2310.11453.pdf 相关博客【自然语言处理】【大模型】BitNet：用1-bit Transformer训练LLM 【自然语言…

大语言模型LLM学习梳理

一、介绍今天问了下晓宇关于LLM的知识，学到了很多，总结下。二、开源的大型语言模型（LLM）包含哪些东西？ 模型包含两块内容： 框架。框架就是函数和代码逻辑的组合。可能有多层，每层可能有很…

【AI视野·今日NLP 自然语言处理论文速览第八十期】Fri, 1 Mar 2024

AI视野今日CS.NLP 自然语言处理论文速览 Fri, 1 Mar 2024 Totally 67 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Loose LIPS Sink Ships: Asking Questions in Battleship with Language-Informed Program Sampling Authors G…

【AI视野·今日NLP 自然语言处理论文速览第八十四期】Thu, 7 Mar 2024

AI视野今日CS.NLP 自然语言处理论文速览 Thu, 7 Mar 2024 Totally 52 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers The Heuristic Core: Understanding Subnetwork Generalization in Pretrained Language Models Authors Adith…

【AI视野·今日NLP 自然语言处理论文速览第七十六期】Fri, 12 Jan 2024

AI视野今日CS.NLP 自然语言处理论文速览 Fri, 12 Jan 2024 Totally 60 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Axis Tour: Word Tour Determines the Order of Axes in ICA-transformed Embeddings Authors Hiroaki Yamagi…

LLM 推理优化探微 (1) ：Transformer 解码器的推理过程详解

编者按：随着 LLM 赋能越来越多需要实时决策和响应的应用场景，以及用户体验不佳、成本过高、资源受限等问题的出现，大模型高效推理已成为一个重要的研究课题。为此，Baihai IDP 推出 Pierre Lienhart 的系列文章，从多个维…

#LLM入门|Prompt#2.8_搭建一个带评估的端到端问答系统

在这一章节中，我们将会构建一个集成评估环节的完整问答系统。这个系统将会融合我们在前几节课中所学到的知识，并且加入了评估步骤。以下是该系统的核心操作流程： 对用户的输入进行检验，验证其是否可以通过审核 API 的标准。若输入…

机器学习笔记大语言模型是如何运作的？一、语料库和N-gram模型

一、语料库语言模型、ChatGPT和人工智能似乎无处不在。了解大型语言模型（LLM）“背后”发生的事情将是驾驭数字世界的关键。首先在提示中键入一个单词，然后点击提交。您可以尝试新的提示，并根据需要多次重新生成响应。这个我们称之为“T&C”的语言模型是在一…

#LLM入门|Prompt#2.10_评估、自动化测试效果（下）——当不存在一个简单的正确答案时 Evaluation Part2

上一章我们探索了如何评估 LLM 模型在有明确正确答案的情况下的性能，并且我们学会了编写一个函数来验证 LLM 是否正确地进行了分类列出产品。在使用LLM生成文本的场景下，评估其回答准确率可以是一个挑战。由于LLM是基于大规模的训练数据进行训练的&am…

论文翻译 - Visual Adversarial Examples Jailbreak Large Language Models

论文链接：https://arxiv.org/pdf/2306.13213.pdf 项目代码：https://github.com/Unispac/Visual-Adversarial-Examples-Jailbreak-Large-Language-Models Visual Adversarial Examples Jailbreak Aligned Large Language Models Abstract1 Introduction2 …

【AI视野·今日NLP 自然语言处理论文速览第七十七期】Mon, 15 Jan 2024

AI视野今日CS.NLP 自然语言处理论文速览 Mon, 15 Jan 2024 Totally 57 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Machine Translation Models are Zero-Shot Detectors of Translation Direction Authors Michelle Wastl, Ja…

#RAG#llm时代-RAG各模块痛点总结及解决办法，强化rag认知

RAG（Retrieval-Augmented Generation）技术是一种结合了检索和生成的方法，能够在生成文本的过程中利用外部知识库或语境来提高生成文本的质量和准确性。在当前的LLM（Large Language Model）时代，RAG技术显得尤…

LLM 推理优化探微 (3) ：如何有效控制 KV 缓存的内存占用，优化推理速度？

编者按： 随着 LLM 赋能越来越多需要实时决策和响应的应用场景，以及用户体验不佳、成本过高、资源受限等问题的出现，大模型高效推理已成为一个重要的研究课题。为此，Baihai IDP 推出 Pierre Lienhart 的系列文章，从多个…

通过 ChatGPT 的 Function Call 查询数据库

用 Function Calling 的方式实现手机流量包智能客服的例子。 def get_sql_completion(messages, model"gpt-3.5-turbo"):response client.chat.completions.create(modelmodel,messagesmessages,temperature0,tools[{ # 摘自 OpenAI 官方示例 https://github.com/…

文献阅读：Mistral 7B

文献阅读：Mistral 7B 1. 文章简介2. 模型结构说明 1. SWA (Sliding Window Attention)2. Rolling Buffer Cache3. Pre-fill and Chunking 3. 实验考察 & 结论 1. 基础实验2. Instruction Tuning3. 安全性分析 4. 总结 & 思考文献链接：https://…

忘记 RAG：拥抱Agent设计，让 ChatGPT 更智能更贴近实际

RAG（检索增强生成）设计模式通常用于开发特定数据领域的基于实际情况的ChatGPT。然而，重点主要是改进检索工具的效率，如嵌入式搜索、混合搜索和微调嵌入，而不是智能搜索。这篇文章介绍了一种新的方法，灵感…

从大模型到Agentscope——Multi-Agent框架应用与开发

目录大模型发展历程大模型的缺陷智能体 Agent的构建模型计划内存工具 Agent到多Agent Multi-Agent 带来性能提升的同时也带来一些新的问题流程设计鲁棒可靠多模态多系统提升运行效率 Multi-Agent框架 AgentScope Demo 三行代码实现聊天机器人预告

Vision-Language Models for Vision Tasks: A Survey

论文地址：https://arxiv.org/pdf/2304.00685.pdf 项目地址：https://github.com/jingyi0000/VLM_survey 一、综述动机视觉语言模型，如CLIP，以其独特的训练方式显著简化了视觉识别任务的流程。它减少了对大量精细标注数据的依赖&a…

AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.03.25-2024.03.31

文章目录~ 1.Gecko: Versatile Text Embeddings Distilled from Large Language Models2.Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference3.LUQ: Long-text Uncertainty Quantification for LLMs4.Draw-and-Understand: Leveraging Visua…

LLM大语言模型（九）：LangChain封装自定义的LLM

背景想基于ChatGLM3-6B用LangChain做LLM应用，需要先了解下LangChain中对LLM的封装。本文以一个hello world的封装来示例。 LangChain中对LLM的封装继承关系：BaseLanguageModel——》BaseLLM——》LLM LLM类简化和LLM的交互 _call抽象方法定义 ab…

vLLM vs TGI 部署大模型以及注意点

LLM 高并发部署是个难题，具备高吞吐量的服务，能够让用户有更好的体验（比如模型生成文字速度提升，用户排队时间缩短）。 vllm github 仓库 1 vLLM 1.1 启动模型服务 # cd /workspace/vllm python3 -m vllm.entrypoin…

书生·浦语大模型实战营第二课作业

🎉AI学习星球推荐： GoAI的学习社区知识星球是一个致力于提供《机器学习 | 深度学习 | CV | NLP | 大模型 | 多模态 | AIGC 》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、…

图像分割-RSPrompter

文章目录前言1. 自动化提示器1.1 多尺度特征增强器1.2 RSPrompterAnchor-based PrompterQuery-based Prompter 2. SAM的扩展3. 结果WHU数据集NWPU数据集SSDD数据集前言《RSPrompter: Learning to prompt for remote sensing instance segmentation based on visual foundati…

Agent相关概念（更新中）

文章目录 Agent是什么Agent中要求LLM需要具备哪些能力Function Call（工具调用）Plan（规划）memory推理（总结）能力 Agent的实现方式PlanAndExecuteReact Agent是什么在LLM语境下，Agent可以理解为…

Advanced RAG 02：揭开 PDF 文档解析的神秘面纱

编者按： 自 2023 年以来，RAG 已成为基于 LLM 的人工智能系统中应用最为广泛的架构之一。由于诸多产品的关键功能（如：领域智能问答、知识库构建等）严重依赖RAG，优化其性能、提高检索效率和准确性迫在眉睫&am…

AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.03.31-2024.04.05

文章目录~ 1.AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent2.Training LLMs over Neurally Compressed Text3.Unveiling LLMs: The Evolution of Latent Representations in a Temporal Knowledge Graph4.Visualization-of-Thought …

大模型现有领域研究

分类参考https://csdnnews.blog.csdn.net/article/details/137337597?spm1000.2115.3001.5926&ydrefereraHR0cHM6Ly93d3cuY3Nkbi5uZXQv 对现有领域热点进行总结，后续会基于这些进行补充，会对其中的名词进行解释。开始编辑日期2024/4//4&#xff…

概念科普｜大模型它到底是什么？

一、引言 ChatGPT、Open AI、大模型、提示词工程、Token、幻觉等人工智能的黑话，在2023年这个普通却又神奇的年份里，反复的冲刷着大家的认知。让一部分人彻底躺平的同时，让另外一部分人开始焦虑起来，生怕在这个人工智能的奇迹之年…

用通俗易懂的方式讲解：大模型 Rerank 模型部署及使用技巧总结

Rerank 在 RAG（Retrieval-Augmented Generation）过程中扮演了一个非常重要的角色，普通的 RAG 可能会检索到大量的文档，但这些文档可能并不是所有的都跟问题相关，而 Rerank 可以对文档进行重新排序和筛选，让…

[实测]：claude-3-opus模型-基础能力对比测试

对比模型为： GPT-4GPT3.5,claude-3-sonnet claude3的版本性能基准对比结果问题1: 鲁迅为什么暴打周树人 From GPT-4 这是一个误解。鲁迅和周树人其实是同一个人，是中国现代文学的奠基人。他原名周树人，后来以鲁迅为笔名。所以，…

LLM推理框架Triton Inference Server学习笔记(一): Triton Inference Server整体架构初识

官方文档查阅: TritonInferenceServer文档 1. 写在前面这篇文章开始进行大语言模型(Large Language Model, LLM)的学习笔记整理，这次想从Triton Inference Server框架开始，因为最近工作上用到了一些大模型部署方面的知识， 所以就快速补充了…

GPT-1, GPT-2, GPT-3, GPT-3.5, GPT-4论文内容解读

目录 1 ChatGPT概述1.1 what is chatGPT1.2 How does ChatGPT work1.3 The applications of ChatGPT1.3 The limitations of ChatGPT 2 算法原理2.1 GPT-12.1.1 Unsupervised pre-training2.1.2 Supervised fine-tuning2.1.3 语料2.1.4 分析 2.2 GPT-22.3 GPT-32.4 InstructGPT…

大语言模型系列-中文开源大模型

文章目录前言一、主流开源大模型二、中文开源大模型排行榜前言近期，OpenAI 的主要竞争者 Anthropic 推出了他们的新一代大型语言模型 Claude 3，该系列涵盖了三个不同规模的模型：Opus、Sonnet 和 Haiku。 Claude 3声称已经全面超越GPT-4。…

大语言模型提示词技巧

LLM（Large Language Model）大语言模型时代，提示词（Prompt）很重要，而改进提示词显然有助于在不同任务上获得更好的结果。这就是提示工程背后的整个理念。下面我们将介绍更高级的提示工程技术，使…

AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.03.10-2024.03.15

文章目录~ 1.Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey2.VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding3.MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Langu…

什么是大型语言模型（LLM）？

大型语言模型 (LLM) 是一种能够理解和生成人类语言文本的机器学习模型。它们通过分析大量语言数据集来工作。一、什么是大型语言模型 (LLM)？ 大型语言模型 (LLM) 是一种人工智能 (AI) 程序，它可以识别和生成文本以及完成其他任务。LLM 经过了庞大的数据…

LLM 模型融合实践指南：低成本构建高性能语言模型

编者按：随着大语言模型技术的快速发展，模型融合成为一种低成本但高性能的模型构建新途径。本文作者 Maxime Labonne 利用 mergekit 库探索了四种模型融合方法：SLERP、TIES、DARE和passthrough。通过配置示例和案例分析，作者详细阐…

【论文精读】OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

OS-Copilot: Towards Generalist Computer Agents with Self-Improvement 前言ABSTRACT1 INTRODUCTION2 THE OS-COPILOT FRAMEWORK2.1 PLANNER2.2 CONFIGURATOR2.2.1 DECLARATIVE MEMORY2.2.2 PROCEDURAL MEMORY2.2.3 WORKING MEMORY 2.3 ACTOR 3 THE FRIDAY AGENT3.1 A RUNNIN…

Re62：读论文 GPT-2 Language Models are Unsupervised Multitask Learners

诸神缄默不语-个人CSDN博文目录诸神缄默不语的论文阅读笔记和分类论文全名：Language Models are Unsupervised Multitask Learners 论文下载地址：https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learner…

全网国内外总结PromptLLM论文，开源数据模型，AIGC应用（持续更新，收藏查看）

全网国内外总结Prompt&LLM论文，开源数据&模型，AIGC应用（持续更新，收藏查看） 目录顺序如下国内外，垂直领域大模型Agent和指令微调等训练框架开源指令，预训练，rlhf&#xff…

论文翻译 - Automatically Auditing Large Language Models via Discrete Optimization

Automatically Auditing Large Language Models via Discrete Optimization Abstract1 Introduction2 Related Work3 Formulating and Solving the Auditing Optimization Problem3.1 Preliminaries3.2 The auditing optimization problem Abstract 为意外行为审计大型语言模型…

NVIDIA NIM 提供优化的推理微服务以大规模部署 AI 模型

NVIDIA NIM 提供优化的推理微服务以大规模部署 AI 模型生成式人工智能的采用率显着上升。在 2022 年 OpenAI ChatGPT 推出的推动下，这项新技术在几个月内就积累了超过 1 亿用户，并推动了几乎所有行业的开发活动激增。到 2023 年，开发人员…

agent利用知识来做规划：《KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents》笔记

文章目录简介KnowAgent思路准备知识Action Knowledge的定义Planning Path Generation with Action KnowledgePlanning Path Refinement via Knowledgeable Self-LearningKnowAgent的实验结果总结参考资料简介《KnowAgent: Knowledge-Augmented Planning for LLM-Based Age…

论文翻译 - Multilingual Jailbreak Challenges in Large Language Models

论文链接：https://arxiv.org/pdf/2310.06474.pdf 项目代码：https://github.com/DAMO-NLP-SG/multilingual-safety-for-LLMs Multilingual Jailbreak Challenges in Large Language Models Abstract1 Introduction2 Preliminary Study2.1 Setup2.2 Result…

AI大语言模型工程师学习路线

文章目录运行LLMSLLM APIS开源的大语言模型Prompt engineering1. 明确目标2. 理解模型能力3. 使用示例4. 精确和具体的指令5. 考虑上下文6. 避免偏见和不准确的信息7. 测试和迭代8. 使用模板9. 考虑多语言能力10. 注意伦理和合规性结构化输出1. 使用明确的提示（Prompts）2. 采…

LLM应用：Prompt flow vs LangChain

背景 Prompt flow和LangChain都是LLM时代，为高效地构建LLM应用而生。 Prompt flow是Microsoft开源的，其诞生时，LangChain已经很有名气了。所以作为后生的Prompt flow会为我们带来哪些新的东西呢？ Prompt flo…

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models 相关链接：arxiv 关键字：Vision Language Models、Multi-modality、High-Resolution Visual Tokens、High-Quality Data、VLM-guided Generation 摘要在这项工作中&#x…

【论文通读】AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation 前言AbstractMotivationFrameworkConversable AgentsConversation Programming ApplicationA1: Math Problem SolvingA2: Retrieval-Augmented Code Generation and Question AnsweringA3: Decision…

#LLM入门|Prompt#3.2_模型，提示和输出解释器_Models,Prompts_and_Parses

本章将简要介绍LLM开发的重要概念：模型、提示和解释器。如果您已经完整学习了前面两个部分的内容，对这些概念应该已经很熟悉了。然而，在LangChain的定义中，这些概念的定义和使用与之前有一些细微的差别。因此，我们仍然…

智能咖啡厅助手：人形机器人 +融合大模型，行为驱动的智能咖啡厅机器人(机器人大模型与具身智能挑战赛)

智能咖啡厅助手：人形机器人融合大模型，行为驱动的智能咖啡厅机器人(机器人大模型与具身智能挑战赛) “机器人大模型与具身智能挑战赛”的参赛作品。的目标是结合前沿的大模型技术和具身智能技术，开发能在模拟的咖啡厅场景中承担服务员角色并…

【大模型】非常好用的大语言模型推理框架 bigdl-llm，现改名为 ipex-llm

非常好用的大语言模型推理框架 bigdl-llm，现改名为 ipex-llm bigdl-llmgithub地址环境安装依赖下载测试模型加载和优化预训练模型使用优化后的模型构建一个聊天应用 bigdl-llm IPEX-LLM is a PyTorch library for running LLM on Intel CPU and GPU (e.g., local P…

6、ChatGLM3-6B 部署实践

一、ChatGLM3-6B介绍与快速入门 ChatGLM3 是智谱AI和清华大学 KEG 实验室在2023年10月27日联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型，免费下载，免费的商业化使用。该模型在保留了前两代模型对话流畅、部署门槛低等众多…

REPLUG：检索增强的黑盒语言模型

论文题目：REPLUG: Retrieval-Augmented Black-Box Language Models 论文日期：2023/05/24 论文地址：https://arxiv.org/abs/2301.12652 文章目录 Abstract1. Introduction2. Background and Related Work2.1 Black-box Language Model…

LangChain - LLMs

文章目录一、LLMs vs 聊天模型二、入门1、设置 OpenAI2、__call__: string in -> string out3、generate: batch calls, richer outputs 三、异步 API四、Custom LLM五、Fake LLM六、Human input LLM七、缓存 llm_caching1、内存缓存（In Memory Cache&#xff0…

LLM大语言模型（十一）：基于自定义的ChatGLM3-6B构建LangChain的chain

背景 LangChain中具备执行复杂逻辑的组件，一个是Agent，一个是Chain。两者的区别主要在于： Chain是静态的是提前定义好的执行流程，执行完step1然后执行step2. Agent是动态的，Agent在执行时LLM可以自行决定使用合适…

transformer上手(2) —— 注意力机制

自从 2017 年 Google 发布《Attention is All You Need》之后，各种基于 Transformer 的模型和方法层出不穷。尤其是 2018 年，OpenAI 发布的 GPT 和 Google 发布的 BERT 模型在几乎所有 NLP 任务上都取得了远超先前最强基准的性能，将 Transfor…

#LLM入门|Prompt#3.3_存储_Memory

在与语言模型交互时，一个关键问题：记忆缺失使得对话缺乏真正的连续性。因此，接下来介绍 LangChain 中的储存模块，即如何将先前的对话嵌入到语言模型中的，使其具有连续对话的能力。当使用 LangChain 中的储存(Memory)…

CPU服务器安装运行智谱大模型ChatGLM-6B

CPU运行智谱大模型ChatGLM-6B 说明我的服务器配置是16C32G，跑大模型最好内存要大一些才行，不然跑不起来。下载 git clone https://github.com/THUDM/ChatGLM-6B.git 安装依赖包 pip install -r requirements.txt 下载模型文件在huggingface上…

OCR-free相关论文梳理

引言通用文档理解，是OCR任务的终极目标。现阶段的OCR各种垂类任务都是通用文档理解任务的子集。这感觉就像我们一下子做不到通用文档理解，退而求其次，先做各种垂类任务。现阶段，Transformer技术的发展，让通用文档理…

LLM大语言模型（七）：部署ChatGLM3-6B并提供HTTP server能力

目录 HighLight 部署ChatGLM3-6B并开启HTTP server能力下载embedding模型bge-large-zh-v1.5 HTTP接口问答示例 LLM讲了个尴尬的笑话~ HighLight 将LLM服务化（如提供HTTP server能力），才能在其上构建自己的应用。部署ChatGLM3-6B并开启…

从大模型到Agentscope——分布式Multi-Agent应用开发与部署

目录 Why需要分布式案例多进程的分布书版本能快速提升速度分布式的挑战 AgentScope分布式解决方案实现RPC Agent 基于Actor模式的并行调度缺点：需要Agent内部决定消息传递目标被调用的Agent立即返回占位符placeholder to_dist: 开启自动将单机进行扩展…

Language models scale reliably with over-training and on downstream tasks

Language models scale reliably with over-training and on downstream tasks 相关链接：arxiv 关键字：语言模型、过度训练、下游任务、可扩展性、性能预测摘要本文探讨了语言模型在过度训练和下游任务中的可扩展性。尽管现有的扩展研究通常集中在计算…

论文翻译 - HotFlip: White-Box Adversarial Examples for Text Classification

论文链接：https://aclanthology.org/P18-2006.pdf 项目代码：https://github.com/AnyiRao/WordAdver HotFlip: White-Box Adversarial Examples for Text Classification Abstract1 Introduction2 Related Work3 HotFlip3.1 Definitions3.2 Derivatives o…

大模型（LLM）的token学习记录-I

文章目录基本概念什么是token?如何理解token的长度？使用openai tokenizer 观察token的相关信息open ai的模型 token的特点token如何映射到数值？token级操作：精确地操作文本token 设计的局限性 tokenizationtoken 数量对LLM 的影响训练模型参…

【Roadmap to Learn LLM】Intro to Large Language Models

by Andrej Karpathy 文章目录什么是LLM模型训练微调阶段llm的发展方向LLM安全参考资料什么是LLM Large Language Model(LLM)就是两个文件，一个是模型参数文件，一个是用于运行模型的代码文件模型训练一个压缩的过程，将所有训练数据压缩…

Prompt进阶系列5:LangGPT(提示链Prompt Chain)--提升模型鲁棒性

Prompt进阶系列5:LangGPT(提示链Prompt Chain)–提升模型鲁棒性随着对大模型的应用实践的深入，许多大模型的使用者， Prompt 创作者对大模型的应用越来越得心应手。和 Prompt 有关的各种学习资料，各种优质内容也不断涌现。关于 Prompt 的实践…

2024年大模型面试准备（二）：LLM容易被忽略的Tokenizer与Embedding

分词和嵌入一直是LM被忽略的一部分。随着各大框架如HF的不断完善，大家对tokenization和embedding的重视程度越来越低，到现在初学者大概只能停留在调用tokenizer.encode这样的程度了。知其然不知其所以然是很危险的。比如你要调用ChatGPT的接口&#xf…

[LLM]大模型八股知识点(二)

基于LLM向量库的文档对话经验面基于LLM向量库的文档对话基础面查询类型：首先确定用户可能的查询类型，例如问题查询、主题查询、摘要查询等。针对不同的查询类型，可以构建相应的prompt模板。例如，对于问题查询，可以使…

什么是Prompt Tuning？

本文是观看视频What is Prompt Tuning?后的笔记。大语言模型（如ChatGPT ）是基础模型，是经过互联网上大量知识训练的大型可重用模型。他们非常灵活，同样的模型可以分析法律文书或撰写文章。但是，如果我们需要用其解…

Fastgpt 无法启动或启动后无法正常使用的讨论（启动失败、用户未注册等问题这里）

FastGPT 是一个基于 LLM 大语言模型的知识库问答系统，提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排，从而实现复杂的问答场景！ FastGPT是非常实用并且相当厉害的个人知识库AI项目，项目是非常…

囊括所有大模型：高质量中文预训练模型大模型多模态模型大语言模型集合

在自然语言处理领域中，预训练语言模型（Pretrained Language Models）已成为非常重要的基础技术，本仓库主要收集目前网上公开的一些高质量中文预训练模型、中文多模态模型、中文大语言模型等内容(感谢分享资源的大佬)，并…

【Roadmap to learn LLM】Large Language Models in Five Formulas

by Alexander Rush Our hope: reasoning about LLMs Our Issue 文章目录 Perpexity(Generation)Attention(Memory)GEMM(Efficiency)用矩阵乘法说明GPU的工作原理 Chinchilla(Scaling)RASP(Reasoning)结论参考资料 the five formulas perpexity —— generationattention —— m…

【论文通读】UFO：A UI-Focused Agent for Windows OS Interaction

UFO：A UI-Focused Agent for Windows OS Interaction 前言AbstractMotivationMethodsExperimentConclusion 前言 Windows客户端第一个JARVIS，利用GPT4 Vision识别截图信息辅助智能体自动化执行操作，作为微软大肆宣传的一篇工作，其…

Python从零到一构建GPT模型

只用Python和 torch框架，从零到一构建GPT模型，对大语言模型入门，了解GPT的内部网络结构，是一个很好示例。 Build_GPT_from_Scratch.ipynb

LLM--打造Private GPT需要知道的一些概念及术语

文章目录大模型存储格式GGMLGGUF Embedding概念分类术语LlamaindexLlamaCPPPoetryASGIFastAPIChromaQdrantgradioMRL 大模型存储格式大模型的存储一个很重要的问题是它的模型文件巨大，而模型的结构、参数等也会影响模型的推理效果和性能，为了让大模型…

transformer上手(1) —— transformer介绍

1 起源与发展 2017 年 Google 在《Attention Is All You Need》中提出了 Transformer 结构用于序列标注，在翻译任务上超过了之前最优秀的循环神经网络模型；与此同时，Fast AI 在《Universal Language Model Fine-tuning for Text Classificat…

Triton Server Python 后端优化

接上文不使用 Docker 构建 Triton 服务器并在 Google Colab 平台上部署 HuggingFace 模型 MultiGPU && Multi Instance Config 追加 instance_group [{count: 4kind: KIND_GPUgpus: [ 0, 1 ]} ]Python Backend Triton 会根据配置信息启动四个实例，…

LLM - Ruozhiba ＜Quality＞ is All You Need

目录引言 1.COIG-CQIA Data 2.Ruozhiba Performance 3.Ruozhiba Data 4.More Ruozhiba Data 5.Some thoughts 引言近期弱智吧 [后续以 Ruozhiba 代替] 的数据集在中文 LLM 场景的 Fine-Tuning 效果大火。众所周知，在当前 LLM 的大环境下，足够优…

【小沐学AI】数据分析的Python库：Pandas AI

文章目录 1、简介2、安装2.1 Python2.2 PandasAI 3、部署4、功能4.1 大型语言模型 （LLM）4.1.1 BambooLLM4.1.2 OpenAI 模型4.1.3 谷歌 PaLM4.1.4 谷歌 Vertexai4.1.5 Azure OpenAI4.1.6 HuggingFace 模型4.1.7 LangChain 模型4.1.8 Amazon Bedrock 模型4…

AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.03.05-2024.03.10—（2）

论文目录~ 1.Debiasing Large Visual Language Models2.Harnessing Multi-Role Capabilities of Large Language Models for Open-Domain Question Answering3.Towards a Psychology of Machines: Large Language Models Predict Human Memory4.Can we obtain significant succ…

ChatGLM3-6B独立部署提供HTTP服务failed to open nvrtc-builtins64_121.dll

背景我在本地windoes部署ChatGLM3-bB，且希望部署后能提供HTTP server的能力。模型部署且启动是成功了，但是在访问生成接口/v1/chat/completions时报错failed to open nvrtc-builtins64_121.dll。问题详细描述找不到nvrtc-builtins64_121.dll Runtime…