编程笔记

lifelong learning & practice makes perfect

参与链接

活动连接

限制

需要账号是RDS首购才能拿到奖励,不清楚的可进钉钉群问,需要购买7天的Mysql套餐(54元)

奖励

限首购用户】前2000名完成阶段二的:【任务1-产品开通】、【任务2-动手实验】、【任务3-动手实验】,可获得价值200元的冬日暖心礼盒:100元电话充值卡+定制办公礼(保温杯、笔记本、签字笔),任务1开通的产品7天到期自动会释放,鼓励根据学习内容多进行产品体验实践,若用户提前手动释放,则视为放弃领奖资格(入群填写信息,活动结束后统一发放)

任务

任务1-产品开通

购买54这款即可,不需要做为何更改

购买54这款即可,不需要做为何更改

任务2/3-动手实验

按照实验手册一步步操作即可,官方会提供资源,页面上的浏览器有点卡顿需要耐心操作

概念

大语言模型(LLM)

大语言模型(英文:Large Language Model,缩写LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数。

LangChain

LangChain是一个强大的框架,旨在帮助开发人员使用语言模型构建端到端的应用程序。它提供了一套工具、组件和接口,可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。LangChain 可以轻松管理与语言模型的交互,将多个组件链接在一起,并集成额外的资源,例如 API 和数据库。

组件和链(Components and Chains)

  • 组件(Component) 是模块化的构建块,可以组合起来创建强大的应用程序。
  • 链(Chain) 是组合在一起以完成特定任务的一系列组件(或其他链)。

例如,一个链可能包括一个提示模板、一个语言模型和一个输出解析器,它们一起工作以处理用户输入、生成响应并处理输出。

提示模板和值(Prompt Templates and Values)

  • 提示模板(Prompt Template) 负责创建提示值,这是最终传递给语言模型的内容。
  • 提示值(Prompt Values) 是具有方法的类,这些方法可以转换为每个模型类型期望的确切输入类型(如文本或聊天消息)。

输出解析器(Output Parsers)

负责将语言模型响应构建为更有用的格式。

LlamaIndex

LlamaIndex 使用 LangChain 的 LLM 模块并允许自定义底层 LLM。LlamaIndex 是一个强大的工具,它提供了一个中央接口来将 LLM 与外部数据连接起来,并允许你根据你提供的数据创建一个聊天机器人。使用 LlamaIndex,您无需成为 NLP 或机器学习专家。您只需要提供您希望聊天机器人使用的数据,LlamaIndex 会处理剩下的事情。

Hugging Face

Hugging Face 是一个提供预训练模型和工具的平台,帮助开发者更轻松地使用和部署大语言模型。

嵌入(Embedding)

嵌入是将文本数据转换为数值向量的过程,这些向量可以被机器学习模型理解和处理。嵌入技术在大语言模型中起着关键作用,因为它允许模型在向量空间中表示和比较文本。

方案

Google NotebookLM

Google NotebookLM,上传文档与LM交互,可直接在线体验

阿里云 DashVector x LLM

DashVector 是阿里云推出的一个高性能向量数据库,专门用于存储和检索大规模的向量数据。它能够高效地支持嵌入向量的存储和相似度搜索,非常适合与大语言模型结合使用,实现基于本地知识库的问答系统。

集成步骤

安装依赖:首先需要安装 DashVector SDK 和 LangChain 相关的库。

1
pip install dashvector langchain

使用 DashVector SDK,你可以轻松地使用 DashVector 存储和检索向量数据。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
# 初始化 DashVector 客户端:创建一个 DashVector 客户端实例,用于与 DashVector 数据库进行交互。
from dashvector import Client

client = Client(api_key="your_api_key", host="your_host")

# 创建向量索引:根据你的知识库内容,创建相应的向量索引。
index = client.create_index(name="knowledge_base", dimension=768)

# 插入数据:将知识库中的文档转换为嵌入向量,并插入到 DashVector 中。
from transformers import AutoTokenizer, AutoModel
import torch

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModel.from_pretrained("bert-base-uncased")

def encode(text):
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
with torch.no_grad():
outputs = model(**inputs)
return outputs.last_hidden_state.mean(dim=1).squeeze().tolist()

documents = ["文档内容1", "文档内容2", ...]
vectors = [encode(doc) for doc in documents]

index.insert(vectors)

# 构建检索链:使用 LangChain 构建一个检索链,结合 DashVector 进行向量检索,并将检索结果作为上下文传递给大语言模型。
from langchain.chains import RetrievalQA
from langchain.vectorstores import DashVectorStore
from langchain.llms import OpenAI

llm = OpenAI(api_key="your_openai_api_key")
vector_store = DashVectorStore(client=client, index_name="knowledge_base")
qa_chain = RetrievalQA(llm=llm, retriever=vector_store.as_retriever())

# 查询示例
question = "你的查询问题"
answer = qa_chain.run(question)
print(answer)

GPT4All + LangChain

FASTGpt + One-api + 阿里云 DashScope

开源项目 FastGpt 构建本地知识库,通过 one-api 调用非 ChatGPT 的大语言模型(为非 OpenAI 的 LLM 提供类似 ChatGPT 接口),阿里的 DashScope 有通义千问、Llmma2、通义万相、姜子牙通用大模型等 LLM 接口可供使用。

工具

参考

为什么有时候mysql不区分大小写

业务要求一个数据必须是唯一的,通过

1
select xx,count(*) from xxx group by xx

发现有重复数据,进一步发现有的其实不是重复,大小写不同,这就引出一个问题:为什么有时候mysql不区分大小写

阅读全文 »

单测

在vscode中,带_test的go源文件里的测试函数有有专门的优化,可点击”run test”,”debug test”一键测试

配置

在settings.json可以指定go buld参数如ldfalgs,gcflags等

1
2
3
4
5
6
7
8
9
10
"go.buildFlags": [
"--ldflags -r=${workspaceRoot}/lib" // works for 'debug test' but not 'run test'
// "-ldflags=-r ${workspaceRoot}/lib" // works for 'run test' but not 'debug test'
],
"go.buildTags": "linux",
"gopls": {
"build.buildFlags": [
"-tags=linux",
]
}
阅读全文 »

gopls

gopls是go官方维护的工具,提供代码提示,补全,格式化等诸多功能,之前的版本在vscode+wsl里使用,内存/cpu占
用都不小,大项目打开时容易卡顿.
在2023.9.8官方发文提到了新版本所做的优化和实现原理,更新
体验了下,确实有明显的体验提升.

使用以下命令更新

1
go install golang.org/x/tools/gopls@latest

目前最新版本是 golang.org/x/tools/gopls v0.13.2

更新内容

Reductions in memory use and startup time

减少内存占用,启动时间,官方测试了28个github上流行的项目大部分可减少60%~80%的内存占用

Across these repos, the savings average around 75%, but memory reductions are non-linear: as projects get larger, so does the relative decrease in memory usage. We’ll explain this in more detail below.

在这些存储库中,平均节省约75%,但内存减少是非线性的:随着项目变大,内存使用的相对减少也是如此

Separate compilation

之前,go原本最小的编译单位是package,为了获取import的package信息,需要将所有import的package提前编译好

在v0.12开始通过使用package summary和file-based cache优化最小编译单元,使gopls可以重用部分已编译的package

Fine-grained invalidation

在之前,对package代码做了变更后,gopls必须重新编译直接或间接import该package的package(增量构建系统的基本原理)

When you make a change in one package, it’s only necessary to recompile the packages that import that one, directly or indirectly. This idea is the basis of all incremental build systems since Make in the 1970s, and gopls has been using it since its inception

从v0.12开始,只要代码变更不影响import summary就不需要重新编译

optimize static anlysis

在此之前,gopls无法实现在内存中做太多static anlysis(会引入大量依赖,内存占用飙升)

v0.12优化内存占用后引入了新的anlysis,实现类似go vet的静态分析

参考

问题

在SpringCloud应用里使用protobuf,通过Maven编译生成对应的类,结果有一个类Idea飘红,无法跳转

1
2
3
message Position{
double x = 1;
}
  • Position正常情况下,应该生成 Position 和 PositionOrBuilder 2个类,出现的问题是Position类飘红,无法跳转

  • 安装了Idea官方插件”Protocol Buffers”,正常能从Protobuf文件中的定义跳转到生成的类上,Position只能跳转到
    PositionOrBuilder上

  • 在Protobuf文件中还定义了多个其他类,都能正常生成

结果

发现是生成的类文件过大,修改Idea配置,解决”The file size exceeds configured limit”
问题后能正常跳转了

file size exceeds configured limit

Idea菜单栏点击”Help”->”Edit custom properties” 添加下面的配置,修改文件大小限制

1
2
# custom IntelliJ IDEA properties
idea.max.intellisense.filesize=50000
阅读全文 »

Error

Error 1835: Malformed communication packet.

错误的数据包格式?

环境

  • 阿里云Serverless Mysql
  • Mysql 8.0

报错时发现DAS上显示’接入异常’,但是操作数据库写入,查询均正常,只有某个客户端用户操作报错.

几分钟后DAS状态恢复正常,未能复现

file/文件系统

dir/文件夹/目录

创建文件夹

makeDir all:

1
2
-- 传true将路径上所有子目录都会自动创建
makeDir @"c:\temp\test\deleteme\if\you\can" all:true

删除目录

maxscript 2014,2015没有提供内置函数删除目录,需要调用.net类或者外部命令删除,下面的案例使用rmDir命令删除

HiddenDOSCommand [ startpath:unsupplied] [ prompt:unsupplied] [ donotwait:false] [ ExitCode:&variable]

1
2
3
4
5
6
makeDir "C:\\doscmdtest\\"
str = "rmDir C:\\doscmdtest\\"
hiddendoscommand str startpath:"$max" exitCode:&exitcode
exitcode --> 0
hiddendoscommand str startpath:"$max" exitCode:&exitcode
exitcode --> 2 (error since directory does not exist anymore)

File Name Parsing/获取文件名,路径

filenameFromPath

filenameFromPath

返回文件名(包含后缀)

1
2
file="g:\\subdir1\\subdir2\\myImage.jpg"
filenameFromPath file -- returns: "myImage.jpg"
getFilenamePath

getFilenamePath

1
2


参考:

UI

1
2
3
4
5
6
7
8
9
10
11
12
-- 按钮,点击按钮弹窗展示一张图片
-- layout是弹出窗口的布局,只有一张图片

rollout layout "示例图"
(
bitmap bmp fileName: ("img\\example.png")
)
button displayImg "查看示例图" across:1 offset:[0,0] align:#center width:100 height:35
on displayImg pressed do
(
createDialog layout 1920 1080
)

通过命令传参

linux系统

1
2
# 通过 GOOS指定系统,GOARCH指定架构
CGO_ENABLED=0 GOOS=windows GOARCH=amd64 go build main.go

windows系统

上述命令在powershell,cmd中不可用

通过设置环境变量

1
2
3
4
5
6
7
8
9
#查看go环境变量
go env

# 设置
go env -w GOOS=windows GOARCH=amd64

# 设置完环境变量再构建

go build -o xxx xxx.go

系统,架构值参考

1
2
3
4
5
6
7
8
9
10
$GOOS         $GOARCH     
darwin 386
darwin amd64
freebsd 386
freebsd amd64
linux 386
linux amd64
linux arm
windows 386
windows amd64

参考