Milvus 向量数据库使用示例 - AI创想

复制代码

from glob import glob
from tqdm import tqdm
from transformers import AutoTokenizer, AutoModel
import torch
# 使用 BERT 模型生成文本向量deftext_to_vector(text_chunk):
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModel.from_pretrained("bert-base-uncased")
inputs = tokenizer(text_chunk, return_tensors="pt", truncation=True, max_length=512)with torch.no_grad():
outputs = model(**inputs)return outputs.last_hidden_state[:,0,:].numpy().squeeze()# 分割文本文件defsplit_text_file(file_path, chunk_size=300):withopen(file_path,"r")as f:
full_text = f.read()return[full_text[i:i+chunk_size]for i inrange(0,len(full_text), chunk_size)]

复制代码

from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection
# 连接 Milvus
connections.connect(host="localhost", port="19530")# 创建集合
fields =[
FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
FieldSchema(name="file_path", dtype=DataType.VARCHAR, max_length=500),
FieldSchema(name="content", dtype=DataType.VARCHAR, max_length=2000),
FieldSchema(name="vector", dtype=DataType.FLOAT_VECTOR, dim=768)# BERT 向量维度]
schema = CollectionSchema(fields, description="文本知识库")
collection = Collection("text_knowledge", schema)# 创建索引
index_params ={"index_type":"IVF_FLAT","metric_type":"L2","params":{"nlist":256}}
collection.create_index("vector", index_params)# 批量插入数据definsert_to_milvus(folder_path):
file_chunks =[]forfilein glob(f"{folder_path}/*.txt"):
chunks = split_text_file(file)for chunk in chunks:
file_chunks.append({"file_path":file,"content": chunk,"vector": text_to_vector(chunk)})# 分批次插入（避免内存溢出）
batch_size =500for i in tqdm(range(0,len(file_chunks), batch_size)):
batch = file_chunks[i:i+batch_size]
collection.insert([[item["file_path"]for item in batch],[item["content"]for item in batch],[item["vector"].tolist()for item in batch]])
collection.flush()print(f"插入完成，总数据量：{collection.num_entities}")

复制代码

defsemantic_search(query_text, top_k=5):# 生成查询向量
query_vec = text_to_vector(query_text)# 执行搜索
search_params ={"metric_type":"L2","params":{"nprobe":32}}
results = collection.search(
data=[query_vec.tolist()],
anns_field="vector",
param=search_params,
limit=top_k,
output_fields=["file_path","content"])# 格式化输出for idx, hit inenumerate(results[0]):print(f"结果 {idx+1} (相似度: {1- hit.distance:.2f}):")print(f"文件路径: {hit.entity.get('file_path')}")print(f"内容片段: {hit.entity.get('content')[:150]}...\n")

复制代码

复制代码