darknet_diaries_llm/main.py

from llama_index import (SimpleDirectoryReader, ServiceContext, StorageContext, PromptTemplate,
                         load_index_from_storage, Document, set_global_service_context)
from llama_index.node_parser import SimpleNodeParser
from llama_index import VectorStoreIndex
from llama_index.llms import OpenAI
import os
import re

llm = OpenAI(model="gpt-4", temperature=0, max_tokens=256)
service_context = ServiceContext.from_defaults(llm=llm)
set_global_service_context(service_context)

if not os.path.exists("./index/lock"):
    print("Generating index...")
    documents = []
    for filename in os.listdir("./data"):
        episode_number = re.search(r'\d+', filename).group()
        with open("./data/" + filename, 'r') as f:
            content = f.read()
        document = Document(
            text=content,
            metadata={
                "episode_number": episode_number
            }
        )

    documents = SimpleDirectoryReader('./data').load_data()
    parser = SimpleNodeParser.from_defaults()
    nodes = parser.get_nodes_from_documents(documents)

    index = VectorStoreIndex(nodes, show_progress=True)
    index.storage_context.persist(persist_dir="./index")
    open("./index/lock", 'a').close()
else:
    print("Loading index...")
    storage_context = StorageContext.from_defaults(persist_dir="./index")
    index = load_index_from_storage(storage_context)

template = (
    "You have been trained on the Darknet Diaries podcast transcripts with data from october 6 2023."
    "You are now an expert about it and will answer as such. You know about every episode up to number 138. \n"
    "----------------\n"
    "Here is the context: {context_str}"
    "----------------\n"
    "Please answer this question by referring to the podcast: {query_str}"
)
qa_template = PromptTemplate(template)
query_engine = index.as_query_engine(text_qa_template=qa_template)

while True:
    try:
        user_prompt = input("Prompt: ")
        response = query_engine.query(user_prompt)
        print(response)
    except KeyboardInterrupt:
        break
initial commit 2023-10-06 21:35:53 +02:00			`from llama_index import (SimpleDirectoryReader, ServiceContext, StorageContext, PromptTemplate,`
			`load_index_from_storage, Document, set_global_service_context)`
			`from llama_index.node_parser import SimpleNodeParser`
			`from llama_index import VectorStoreIndex`
			`from llama_index.llms import OpenAI`
			`import os`
			`import re`

Use GPT4 2023-10-06 22:52:42 +02:00			`llm = OpenAI(model="gpt-4", temperature=0, max_tokens=256)`
initial commit 2023-10-06 21:35:53 +02:00			`service_context = ServiceContext.from_defaults(llm=llm)`
			`set_global_service_context(service_context)`

			`if not os.path.exists("./index/lock"):`
Better prompt 2023-10-06 22:43:39 +02:00			`print("Generating index...")`
initial commit 2023-10-06 21:35:53 +02:00			`documents = []`
			`for filename in os.listdir("./data"):`
			`episode_number = re.search(r'\d+', filename).group()`
			`with open("./data/" + filename, 'r') as f:`
			`content = f.read()`
			`document = Document(`
			`text=content,`
			`metadata={`
			`"episode_number": episode_number`
			`}`
			`)`

			`documents = SimpleDirectoryReader('./data').load_data()`
			`parser = SimpleNodeParser.from_defaults()`
			`nodes = parser.get_nodes_from_documents(documents)`

			`index = VectorStoreIndex(nodes, show_progress=True)`
			`index.storage_context.persist(persist_dir="./index")`
			`open("./index/lock", 'a').close()`
			`else:`
Better prompt 2023-10-06 22:43:39 +02:00			`print("Loading index...")`
initial commit 2023-10-06 21:35:53 +02:00			`storage_context = StorageContext.from_defaults(persist_dir="./index")`
			`index = load_index_from_storage(storage_context)`

			`template = (`
Better prompt 2023-10-06 22:43:39 +02:00			`"You have been trained on the Darknet Diaries podcast transcripts with data from october 6 2023."`
			`"You are now an expert about it and will answer as such. You know about every episode up to number 138. \n"`
			`"----------------\n"`
			`"Here is the context: {context_str}"`
			`"----------------\n"`
			`"Please answer this question by referring to the podcast: {query_str}"`
initial commit 2023-10-06 21:35:53 +02:00			`)`
			`qa_template = PromptTemplate(template)`
			`query_engine = index.as_query_engine(text_qa_template=qa_template)`

			`while True:`
			`try:`
			`user_prompt = input("Prompt: ")`
			`response = query_engine.query(user_prompt)`
			`print(response)`
			`except KeyboardInterrupt:`
			`break`