darknet_diaries_llm/download_transcripts.py

import requests
import os
from bs4 import BeautifulSoup
import json

folder_path = "transcripts"

if not os.path.exists(folder_path):
    os.makedirs(folder_path)

for i in range(1, 139):
    try:
        url = f"https://darknetdiaries.com/transcript/{i}"
        r = requests.get(url)
        soup = BeautifulSoup(r.text, 'html.parser')

        transcript = soup.find('pre').get_text()

        url = f"https://api.darknetdiaries.com/{i}.json"
        r = requests.get(url)
        parsed_json = json.loads(r.text)
        title = parsed_json["episode_name"]
        number = parsed_json["episode_number"]
        downloads = parsed_json["total_downloads"]

        with open(f"{folder_path}/episode_{number}.txt", "w") as f:
            f.write(f"{title}\n{downloads}\n{transcript}")
        print(f"{number} {title}")
    except Exception:
        print(f"Failed scraping episode {i}")
initial commit 2023-10-06 21:35:53 +02:00			`import requests`
document metadata 2023-10-07 00:30:46 +02:00			`import os`
initial commit 2023-10-06 21:35:53 +02:00			`from bs4 import BeautifulSoup`
Use DnD API 2023-10-07 08:32:07 +02:00			`import json`
initial commit 2023-10-06 21:35:53 +02:00
document metadata 2023-10-07 00:30:46 +02:00			`folder_path = "transcripts"`

			`if not os.path.exists(folder_path):`
			`os.makedirs(folder_path)`

initial commit 2023-10-06 21:35:53 +02:00			`for i in range(1, 139):`
Use DnD API 2023-10-07 08:32:07 +02:00			`try:`
			`url = f"https://darknetdiaries.com/transcript/{i}"`
			`r = requests.get(url)`
			`soup = BeautifulSoup(r.text, 'html.parser')`
initial commit 2023-10-06 21:35:53 +02:00
Use DnD API 2023-10-07 08:32:07 +02:00			`transcript = soup.find('pre').get_text()`
Added more metadata 2023-10-07 00:57:45 +02:00
Use DnD API 2023-10-07 08:32:07 +02:00			`url = f"https://api.darknetdiaries.com/{i}.json"`
			`r = requests.get(url)`
			`parsed_json = json.loads(r.text)`
			`title = parsed_json["episode_name"]`
			`number = parsed_json["episode_number"]`
			`downloads = parsed_json["total_downloads"]`
Added more metadata 2023-10-07 00:57:45 +02:00
Use DnD API 2023-10-07 08:32:07 +02:00			`with open(f"{folder_path}/episode_{number}.txt", "w") as f:`
			`f.write(f"{title}\n{downloads}\n{transcript}")`
			`print(f"{number} {title}")`
			`except Exception:`
			`print(f"Failed scraping episode {i}")`