# !pip install arxiv
# !pip install evaluate

import google.colab as colab
colab.auth.authenticate_user()

from utils import get_arxiv_data

df = get_arxiv_data()

df.head(2)

from sklearn.preprocessing import LabelEncoder

labeler  = LabelEncoder()
df = df.assign(label=labeler.fit_transform(df["code"]))

df.head(2)

{v:k for k,v in enumerate(labeler.classes_)}

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
                                            df["text"],
                                            df["label"],
                                            test_size=0.15,
                                            random_state=42,
                                            stratify=df["label"])

X_train, X_val, y_train, y_val = train_test_split(X_train,
                                                  y_train,
                                                  test_size=0.20,
                                                  random_state=42,
                                                  stratify=y_train)

X_train.shape, X_val.shape, X_test.shape

from utils import plot_target_distribution_combined
plot_target_distribution_combined(y_train, y_val, y_test)

import pandas as pd
from datasets import Dataset

# train
(Dataset.from_pandas(
              pd.DataFrame({"text": X_train, "label": y_train}),
              preserve_index=False)
        .save_to_disk("gs://harmon-arxiv/train_abstracts")
)

# validation
(Dataset.from_pandas(
              pd.DataFrame({"text": X_val, "label": y_val}),
              preserve_index=False)
        .save_to_disk("gs://harmon-arxiv/val_abstracts")
)

# test
(Dataset.from_pandas(
              pd.DataFrame({"text": X_test, "label": y_test}),
              preserve_index=False)
        .save_to_disk("gs://harmon-arxiv/test_abstracts")
)

# PyTorch imports
import torch
from torch.utils.data import DataLoader
from torch.optim import AdamW

# Hugging Face imports
import transformers
from transformers import AutoTokenizer, AutoModelForSequenceClassification, DataCollatorWithPadding
from datasets import Dataset, DatasetDict, load_from_disk
import evaluate

train_dataset = load_from_disk("gs://harmon-arxiv/train_abstracts")
val_dataset = load_from_disk("gs://harmon-arxiv/val_abstracts")
test_dataset = load_from_disk("gs://harmon-arxiv/test_abstracts")

dataset_dict = DatasetDict({
    "train": train_dataset,
    "validation": val_dataset,
    "test": test_dataset
})

checkpoint = "google-bert/bert-base-uncased"
device="cuda"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=3)
model = model.to(device)

def tokenize_function(example):
    return tokenizer(example["text"], truncation=True)

tokenized_datasets = dataset_dict.map(tokenize_function, batched=True)

data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

tokenized_datasets = tokenized_datasets.remove_columns("text")
tokenized_datasets = tokenized_datasets.rename_column("label", "labels")

tokenized_datasets = tokenized_datasets.with_format("torch")

from huggingface_hub import notebook_login
notebook_login()

from typing import Tuple
import numpy as np

def compute_metrics(eval_preds):
    roc_auc_score = evaluate.load("roc_auc", "multiclass")
    preds, labels = eval_preds
    scores = torch.nn.functional.softmax(torch.tensor(preds), dim=-1)

    return roc_auc_score.compute(prediction_scores=scores, references=labels, multi_class="ovr")

from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="./results",
    learning_rate=1e-4,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=8,
    num_train_epochs=5,
    weight_decay=0.01,
    eval_strategy="epoch",
    logging_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    push_to_hub=True,
    hub_model_id="mdh266/arxivist",
    report_to="none"
)

from transformers import Trainer

trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    processing_class=tokenizer,
    compute_metrics=compute_metrics
)

output = trainer.train()

trainer.push_to_hub("mdh266/arxivist")

model = trainer.model

model.config.label2id = {v:k for k,v in enumerate(['Artificial Intelligence','Information Retrieval', 'Robotics'])}
model.config.id2label = {k:v for k,v in enumerate(['Artificial Intelligence','Information Retrieval', 'Robotics'])}
# push to model hub
model.push_to_hub("mdh266/arxivist")

tokenizer = trainer.processing_class
tokenizer.push_to_hub("mdh266/arxivist")

from transformers import pipeline

classifier = pipeline("text-classification", model="mdh266/arxivist")

# https://arxiv.org/abs/2508.06296
# artificial intelligence
with open("../texts/ai.txt", "r") as f:
    text = f.read()

classifier(text)

# https://arxiv.org/abs/2508.05633
# information retrieval
with open("../texts/ir.txt", "r") as f:
    text = f.read()

classifier(text)

classifier(test_df["text"].sample(2).to_list())

from typing import Dict
import numpy as np
from torch.utils.data import DataLoader

def calculate_roc_auc(model, loader: DataLoader) -> Dict[str, np.float64]:

  roc_auc_score = evaluate.load("roc_auc", "multiclass")
  model.eval()
  for batch in loader:
      batch = {k: v.to(device) for k, v in batch.items()}
      with torch.no_grad():
          outputs = model(**batch)
          scores = torch.nn.functional.softmax(outputs.logits, dim=-1)
          roc_auc_score.add_batch(references=batch["labels"],
                                prediction_scores=scores)

  return roc_auc_score.compute(multi_class="ovr")

model = classifier.model

testset_dataloader = DataLoader(
    tokenized_datasets["test"], batch_size=8, collate_fn=data_collator
)

calculate_roc_auc(model, testset_dataloader)

	id	code	text
0	http://arxiv.org/abs/cs/9308101v1	cs.AI	Because of their occasional need to return to shallow points in a search ...
1	http://arxiv.org/abs/cs/9308102v1	cs.AI	Market price systems constitute a well-understood class of mechanisms that ...

	id	code	text	label
0	http://arxiv.org/abs/cs/9308101v1	cs.AI	Because of their occasional need to return to shallow points in a search ...	0
1	http://arxiv.org/abs/cs/9308102v1	cs.AI	Market price systems constitute a well-understood class of mechanisms that ...	0

Text Classification 5: Fine Tuning BERT With HuggingFace¶

1. Introduction ¶

2. Collecting The Data ¶

3. HuggingFace Datasets, Tokenizers & Models ¶

4. Fine Tuning BERT and Hugging Face Model Hub ¶

5. Using the model With Hugging Face Pipelines ¶

6. Next Steps ¶