Tokenizers (PyTorch)¶

Install the Transformers, Datasets, and Evaluate libraries to run this notebook.

In [ ]:

!pip install datasets evaluate transformers[sentencepiece]

In [ ]:

tokenized_text = "Jim Henson was a puppeteer".split()
print(tokenized_text)

Out[ ]:

['Jim', 'Henson', 'was', 'a', 'puppeteer']

In [ ]:

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-cased")

In [ ]:

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

In [ ]:

tokenizer("Using a Transformer network is simple")

Out[ ]:

{'input_ids': [101, 7993, 170, 11303, 1200, 2443, 1110, 3014, 102],
 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0],
 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [ ]:

tokenizer.save_pretrained("directory_on_my_computer")

In [ ]:

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

sequence = "Using a Transformer network is simple"
tokens = tokenizer.tokenize(sequence)

print(tokens)

Out[ ]:

['Using', 'a', 'transform', '##er', 'network', 'is', 'simple']

In [ ]:

ids = tokenizer.convert_tokens_to_ids(tokens)

print(ids)

Out[ ]:

[7993, 170, 11303, 1200, 2443, 1110, 3014]

In [ ]:

decoded_string = tokenizer.decode([7993, 170, 11303, 1200, 2443, 1110, 3014])
print(decoded_string)

Out[ ]:

'Using a Transformer network is simple'