An n-gram is a contiguous sequence of n items from a given sample of text or speech. An n-gram of size 1 is referred to as a "unigram"; size 2 is a "bigram" (or, less commonly, a "digram"); size 3 is a "trigram". Larger sizes are sometimes referred to by the value of n in modern language, e.g., "four-gram", "five-gram", and so on.
#import necessary modules
from nltk.tokenize.punkt import PunktLanguageVars
from nltk.util import bigrams
from nltk.util import trigrams
from nltk.util import ngrams
#declaring sentence and tokenizing it
s = 'Ut primum nocte discussa sol novus diem fecit, et somno simul emersus et lectulo, anxius alioquin et nimis cupidus cognoscendi quae rara miraque sunt, reputansque me media Thessaliae loca tenere qua artis magicae nativa cantamina totius orbis consono orbe celebrentur fabulamque illam optimi comitis Aristomenis de situ civitatis huius exortam, suspensus alioquin et voto simul et studio, curiose singula considerabam. Nec fuit in illa civitate quod aspiciens id esse crederem quod esset, sed omnia prorsus ferali murmure in aliam effigiem translata, ut et lapides quos offenderem de homine duratos et aves quas audirem indidem plumatas et arbores quae pomerium ambirent similiter foliatas et fontanos latices de corporibus humanis fluxos crederem; iam statuas et imagines incessuras, parietes locuturos, boves et id genus pecua dicturas praesagium, de ipso vero caelo et iubaris orbe subito venturum oraculum.'.lower()
p = PunktLanguageVars()
tokens = p.word_tokenize(s)
#using bigrams(2 words at a time)
b = bigrams(tokens)
[x for x in b]
[('ut', 'primum'), ('primum', 'nocte'), ('nocte', 'discussa'), ('discussa', 'sol'), ('sol', 'novus'), ('novus', 'diem'), ('diem', 'fecit'), ('fecit', ','), (',', 'et'), ('et', 'somno'), ('somno', 'simul'), ('simul', 'emersus'), ('emersus', 'et'), ('et', 'lectulo'), ('lectulo', ','), (',', 'anxius'), ('anxius', 'alioquin'), ('alioquin', 'et'), ('et', 'nimis'), ('nimis', 'cupidus'), ('cupidus', 'cognoscendi'), ('cognoscendi', 'quae'), ('quae', 'rara'), ('rara', 'miraque'), ('miraque', 'sunt'), ('sunt', ','), (',', 'reputansque'), ('reputansque', 'me'), ('me', 'media'), ('media', 'thessaliae'), ('thessaliae', 'loca'), ('loca', 'tenere'), ('tenere', 'qua'), ('qua', 'artis'), ('artis', 'magicae'), ('magicae', 'nativa'), ('nativa', 'cantamina'), ('cantamina', 'totius'), ('totius', 'orbis'), ('orbis', 'consono'), ('consono', 'orbe'), ('orbe', 'celebrentur'), ('celebrentur', 'fabulamque'), ('fabulamque', 'illam'), ('illam', 'optimi'), ('optimi', 'comitis'), ('comitis', 'aristomenis'), ('aristomenis', 'de'), ('de', 'situ'), ('situ', 'civitatis'), ('civitatis', 'huius'), ('huius', 'exortam'), ('exortam', ','), (',', 'suspensus'), ('suspensus', 'alioquin'), ('alioquin', 'et'), ('et', 'voto'), ('voto', 'simul'), ('simul', 'et'), ('et', 'studio'), ('studio', ','), (',', 'curiose'), ('curiose', 'singula'), ('singula', 'considerabam.'), ('considerabam.', 'nec'), ('nec', 'fuit'), ('fuit', 'in'), ('in', 'illa'), ('illa', 'civitate'), ('civitate', 'quod'), ('quod', 'aspiciens'), ('aspiciens', 'id'), ('id', 'esse'), ('esse', 'crederem'), ('crederem', 'quod'), ('quod', 'esset'), ('esset', ','), (',', 'sed'), ('sed', 'omnia'), ('omnia', 'prorsus'), ('prorsus', 'ferali'), ('ferali', 'murmure'), ('murmure', 'in'), ('in', 'aliam'), ('aliam', 'effigiem'), ('effigiem', 'translata'), ('translata', ','), (',', 'ut'), ('ut', 'et'), ('et', 'lapides'), ('lapides', 'quos'), ('quos', 'offenderem'), ('offenderem', 'de'), ('de', 'homine'), ('homine', 'duratos'), ('duratos', 'et'), ('et', 'aves'), ('aves', 'quas'), ('quas', 'audirem'), ('audirem', 'indidem'), ('indidem', 'plumatas'), ('plumatas', 'et'), ('et', 'arbores'), ('arbores', 'quae'), ('quae', 'pomerium'), ('pomerium', 'ambirent'), ('ambirent', 'similiter'), ('similiter', 'foliatas'), ('foliatas', 'et'), ('et', 'fontanos'), ('fontanos', 'latices'), ('latices', 'de'), ('de', 'corporibus'), ('corporibus', 'humanis'), ('humanis', 'fluxos'), ('fluxos', 'crederem'), ('crederem', ';'), (';', 'iam'), ('iam', 'statuas'), ('statuas', 'et'), ('et', 'imagines'), ('imagines', 'incessuras'), ('incessuras', ','), (',', 'parietes'), ('parietes', 'locuturos'), ('locuturos', ','), (',', 'boves'), ('boves', 'et'), ('et', 'id'), ('id', 'genus'), ('genus', 'pecua'), ('pecua', 'dicturas'), ('dicturas', 'praesagium'), ('praesagium', ','), (',', 'de'), ('de', 'ipso'), ('ipso', 'vero'), ('vero', 'caelo'), ('caelo', 'et'), ('et', 'iubaris'), ('iubaris', 'orbe'), ('orbe', 'subito'), ('subito', 'venturum'), ('venturum', 'oraculum.')]
#using trigrams(3 words at a time)
t = trigrams(tokens)
[x for x in t]
[('ut', 'primum', 'nocte'), ('primum', 'nocte', 'discussa'), ('nocte', 'discussa', 'sol'), ('discussa', 'sol', 'novus'), ('sol', 'novus', 'diem'), ('novus', 'diem', 'fecit'), ('diem', 'fecit', ','), ('fecit', ',', 'et'), (',', 'et', 'somno'), ('et', 'somno', 'simul'), ('somno', 'simul', 'emersus'), ('simul', 'emersus', 'et'), ('emersus', 'et', 'lectulo'), ('et', 'lectulo', ','), ('lectulo', ',', 'anxius'), (',', 'anxius', 'alioquin'), ('anxius', 'alioquin', 'et'), ('alioquin', 'et', 'nimis'), ('et', 'nimis', 'cupidus'), ('nimis', 'cupidus', 'cognoscendi'), ('cupidus', 'cognoscendi', 'quae'), ('cognoscendi', 'quae', 'rara'), ('quae', 'rara', 'miraque'), ('rara', 'miraque', 'sunt'), ('miraque', 'sunt', ','), ('sunt', ',', 'reputansque'), (',', 'reputansque', 'me'), ('reputansque', 'me', 'media'), ('me', 'media', 'thessaliae'), ('media', 'thessaliae', 'loca'), ('thessaliae', 'loca', 'tenere'), ('loca', 'tenere', 'qua'), ('tenere', 'qua', 'artis'), ('qua', 'artis', 'magicae'), ('artis', 'magicae', 'nativa'), ('magicae', 'nativa', 'cantamina'), ('nativa', 'cantamina', 'totius'), ('cantamina', 'totius', 'orbis'), ('totius', 'orbis', 'consono'), ('orbis', 'consono', 'orbe'), ('consono', 'orbe', 'celebrentur'), ('orbe', 'celebrentur', 'fabulamque'), ('celebrentur', 'fabulamque', 'illam'), ('fabulamque', 'illam', 'optimi'), ('illam', 'optimi', 'comitis'), ('optimi', 'comitis', 'aristomenis'), ('comitis', 'aristomenis', 'de'), ('aristomenis', 'de', 'situ'), ('de', 'situ', 'civitatis'), ('situ', 'civitatis', 'huius'), ('civitatis', 'huius', 'exortam'), ('huius', 'exortam', ','), ('exortam', ',', 'suspensus'), (',', 'suspensus', 'alioquin'), ('suspensus', 'alioquin', 'et'), ('alioquin', 'et', 'voto'), ('et', 'voto', 'simul'), ('voto', 'simul', 'et'), ('simul', 'et', 'studio'), ('et', 'studio', ','), ('studio', ',', 'curiose'), (',', 'curiose', 'singula'), ('curiose', 'singula', 'considerabam.'), ('singula', 'considerabam.', 'nec'), ('considerabam.', 'nec', 'fuit'), ('nec', 'fuit', 'in'), ('fuit', 'in', 'illa'), ('in', 'illa', 'civitate'), ('illa', 'civitate', 'quod'), ('civitate', 'quod', 'aspiciens'), ('quod', 'aspiciens', 'id'), ('aspiciens', 'id', 'esse'), ('id', 'esse', 'crederem'), ('esse', 'crederem', 'quod'), ('crederem', 'quod', 'esset'), ('quod', 'esset', ','), ('esset', ',', 'sed'), (',', 'sed', 'omnia'), ('sed', 'omnia', 'prorsus'), ('omnia', 'prorsus', 'ferali'), ('prorsus', 'ferali', 'murmure'), ('ferali', 'murmure', 'in'), ('murmure', 'in', 'aliam'), ('in', 'aliam', 'effigiem'), ('aliam', 'effigiem', 'translata'), ('effigiem', 'translata', ','), ('translata', ',', 'ut'), (',', 'ut', 'et'), ('ut', 'et', 'lapides'), ('et', 'lapides', 'quos'), ('lapides', 'quos', 'offenderem'), ('quos', 'offenderem', 'de'), ('offenderem', 'de', 'homine'), ('de', 'homine', 'duratos'), ('homine', 'duratos', 'et'), ('duratos', 'et', 'aves'), ('et', 'aves', 'quas'), ('aves', 'quas', 'audirem'), ('quas', 'audirem', 'indidem'), ('audirem', 'indidem', 'plumatas'), ('indidem', 'plumatas', 'et'), ('plumatas', 'et', 'arbores'), ('et', 'arbores', 'quae'), ('arbores', 'quae', 'pomerium'), ('quae', 'pomerium', 'ambirent'), ('pomerium', 'ambirent', 'similiter'), ('ambirent', 'similiter', 'foliatas'), ('similiter', 'foliatas', 'et'), ('foliatas', 'et', 'fontanos'), ('et', 'fontanos', 'latices'), ('fontanos', 'latices', 'de'), ('latices', 'de', 'corporibus'), ('de', 'corporibus', 'humanis'), ('corporibus', 'humanis', 'fluxos'), ('humanis', 'fluxos', 'crederem'), ('fluxos', 'crederem', ';'), ('crederem', ';', 'iam'), (';', 'iam', 'statuas'), ('iam', 'statuas', 'et'), ('statuas', 'et', 'imagines'), ('et', 'imagines', 'incessuras'), ('imagines', 'incessuras', ','), ('incessuras', ',', 'parietes'), (',', 'parietes', 'locuturos'), ('parietes', 'locuturos', ','), ('locuturos', ',', 'boves'), (',', 'boves', 'et'), ('boves', 'et', 'id'), ('et', 'id', 'genus'), ('id', 'genus', 'pecua'), ('genus', 'pecua', 'dicturas'), ('pecua', 'dicturas', 'praesagium'), ('dicturas', 'praesagium', ','), ('praesagium', ',', 'de'), (',', 'de', 'ipso'), ('de', 'ipso', 'vero'), ('ipso', 'vero', 'caelo'), ('vero', 'caelo', 'et'), ('caelo', 'et', 'iubaris'), ('et', 'iubaris', 'orbe'), ('iubaris', 'orbe', 'subito'), ('orbe', 'subito', 'venturum'), ('subito', 'venturum', 'oraculum.')]
#using ngrams(n words at a time)
five_gram = ngrams(tokens, 5)
[x for x in five_gram]
[('ut', 'primum', 'nocte', 'discussa', 'sol'), ('primum', 'nocte', 'discussa', 'sol', 'novus'), ('nocte', 'discussa', 'sol', 'novus', 'diem'), ('discussa', 'sol', 'novus', 'diem', 'fecit'), ('sol', 'novus', 'diem', 'fecit', ','), ('novus', 'diem', 'fecit', ',', 'et'), ('diem', 'fecit', ',', 'et', 'somno'), ('fecit', ',', 'et', 'somno', 'simul'), (',', 'et', 'somno', 'simul', 'emersus'), ('et', 'somno', 'simul', 'emersus', 'et'), ('somno', 'simul', 'emersus', 'et', 'lectulo'), ('simul', 'emersus', 'et', 'lectulo', ','), ('emersus', 'et', 'lectulo', ',', 'anxius'), ('et', 'lectulo', ',', 'anxius', 'alioquin'), ('lectulo', ',', 'anxius', 'alioquin', 'et'), (',', 'anxius', 'alioquin', 'et', 'nimis'), ('anxius', 'alioquin', 'et', 'nimis', 'cupidus'), ('alioquin', 'et', 'nimis', 'cupidus', 'cognoscendi'), ('et', 'nimis', 'cupidus', 'cognoscendi', 'quae'), ('nimis', 'cupidus', 'cognoscendi', 'quae', 'rara'), ('cupidus', 'cognoscendi', 'quae', 'rara', 'miraque'), ('cognoscendi', 'quae', 'rara', 'miraque', 'sunt'), ('quae', 'rara', 'miraque', 'sunt', ','), ('rara', 'miraque', 'sunt', ',', 'reputansque'), ('miraque', 'sunt', ',', 'reputansque', 'me'), ('sunt', ',', 'reputansque', 'me', 'media'), (',', 'reputansque', 'me', 'media', 'thessaliae'), ('reputansque', 'me', 'media', 'thessaliae', 'loca'), ('me', 'media', 'thessaliae', 'loca', 'tenere'), ('media', 'thessaliae', 'loca', 'tenere', 'qua'), ('thessaliae', 'loca', 'tenere', 'qua', 'artis'), ('loca', 'tenere', 'qua', 'artis', 'magicae'), ('tenere', 'qua', 'artis', 'magicae', 'nativa'), ('qua', 'artis', 'magicae', 'nativa', 'cantamina'), ('artis', 'magicae', 'nativa', 'cantamina', 'totius'), ('magicae', 'nativa', 'cantamina', 'totius', 'orbis'), ('nativa', 'cantamina', 'totius', 'orbis', 'consono'), ('cantamina', 'totius', 'orbis', 'consono', 'orbe'), ('totius', 'orbis', 'consono', 'orbe', 'celebrentur'), ('orbis', 'consono', 'orbe', 'celebrentur', 'fabulamque'), ('consono', 'orbe', 'celebrentur', 'fabulamque', 'illam'), ('orbe', 'celebrentur', 'fabulamque', 'illam', 'optimi'), ('celebrentur', 'fabulamque', 'illam', 'optimi', 'comitis'), ('fabulamque', 'illam', 'optimi', 'comitis', 'aristomenis'), ('illam', 'optimi', 'comitis', 'aristomenis', 'de'), ('optimi', 'comitis', 'aristomenis', 'de', 'situ'), ('comitis', 'aristomenis', 'de', 'situ', 'civitatis'), ('aristomenis', 'de', 'situ', 'civitatis', 'huius'), ('de', 'situ', 'civitatis', 'huius', 'exortam'), ('situ', 'civitatis', 'huius', 'exortam', ','), ('civitatis', 'huius', 'exortam', ',', 'suspensus'), ('huius', 'exortam', ',', 'suspensus', 'alioquin'), ('exortam', ',', 'suspensus', 'alioquin', 'et'), (',', 'suspensus', 'alioquin', 'et', 'voto'), ('suspensus', 'alioquin', 'et', 'voto', 'simul'), ('alioquin', 'et', 'voto', 'simul', 'et'), ('et', 'voto', 'simul', 'et', 'studio'), ('voto', 'simul', 'et', 'studio', ','), ('simul', 'et', 'studio', ',', 'curiose'), ('et', 'studio', ',', 'curiose', 'singula'), ('studio', ',', 'curiose', 'singula', 'considerabam.'), (',', 'curiose', 'singula', 'considerabam.', 'nec'), ('curiose', 'singula', 'considerabam.', 'nec', 'fuit'), ('singula', 'considerabam.', 'nec', 'fuit', 'in'), ('considerabam.', 'nec', 'fuit', 'in', 'illa'), ('nec', 'fuit', 'in', 'illa', 'civitate'), ('fuit', 'in', 'illa', 'civitate', 'quod'), ('in', 'illa', 'civitate', 'quod', 'aspiciens'), ('illa', 'civitate', 'quod', 'aspiciens', 'id'), ('civitate', 'quod', 'aspiciens', 'id', 'esse'), ('quod', 'aspiciens', 'id', 'esse', 'crederem'), ('aspiciens', 'id', 'esse', 'crederem', 'quod'), ('id', 'esse', 'crederem', 'quod', 'esset'), ('esse', 'crederem', 'quod', 'esset', ','), ('crederem', 'quod', 'esset', ',', 'sed'), ('quod', 'esset', ',', 'sed', 'omnia'), ('esset', ',', 'sed', 'omnia', 'prorsus'), (',', 'sed', 'omnia', 'prorsus', 'ferali'), ('sed', 'omnia', 'prorsus', 'ferali', 'murmure'), ('omnia', 'prorsus', 'ferali', 'murmure', 'in'), ('prorsus', 'ferali', 'murmure', 'in', 'aliam'), ('ferali', 'murmure', 'in', 'aliam', 'effigiem'), ('murmure', 'in', 'aliam', 'effigiem', 'translata'), ('in', 'aliam', 'effigiem', 'translata', ','), ('aliam', 'effigiem', 'translata', ',', 'ut'), ('effigiem', 'translata', ',', 'ut', 'et'), ('translata', ',', 'ut', 'et', 'lapides'), (',', 'ut', 'et', 'lapides', 'quos'), ('ut', 'et', 'lapides', 'quos', 'offenderem'), ('et', 'lapides', 'quos', 'offenderem', 'de'), ('lapides', 'quos', 'offenderem', 'de', 'homine'), ('quos', 'offenderem', 'de', 'homine', 'duratos'), ('offenderem', 'de', 'homine', 'duratos', 'et'), ('de', 'homine', 'duratos', 'et', 'aves'), ('homine', 'duratos', 'et', 'aves', 'quas'), ('duratos', 'et', 'aves', 'quas', 'audirem'), ('et', 'aves', 'quas', 'audirem', 'indidem'), ('aves', 'quas', 'audirem', 'indidem', 'plumatas'), ('quas', 'audirem', 'indidem', 'plumatas', 'et'), ('audirem', 'indidem', 'plumatas', 'et', 'arbores'), ('indidem', 'plumatas', 'et', 'arbores', 'quae'), ('plumatas', 'et', 'arbores', 'quae', 'pomerium'), ('et', 'arbores', 'quae', 'pomerium', 'ambirent'), ('arbores', 'quae', 'pomerium', 'ambirent', 'similiter'), ('quae', 'pomerium', 'ambirent', 'similiter', 'foliatas'), ('pomerium', 'ambirent', 'similiter', 'foliatas', 'et'), ('ambirent', 'similiter', 'foliatas', 'et', 'fontanos'), ('similiter', 'foliatas', 'et', 'fontanos', 'latices'), ('foliatas', 'et', 'fontanos', 'latices', 'de'), ('et', 'fontanos', 'latices', 'de', 'corporibus'), ('fontanos', 'latices', 'de', 'corporibus', 'humanis'), ('latices', 'de', 'corporibus', 'humanis', 'fluxos'), ('de', 'corporibus', 'humanis', 'fluxos', 'crederem'), ('corporibus', 'humanis', 'fluxos', 'crederem', ';'), ('humanis', 'fluxos', 'crederem', ';', 'iam'), ('fluxos', 'crederem', ';', 'iam', 'statuas'), ('crederem', ';', 'iam', 'statuas', 'et'), (';', 'iam', 'statuas', 'et', 'imagines'), ('iam', 'statuas', 'et', 'imagines', 'incessuras'), ('statuas', 'et', 'imagines', 'incessuras', ','), ('et', 'imagines', 'incessuras', ',', 'parietes'), ('imagines', 'incessuras', ',', 'parietes', 'locuturos'), ('incessuras', ',', 'parietes', 'locuturos', ','), (',', 'parietes', 'locuturos', ',', 'boves'), ('parietes', 'locuturos', ',', 'boves', 'et'), ('locuturos', ',', 'boves', 'et', 'id'), (',', 'boves', 'et', 'id', 'genus'), ('boves', 'et', 'id', 'genus', 'pecua'), ('et', 'id', 'genus', 'pecua', 'dicturas'), ('id', 'genus', 'pecua', 'dicturas', 'praesagium'), ('genus', 'pecua', 'dicturas', 'praesagium', ','), ('pecua', 'dicturas', 'praesagium', ',', 'de'), ('dicturas', 'praesagium', ',', 'de', 'ipso'), ('praesagium', ',', 'de', 'ipso', 'vero'), (',', 'de', 'ipso', 'vero', 'caelo'), ('de', 'ipso', 'vero', 'caelo', 'et'), ('ipso', 'vero', 'caelo', 'et', 'iubaris'), ('vero', 'caelo', 'et', 'iubaris', 'orbe'), ('caelo', 'et', 'iubaris', 'orbe', 'subito'), ('et', 'iubaris', 'orbe', 'subito', 'venturum'), ('iubaris', 'orbe', 'subito', 'venturum', 'oraculum.')]