Step 2: Data processing¶

Setup¶

In [1]:

supressWarnings <- function(expr) suppressPackageStartupMessages(suppressWarnings(suppressMessages(expr)))
supressWarnings({
    library(tidyverse);
    library(httr);
    library(jsonlite);
    library(glue);
    library(plyr);
    library(tictoc)
})

options(digits = 3, scipen = 50)

In [2]:

cx_data <- read.delim('secrets/cx_data_raw.tsv', sep='\t')

Further data gathering¶

machine translation availability data¶

is_mt_available for a given language pair

In [3]:

check_mt_availability <- function(lang1, lang2) {
    url <- glue('https://cxserver.wikimedia.org/v1/list/mt/{lang1}/{lang2}')
    response <- GET(url)
    services <- fromJSON(content(response, 'text'))
    
    if(length(services) > 0){
        return(TRUE)
    } else {
        return(FALSE)
    }
}

In [5]:

cx_data <- (
    cx_data %>%
    mutate(
        source_lang_code = sub("wiki", "", source_db),
        target_lang_code = sub("wiki", "", target_db)
    )
)

In [ ]:

lang_pairs <- (
    cx_data %>%
    select(source_lang_code, target_lang_code) %>%
    distinct()
)

tic()
lang_pairs$is_mt_available <- mapply(check_mt_availability, lang_pairs$source_lang_code, lang_pairs$target_lang_code)
toc()

write.table(lang_pairs, "mt_availability.tsv", sep = "\t", row.names = FALSE, quote = FALSE)

In [3]:

lang_pairs <- read.delim('mt_availability.tsv', sep='\t')

In [6]:

cx_data <- merge(cx_data, lang_pairs, 
                 by.x = c('source_lang_code', 'target_lang_code'), 
                 by.y = c('source_lang_code', 'target_lang_code'))

wiki-comparision data¶

Wiki-comparision data provides comparative ranking of wikis by their size, which can be used to get size rank of source and target WPs of the translation.

In [7]:

wiki_comp_path <- 'https://raw.githubusercontent.com/wikimedia-research/wiki-comparison/main/data-collection/snapshots/Jan_2024.tsv'
wiki_comp <- read.delim(wiki_comp_path, sep='\t')

wp_comp <- wiki_comp[, c('database.code', 'overall.size.rank', 'project.code')]
wp_comp <- wp_comp[wp_comp$project.code == 'wikipedia', ]
wp_comp = (
    wp_comp %>%
    mutate(overall.size.rank = seq_along(overall.size.rank))
)

In [8]:

rank_bin_edges <- c(0, 5, 10, 20, 50, Inf)
rank_bin_labels <- c('1-5', '6-10', '11-20', '21-50', '51-max')

# bin target wikipedia
wp_comp$target_wp_rank_bin <- cut(
  wp_comp$overall.size.rank,
  breaks = rank_bin_edges,
  labels = rank_bin_labels,
  include.lowest = TRUE
)

# bin source wikipedia
wp_comp$source_wp_rank_bin <- cut(
  wp_comp$overall.size.rank,
  breaks = rank_bin_edges,
  labels = rank_bin_labels,
  include.lowest = TRUE
)

In [9]:

cx_data <- merge(cx_data, wp_comp[, c('database.code', 'target_wp_rank_bin')], by.x='target_db', by.y='database.code')
cx_data <- merge(cx_data, wp_comp[, c('database.code', 'source_wp_rank_bin')], by.x='source_db', by.y='database.code')

duration_mins¶

In [10]:

cx_data <- (
    cx_data %>%
    mutate(
        cx_start_ts = as.POSIXct(as.character(cx_start_ts), format = '%Y%m%d%H%M%S', tz = 'UTC'),
        cx_update_ts = as.POSIXct(as.character(cx_update_ts), format = '%Y%m%d%H%M%S', tz = 'UTC')
    )
)

cx_data$duration_mins <- as.numeric(difftime(cx_data$cx_update_ts, cx_data$cx_start_ts, units = 'min'))

Data processing¶

Null values¶

In [11]:

nulls <- data.frame(
    col = names(colSums(is.na(cx_data))),
    null_count = colSums(is.na(cx_data))
) %>% filter(null_count > 0)

nulls

A data.frame: 6 × 2
	col	null_count
	<chr>	<dbl>
target_bytes	target_bytes	35
time_since_prev_edit	time_since_prev_edit	12663
source_quality	source_quality	4120
is_source_std_quality	is_source_std_quality	3563
target_quality	target_quality	37239
is_target_std_quality	is_target_std_quality	31326

Summary

The major columns that have a lot of null values are time_since_prev_edit & is_target_std_quality, which will be explored and addressed below.
Although source_quality and target_quality data has been gathered, they won't used in the final analysis, so the null values in those columns are not of a concern.
They are only a few null values in target_bytes and is_source_std_quality columns, which will be omitted during the final export.

time_since_prev_edit¶

In [12]:

prev_edit_nulls <- cx_data[is.na(cx_data$time_since_prev_edit), ]
paste('Number of observations having null values for time since previous edit:', nrow(prev_edit_nulls))
paste('^ of the above number of observations belonging to users making the first edit:', table(prev_edit_nulls$is_first_edit)[['True']])

'Number of observations having null values for time since previous edit: 12663'

'^ of the above number of observations belonging to users making the first edit: 12663'

All of the null values in the time_since_prev_edit column is the because the edit was the first edit by user. The null will be replaced with 0.

In [13]:

cx_data <- cx_data %>% mutate(time_since_prev_edit = coalesce(time_since_prev_edit, 0))

is_target_std_quality¶

the null values will be filled based on the is_page_deleted. Most of them are due to the page being already deleted by the time content gap metrics were calculated.

In [14]:

cx_data <- cx_data %>% 
    mutate(is_target_std_quality = if_else(is.na(is_target_std_quality), 
                                           if_else(is_page_deleted == 'True', 0, 1), 
                                           is_target_std_quality))

In [15]:

final_cols <- c(
    # unique identifier
    'target_rev_id',  
    
    # source article related variables
    'source_bytes', 'is_source_std_quality', 'is_source_human', 'source_wp_rank_bin',
    
    # target article related variables
    'target_bytes', 'is_target_std_quality', 'target_wp_rank_bin',
    
    # translation related variables
    'is_mt_available', 'mt_pct', 'human_pct', 'duration_mins', 'is_mobile_edit',
    
    # user related variables
    'is_first_edit', 'user_edit_bucket', 'user_rights_level', 'time_since_prev_edit',
    
    # translations by user in preceeding time frames
    'creations_1hr', 'creations_6hr', 'creations_24hr', 'creations_72hr', 
    'creations_7days','creations_15days', 'creations_30days',
    
    # outcome variable
    'is_page_deleted')

In [16]:

cx_data_final <- cx_data[, final_cols]

In [23]:

names(cx_data_final)[names(cx_data_final) == 'time_since_prev_edit'] <- 'secs_since_prev_edit'

Ensure data-types¶

logical¶

In [25]:

convert_to_logical <- function(values) {
    return(
        as.logical(ifelse((values == 'True' | values == 1), TRUE, ifelse((values == 'False' | values == 0), FALSE, NA)))
    )
}

In [26]:

logical_cols <- c('is_source_std_quality', 'is_source_human', 'is_target_std_quality', 
                 'is_mt_available', 'is_first_edit', 'is_mobile_edit', 'is_page_deleted')

for (col in logical_cols) {
    cx_data_final[[col]] <- convert_to_logical(cx_data_final[[col]])
}

ordered categorical¶

In [27]:

edit_buckets <- c('1-10', '11-99', '100-999', '1000-4999', '5000+')
wp_ranks <- c('1-5', '6-10', '11-20', '21-50', '51-max')
user_rights <- c('none', 'confirmed', 'extended')

cx_data_final <- (
    cx_data_final %>%
    mutate(
        source_wp_rank_bin = factor(source_wp_rank_bin, levels = wp_ranks, ordered = TRUE),
        target_wp_rank_bin = factor(target_wp_rank_bin, levels = wp_ranks, ordered = TRUE),
        user_edit_bucket = factor(user_edit_bucket, levels = edit_buckets, ordered = TRUE),
        user_rights_level = factor(user_rights_level, levels = user_rights, ordered = TRUE),
    )
)

others¶

In [28]:

cx_data_final <- (
    cx_data_final %>%
    mutate(
        target_bytes = as.integer(target_bytes),
        duration_mins = as.numeric(duration_mins),
        mt_pct = mt_pct * 100,
        human_pct = human_pct * 100
    )
)

Export data¶

In [29]:

nulls_final <- data.frame(
    col = names(colSums(is.na(cx_data_final))),
    null_count = colSums(is.na(cx_data_final))
) %>% filter(null_count > 0)

nulls_final

A data.frame: 3 × 2
	col	null_count
	<chr>	<dbl>
is_source_std_quality	is_source_std_quality	3563
is_source_human	is_source_human	3404
target_bytes	target_bytes	35

In [30]:

cx_data_final <- cx_data_final %>% filter(!is.na(is_source_std_quality) & !is.na(target_bytes) & !is.na(is_source_human))

In [31]:

final_null_pct <- round((1 - nrow(cx_data_final) / nrow(cx_data)) * 100, 2)
glue('Percentage of collected data omitted due to null values: {final_null_pct}%')

'Percentage of collected data omitted due to null values: 0.67%'

In [32]:

row.names(cx_data_final) <- NULL
saveRDS(cx_data_final, 'secrets/cx_data.rds')

In [33]:

write.table(cx_data_final, "secrets/cx_data.tsv", sep = "\t", row.names = FALSE, quote = FALSE)

Check data types¶

In [34]:

sapply(cx_data_final, class)

$target_rev_id

'integer'

$source_bytes

'integer'

$is_source_std_quality

'logical'

$is_source_human

'logical'

$source_wp_rank_bin

'ordered'
'factor'

$target_bytes

'integer'

$is_target_std_quality

'logical'

$target_wp_rank_bin

'ordered'
'factor'

$is_mt_available

'logical'

$mt_pct

'numeric'

$human_pct

'numeric'

$duration_mins

'numeric'

$is_mobile_edit

'logical'

$is_first_edit

'logical'

$user_edit_bucket

'ordered'
'factor'

$user_rights_level

'ordered'
'factor'

$secs_since_prev_edit

'numeric'

$creations_1hr

'integer'

$creations_6hr

'integer'

$creations_24hr

'integer'

$creations_72hr

'integer'

$creations_7days

'integer'

$creations_15days

'integer'

$creations_30days

'integer'

$is_page_deleted

'logical'

In [ ]: