Токенизация (иногда – сегментация) -
это соединение кусочков текста воедино.
это разбиение текста на части, по словам, по предложениям и т.п.