进行数据采集的时候,处理Unciode是件麻烦的事情。默认的情况下,MySql也不支持Unicode字符处理(可以自己设置)。所以可以在一开始让数据库支持Unicode(数据库的表在最后)
ALTER DATABASE scraping CHARACTER SET = utf8mb4_unicode_ci;
ALTER TABLE pages CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
ALTER TABLE pages CHANGE title title VARCHAR(200) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
ALTER TABLE pages CHANGE content content VARCHAR(1000) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
这四行语句改变了数据库、数据表,以及两个字段的默认编码从utf8mb4转变成 utf8mb4_unicode_ci ;
这样就可以在title和content中插入汉语字符