RFC4180:CSV

发表于 2018-12-16 更新于 2025-12-11 分类于 Spec Waline：阅读次数：本文字数： 1.1k 阅读时长 ≈ 2 分钟

CSV 格式的定义

每条记录都位于一条单独的行上，由行分隔符(CRLF)分开。例如：

1 2	aaa,bbb,ccc CRLF zzz,yyy,xxx CRLF

文件中的最后一条记录可能有也可能没有结束符标志，例如：

1 2	aaa,bbb,ccc CRLF zzz,yyy,xxx

第一行可能存在标题行，包含记录字段的对应名称，标题行的标题数与记录字段数相同。例如:

1
2
3

field_name,field_name,field_name CRLF
aaa,bbb,ccc CRLF
zzz,yyy,xxx CRLF

在标题和记录中，可能有一个或多个字段，使用,号分隔，最后一个字段记录后面不能有分隔符。例如:

1	AAA,BBB,CCC

每个字段可能包含在双引号，也可能不包含在内(microsoft excel 没有使用双引号)。如果字段没有用双引号括起来，那么双引号可能不会出现在字段内。例如：

1 2	"aaa","bbb","ccc"CRLF ZZZ,YYY,XXX

如果字段包含换行符(CRLF)，双引号，和逗号，那么字段值应该被包含在双引号中，例如:

1 2	"aaa","b CRLFbb","ccc" CRLF zzz,yyy,xxx

如果使用双引号括起字段，要在一个字段内使用双引号必须通过在前面添加另一个双引号的方式进行转义。例如:

1	"aaa","b""bb","ccc"

ABNF 语法

file = [header CRLF] record *(CRLF record) [CRLF]
header = name *(COMMA name)
record = field *(COMMA field)
name = field
field = (escaped / non-escaped)
escaped = DQUOTE *(TEXTDATA / COMMA / CR / LF / 2DQUOTE) DQUOTE
non-escaped = *TEXTDATA
COMMA = %x2C
CR = %x0D ;as per section 6.1 of RFC 2234 [2]
DQUOTE =  %x22 ;as per section 6.1 of RFC 2234 [2]
LF = %x0A ;as per section 6.1 of RFC 2234 [2]
CRLF = CR LF ;as per section 6.1 of RFC 2234 [2]
TEXTDATA =  %x20-21 / %x23-2B / %x2D-7E

mysql-批量执行优化

发表于 2018-12-05 更新于 2025-12-11 分类于 MySQL Waline：阅读次数：本文字数： 3.1k 阅读时长 ≈ 5 分钟

本文介绍如何批量执行 mysql 语句。

阅读全文 »

mysql报错 illegal mix of collations

发表于 2018-12-04 更新于 2025-12-11 分类于 MySQL Waline：阅读次数：本文字数： 3.3k 阅读时长 ≈ 5 分钟

尝试复现问题

首先创建数据库。

1
2
3

CREATE SCHEMA `tmp` DEFAULT CHARACTER SET utf8 COLLATE utf8_danish_ci ;
flush privileges;
grant all privileges on tmp.*  to 'victorchu'@'localhost' ;

接下来创建表A。

CREATE TABLE IF NOT EXISTS `tmp`.`A`(
  `id` INT NOT NULL,
  `name` VARCHAR(45) NULL,
  `b_name` VARCHAR(45) NULL,
  PRIMARY KEY (`id`))
ENGINE = InnoDB
DEFAULT CHARACTER SET = utf8;

INSERT INTO `tmp`.`A` (`id`, `name`, `b_name`) VALUES ('1', '1', '1');
INSERT INTO `tmp`.`A` (`id`, `name`, `b_name`) VALUES ('2', '2', '2');
INSERT INTO `tmp`.`A` (`id`, `name`, `b_name`) VALUES ('3', '3', '3');

接着创建表B。

CREATE TABLE IF NOT EXISTS `tmp`.`B`(
  `id` INT NOT NULL,
  `name` VARCHAR(45) NULL,
  `result` VARCHAR(45) NULL,
  PRIMARY KEY (`id`))
ENGINE = InnoDB;

INSERT INTO `tmp`.`B` (`id`, `name`, `result`) VALUES ('1', '1', '1');
INSERT INTO `tmp`.`B` (`id`, `name`, `result`) VALUES ('2', '2', '2');
INSERT INTO `tmp`.`B` (`id`, `name`, `result`) VALUES ('3', '3', '3');

异常查询。

use tmp;
select A.id , B.result
from A 
left join B on A.b_name = B.name
where A.id =1;

-- Error Code: 1267. Illegal mix of collations (utf8_general_ci,IMPLICIT) and (utf8_danish_ci,IMPLICIT) for operation '='	0.0011 sec

出现这个错的原因是相等的两个字段字符集不统一的问题。为了确认这一问题，我们来查看数据库字符集编码.

-- 查看MYSQL数据库服务器和数据库字符集
mysql> show variables like 'collation%';
+----------------------+--------------------+
| Variable_name        | Value              |
+----------------------+--------------------+
| collation_connection | utf8mb4_0900_ai_ci |
| collation_database   | utf8_danish_ci     |
| collation_server     | utf8mb4_0900_ai_ci |
+----------------------+--------------------+
-- 查看库的字符集
-- 结果省略部分
mysql> SHOW CREATE DATABASE tmp;
+----------+------------------------------------------------------------------------------+
| Database | Create Database                                                              |
+----------+------------------------------------------------------------------------------+
| tmp      | CREATE DATABASE `tmp` /*DEFAULT CHARACTER SET utf8 COLLATE utf8_danish_ci */ |
+----------+------------------------------------------------------------------------------+

-- 查看表的字符集
-- 结果省略部分列
mysql> show table status from tmp like 'A';
+-----------------+
| Collation       |
+-----------------+
| utf8_general_ci |
+-----------------+
mysql> show table status from tmp like 'B';
+----------------+
 Collation      |
+----------------+
| utf8_danish_ci |
+----------------+

-- 查看表中所有列的字符集
-- 结果省略部分列
mysql> show full columns from A;
+--------+-------------+-----------------+
| Field  | Type        | Collation       |
+--------+-------------+-----------------+
| id     | int         | NULL            | 
| name   | varchar(45) | utf8_general_ci | 
| b_name | varchar(45) | utf8_general_ci | 
+--------+-------------+-----------------+
mysql> show full columns from B;
+--------+-------------+----------------+
| Field  | Type        | Collation      | 
+--------+-------------+----------------+
| id     | int         | NULL           |
| name   | varchar(45) | utf8_danish_ci |
| result | varchar(45) | utf8_danish_ci | 
+--------+-------------+----------------+

解决方案

修改数据库字符集：ALTER DATABASE db_name DEFAULT CHARACTER SET character_name [COLLATE ...];
把表默认的字符集和所有字符列（CHAR,VARCHAR,TEXT）改为新的字符集：ALTER TABLE tbl_name CONVERT TO CHARACTER SET character_name [COLLATE ...]
修改表的默认字符集：ALTER TABLE tbl_name DEFAULT CHARACTER SET character_name [COLLATE...];
修改字段的字符集：ALTER TABLE tbl_name CHANGE c_name c_name CHARACTER SET character_name [COLLATE ...];

mysql使用问题:group concat

发表于 2018-12-03 更新于 2025-12-11 分类于 MySQL Waline：阅读次数：本文字数： 990 阅读时长 ≈ 2 分钟

MySQL提供的group_concat()函数可以拼接某个字段值成字符串，如 select group_concat(user_name) from sys_user,默认的分隔符是逗号，即,，如果需要自定义分隔符可以使用 SEPARATOR.如：select group_concat(user_name SEPARATOR '_') from sys_user。

但是如果 user_name 拼接的字符串的长度字节超过1024 则会被截断。通过命令show variables like 'group_concat_max_len'来查看group_concat 默认的长度：

mysql> show variables like 'group_concat_max_len';
+----------------------+-------+
| Variable_name | Value |
+----------------------+-------+
| group_concat_max_len | 1024 |
+----------------------+-------+
1 row in set

在MySQL配置文件中添加配置：group_concat_max_len = -1 （-1为最大值或根据实际需求设置长度），配置后需要重启MySQL服务，查看如下所示:

mysql> show variables like 'group_concat_max_len';
+----------------------+------------+
| Variable_name | Value |
+----------------------+------------+
| group_concat_max_len | 4294967295 |
+----------------------+------------+
1 row in set

如果是生产环境下，不能擅自重启MySQL服务，则可以通过语句设置group_concat的作用范围，如：

SET GLOBAL group_concat_max_len=-1;

SET SESSION group_concat_max_len=-1;
-- 使用mybatis时,可以在选择xml中设置 SESSION 中的 group_concat_max_len

Java虚拟机-启动参数详解

发表于 2018-12-02 更新于 2025-12-11 分类于 Java Waline：阅读次数：本文字数： 17k 阅读时长 ≈ 28 分钟

java命令用于启动JVM虚拟机。Java启动参数分为3种:

标准参数: 所有的JVM实现都必须实现这些参数的功能，而且向后兼容。JVM的标准参数都是以”-“开头。
非标准参数: 默认JVM(HotSpot虚拟机)实现这些参数的功能，但是并不保证所有jvm实现都满足，且不保证向后兼容.JVM的非标准参数都是以”-x“开头。
非stable参数：此类参数通常具有特定的系统要求，并且可能需要对系统配置参数的特权访问。各个jvm实现会有所不同，将来可能会随时取消，需要慎重使用。JVM的非stable参数都是以”-xx“开头。

阅读全文 »

算法之KMP字符串匹配

发表于 2018-11-29 更新于 2025-12-11 分类于 Algorithm Waline：阅读次数：本文字数： 5k 阅读时长 ≈ 8 分钟

有一个文本串S，和一个模式串P，现在要查找P在S中的位置，怎么查找呢？

假设主串target为: a b a c a a b a c a b a c a b a a b b,模式串pattern: a b a c a b(为了方便查看，每个字符间用空格隔开)。

用暴力算法匹配字符串过程中，我们会把target[0]跟 pattern[0] 匹配，如果相同则匹配下一个字符，直到出现不相同的情况，此时我们会丢弃前面的匹配信息，然后把target[1]跟 pattern[0] 匹配，循环进行，直到主串结束，或者出现匹配成功的情况。这种丢弃前面的匹配信息的方法，极大地降低了匹配效率。

以上面的字符为例子:pattern的前5个字符abaca可以匹配target的前5个字符,但是pattern[5]和target[5]不匹配。下面重新从target[1]开始和pattern匹配。

显然效率很差，因为你要把"搜索位置"移到已经比较过的位置，重比一遍。

阅读全文 »