depot/third_party/nixpkgs/pkgs/development/python-modules/tokenizers/default.nix

{ lib
, stdenv
, buildPythonPackage
, datasets
, fetchFromGitHub
, fetchurl
, libiconv
, numpy
, openssl
, pkg-config
, pytestCheckHook
, pythonOlder
, requests
, rustPlatform
, Security
, setuptools-rust
}:

let
  # See https://github.com/huggingface/tokenizers/blob/main/bindings/python/tests/utils.py for details
  # about URLs and file names
  robertaVocab = fetchurl {
    url = "https://s3.amazonaws.com/models.huggingface.co/bert/roberta-base-vocab.json";
    sha256 = "0m86wpkfb2gdh9x9i9ng2fvwk1rva4p0s98xw996nrjxs7166zwy";
  };
  robertaMerges = fetchurl {
    url = "https://s3.amazonaws.com/models.huggingface.co/bert/roberta-base-merges.txt";
    sha256 = "1idd4rvkpqqbks51i2vjbd928inw7slij9l4r063w3y5fd3ndq8w";
  };
  albertVocab = fetchurl {
    url = "https://s3.amazonaws.com/models.huggingface.co/bert/albert-base-v1-tokenizer.json";
    sha256 = "1hra9pn8rczx7378z88zjclw2qsdrdwq20m56sy42s2crbas6akf";
  };
  bertVocab = fetchurl {
    url = "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-vocab.txt";
    sha256 = "18rq42cmqa8zanydsbzrb34xwy4l6cz1y900r4kls57cbhvyvv07";
  };
  norvigBig = fetchurl {
    url = "https://norvig.com/big.txt";
    sha256 = "0yz80icdly7na03cfpl0nfk5h3j3cam55rj486n03wph81ynq1ps";
  };
  docPipelineTokenizer = fetchurl {
    url = "https://s3.amazonaws.com/models.huggingface.co/bert/anthony/doc-pipeline/tokenizer.json";
    hash = "sha256-i533xC8J5CDMNxBjo+p6avIM8UOcui8RmGAmK0GmfBc=";
  };
  docQuicktourTokenizer = fetchurl {
    url = "https://s3.amazonaws.com/models.huggingface.co/bert/anthony/doc-quicktour/tokenizer.json";
    hash = "sha256-ipY9d5DR5nxoO6kj7rItueZ9AO5wq9+Nzr6GuEIfIBI=";
  };
  openaiVocab = fetchurl {
    url = "https://s3.amazonaws.com/models.huggingface.co/bert/openai-gpt-vocab.json";
    sha256 = "0y40gc9bixj5rxv674br1rxmxkd3ly29p80x1596h8yywwcrpx7x";
  };
  openaiMerges = fetchurl {
    url = "https://s3.amazonaws.com/models.huggingface.co/bert/openai-gpt-merges.txt";
    sha256 = "09a754pm4djjglv3x5pkgwd6f79i2rq8ydg0f7c3q1wmwqdbba8f";
  };
in
buildPythonPackage rec {
  pname = "tokenizers";
  version = "0.12.1";

  disabled = pythonOlder "3.7";

  src = fetchFromGitHub {
    owner = "huggingface";
    repo = pname;
    rev = "python-v${version}";
    hash = "sha256-XIXKgcqa6ToAH4OkyaaJALOS9F+sD8d5Z71RttRcIsw=";
  };

  cargoDeps = rustPlatform.fetchCargoTarball {
    inherit src sourceRoot;
    name = "${pname}-${version}";
    sha256 = "sha256-Euvf0LNMa2Od+6gY1Ldge/7VPrH5mJoZduRRsb+lM/E=";
  };

  sourceRoot = "source/bindings/python";

  nativeBuildInputs = [
    pkg-config
    setuptools-rust
  ] ++ (with rustPlatform; [
    cargoSetupHook
    rust.cargo
    rust.rustc
  ]);

  buildInputs = [
    openssl
  ] ++ lib.optionals stdenv.isDarwin [
    libiconv
    Security
  ];

  propagatedBuildInputs = [
    numpy
  ];

  nativeCheckInputs = [
    datasets
    pytestCheckHook
    requests
  ];

  postUnpack = ''
    # Add data files for tests, otherwise tests attempt network access
    mkdir $sourceRoot/tests/data
    ( cd $sourceRoot/tests/data
      ln -s ${robertaVocab} roberta-base-vocab.json
      ln -s ${robertaMerges} roberta-base-merges.txt
      ln -s ${albertVocab} albert-base-v1-tokenizer.json
      ln -s ${bertVocab} bert-base-uncased-vocab.txt
      ln -s ${docPipelineTokenizer} bert-wiki.json
      ln -s ${docQuicktourTokenizer} tokenizer-wiki.json
      ln -s ${norvigBig} big.txt
      ln -s ${openaiVocab} openai-gpt-vocab.json
      ln -s ${openaiMerges} openai-gpt-merges.txt )
  '';

  preCheck = ''
    export HOME=$(mktemp -d);
  '';

  pythonImportsCheck = [
    "tokenizers"
  ];

  disabledTests = [
    # Downloads data using the datasets module
    "TestTrainFromIterators"
    # Those tests require more data
    "test_from_pretrained"
    "test_from_pretrained_revision"
    "test_continuing_prefix_trainer_mistmatch"
  ];

  meta = with lib; {
    description = "Fast State-of-the-Art Tokenizers optimized for Research and Production";
    homepage = "https://github.com/huggingface/tokenizers";
    license = licenses.asl20;
    maintainers = with maintainers; [ ];
    platforms = platforms.unix;
  };
}
Project import generated by Copybara. GitOrigin-RevId: 536fe36e23ab0fc8b7f35c24603422eee9fc17a2 2021-02-05 17:12:51 +00:00			`{ lib`
Project import generated by Copybara. GitOrigin-RevId: 395879c28386e1abf20c7ecacd45880759548391 2021-12-19 01:06:50 +00:00			`, stdenv`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`, buildPythonPackage`
			`, datasets`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`, fetchFromGitHub`
			`, fetchurl`
Project import generated by Copybara. GitOrigin-RevId: 395879c28386e1abf20c7ecacd45880759548391 2021-12-19 01:06:50 +00:00			`, libiconv`
Project import generated by Copybara. GitOrigin-RevId: 34ad166a830d3ac1541dcce571c52231f2f0865a 2020-11-03 02:18:15 +00:00			`, numpy`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`, openssl`
			`, pkg-config`
Project import generated by Copybara. GitOrigin-RevId: 34ad166a830d3ac1541dcce571c52231f2f0865a 2020-11-03 02:18:15 +00:00			`, pytestCheckHook`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`, pythonOlder`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`, requests`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`, rustPlatform`
			`, Security`
			`, setuptools-rust`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`}:`

			`let`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`# See https://github.com/huggingface/tokenizers/blob/main/bindings/python/tests/utils.py for details`
			`# about URLs and file names`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`robertaVocab = fetchurl {`
			`url = "https://s3.amazonaws.com/models.huggingface.co/bert/roberta-base-vocab.json";`
			`sha256 = "0m86wpkfb2gdh9x9i9ng2fvwk1rva4p0s98xw996nrjxs7166zwy";`
			`};`
			`robertaMerges = fetchurl {`
			`url = "https://s3.amazonaws.com/models.huggingface.co/bert/roberta-base-merges.txt";`
			`sha256 = "1idd4rvkpqqbks51i2vjbd928inw7slij9l4r063w3y5fd3ndq8w";`
			`};`
Project import generated by Copybara. GitOrigin-RevId: 34ad166a830d3ac1541dcce571c52231f2f0865a 2020-11-03 02:18:15 +00:00			`albertVocab = fetchurl {`
			`url = "https://s3.amazonaws.com/models.huggingface.co/bert/albert-base-v1-tokenizer.json";`
			`sha256 = "1hra9pn8rczx7378z88zjclw2qsdrdwq20m56sy42s2crbas6akf";`
			`};`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`bertVocab = fetchurl {`
			`url = "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-vocab.txt";`
			`sha256 = "18rq42cmqa8zanydsbzrb34xwy4l6cz1y900r4kls57cbhvyvv07";`
			`};`
Project import generated by Copybara. GitOrigin-RevId: 34ad166a830d3ac1541dcce571c52231f2f0865a 2020-11-03 02:18:15 +00:00			`norvigBig = fetchurl {`
			`url = "https://norvig.com/big.txt";`
			`sha256 = "0yz80icdly7na03cfpl0nfk5h3j3cam55rj486n03wph81ynq1ps";`
			`};`
Project import generated by Copybara. GitOrigin-RevId: a371c1071161104d329f6a85d922fd92b7cbab63 2020-11-12 09:05:59 +00:00			`docPipelineTokenizer = fetchurl {`
			`url = "https://s3.amazonaws.com/models.huggingface.co/bert/anthony/doc-pipeline/tokenizer.json";`
			`hash = "sha256-i533xC8J5CDMNxBjo+p6avIM8UOcui8RmGAmK0GmfBc=";`
			`};`
			`docQuicktourTokenizer = fetchurl {`
			`url = "https://s3.amazonaws.com/models.huggingface.co/bert/anthony/doc-quicktour/tokenizer.json";`
			`hash = "sha256-ipY9d5DR5nxoO6kj7rItueZ9AO5wq9+Nzr6GuEIfIBI=";`
			`};`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`openaiVocab = fetchurl {`
			`url = "https://s3.amazonaws.com/models.huggingface.co/bert/openai-gpt-vocab.json";`
			`sha256 = "0y40gc9bixj5rxv674br1rxmxkd3ly29p80x1596h8yywwcrpx7x";`
			`};`
			`openaiMerges = fetchurl {`
			`url = "https://s3.amazonaws.com/models.huggingface.co/bert/openai-gpt-merges.txt";`
			`sha256 = "09a754pm4djjglv3x5pkgwd6f79i2rq8ydg0f7c3q1wmwqdbba8f";`
			`};`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`in`
			`buildPythonPackage rec {`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`pname = "tokenizers";`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`version = "0.12.1";`

			`disabled = pythonOlder "3.7";`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00
			`src = fetchFromGitHub {`
			`owner = "huggingface";`
			`repo = pname;`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`rev = "python-v${version}";`
			`hash = "sha256-XIXKgcqa6ToAH4OkyaaJALOS9F+sD8d5Z71RttRcIsw=";`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`};`

Project import generated by Copybara. GitOrigin-RevId: 29b0d4d0b600f8f5dd0b86e3362a33d4181938f9 2021-03-09 03:18:52 +00:00			`cargoDeps = rustPlatform.fetchCargoTarball {`
			`inherit src sourceRoot;`
			`name = "${pname}-${version}";`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`sha256 = "sha256-Euvf0LNMa2Od+6gY1Ldge/7VPrH5mJoZduRRsb+lM/E=";`
Project import generated by Copybara. GitOrigin-RevId: 29b0d4d0b600f8f5dd0b86e3362a33d4181938f9 2021-03-09 03:18:52 +00:00			`};`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00
			`sourceRoot = "source/bindings/python";`

Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`nativeBuildInputs = [`
			`pkg-config`
			`setuptools-rust`
			`] ++ (with rustPlatform; [`
Project import generated by Copybara. GitOrigin-RevId: 29b0d4d0b600f8f5dd0b86e3362a33d4181938f9 2021-03-09 03:18:52 +00:00			`cargoSetupHook`
			`rust.cargo`
			`rust.rustc`
			`]);`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`buildInputs = [`
			`openssl`
			`] ++ lib.optionals stdenv.isDarwin [`
Project import generated by Copybara. GitOrigin-RevId: 395879c28386e1abf20c7ecacd45880759548391 2021-12-19 01:06:50 +00:00			`libiconv`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`Security`
Project import generated by Copybara. GitOrigin-RevId: 395879c28386e1abf20c7ecacd45880759548391 2021-12-19 01:06:50 +00:00			`];`

Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`propagatedBuildInputs = [`
Project import generated by Copybara. GitOrigin-RevId: 34ad166a830d3ac1541dcce571c52231f2f0865a 2020-11-03 02:18:15 +00:00			`numpy`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`];`

Project import generated by Copybara. GitOrigin-RevId: a100acd7bbf105915b0004427802286c37738fef 2023-02-02 18:25:31 +00:00			`nativeCheckInputs = [`
Project import generated by Copybara. GitOrigin-RevId: 536fe36e23ab0fc8b7f35c24603422eee9fc17a2 2021-02-05 17:12:51 +00:00			`datasets`
Project import generated by Copybara. GitOrigin-RevId: 34ad166a830d3ac1541dcce571c52231f2f0865a 2020-11-03 02:18:15 +00:00			`pytestCheckHook`
			`requests`
			`];`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00
			`postUnpack = ''`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`# Add data files for tests, otherwise tests attempt network access`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`mkdir $sourceRoot/tests/data`
			`( cd $sourceRoot/tests/data`
			`ln -s ${robertaVocab} roberta-base-vocab.json`
			`ln -s ${robertaMerges} roberta-base-merges.txt`
Project import generated by Copybara. GitOrigin-RevId: 34ad166a830d3ac1541dcce571c52231f2f0865a 2020-11-03 02:18:15 +00:00			`ln -s ${albertVocab} albert-base-v1-tokenizer.json`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`ln -s ${bertVocab} bert-base-uncased-vocab.txt`
Project import generated by Copybara. GitOrigin-RevId: a371c1071161104d329f6a85d922fd92b7cbab63 2020-11-12 09:05:59 +00:00			`ln -s ${docPipelineTokenizer} bert-wiki.json`
			`ln -s ${docQuicktourTokenizer} tokenizer-wiki.json`
Project import generated by Copybara. GitOrigin-RevId: 34ad166a830d3ac1541dcce571c52231f2f0865a 2020-11-03 02:18:15 +00:00			`ln -s ${norvigBig} big.txt`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`ln -s ${openaiVocab} openai-gpt-vocab.json`
			`ln -s ${openaiMerges} openai-gpt-merges.txt )`
			`'';`

Project import generated by Copybara. GitOrigin-RevId: 536fe36e23ab0fc8b7f35c24603422eee9fc17a2 2021-02-05 17:12:51 +00:00			`preCheck = ''`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`export HOME=$(mktemp -d);`
Project import generated by Copybara. GitOrigin-RevId: 536fe36e23ab0fc8b7f35c24603422eee9fc17a2 2021-02-05 17:12:51 +00:00			`'';`

Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`pythonImportsCheck = [`
			`"tokenizers"`
			`];`

Project import generated by Copybara. GitOrigin-RevId: 536fe36e23ab0fc8b7f35c24603422eee9fc17a2 2021-02-05 17:12:51 +00:00			`disabledTests = [`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`# Downloads data using the datasets module`
Project import generated by Copybara. GitOrigin-RevId: 536fe36e23ab0fc8b7f35c24603422eee9fc17a2 2021-02-05 17:12:51 +00:00			`"TestTrainFromIterators"`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`# Those tests require more data`
			`"test_from_pretrained"`
			`"test_from_pretrained_revision"`
			`"test_continuing_prefix_trainer_mistmatch"`
Project import generated by Copybara. GitOrigin-RevId: 536fe36e23ab0fc8b7f35c24603422eee9fc17a2 2021-02-05 17:12:51 +00:00			`];`

Project import generated by Copybara. GitOrigin-RevId: b3616bd96400ce0252c241d76fcafb64389defc6 2021-01-15 22:18:51 +00:00			`meta = with lib; {`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`description = "Fast State-of-the-Art Tokenizers optimized for Research and Production";`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`homepage = "https://github.com/huggingface/tokenizers";`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`license = licenses.asl20;`
Project import generated by Copybara. GitOrigin-RevId: bc9b956714ed6eac5f8888322aac5bc41389defa 2021-09-18 10:52:07 +00:00			`maintainers = with maintainers; [ ];`
Project import generated by Copybara. GitOrigin-RevId: 3d7435c638baffaa826b85459df0fff47f12317d 2022-06-16 17:23:12 +00:00			`platforms = platforms.unix;`
Project import generated by Copybara. GitOrigin-RevId: a5cc7d3197705f933d88e97c0c61849219ce76c1 2020-07-18 16:06:22 +00:00			`};`
			`}`